ONTOLOGIES AS A FOUNDATION FOR FORMALIZATION OF SCIENTIFIC INFORMATION AND EXTRACTING NEW KNOWLEDGE

封面

如何引用文章

全文:

开放存取 开放存取
受限制的访问 ##reader.subscriptionAccessGranted##
受限制的访问 订阅存取

详细

“Ark of Knowledge” is a digital project developed by M. V. Lomonosov Moscow State University. It provides access to fundamental knowledge in Russian and should play a key role in the preservation and dissemination of Russia’s cultural and scientific heritage. “Ark of Knowledge” is an ontological information system. The article discusses modern ideas about ontology, stages of creation, ontological features of BDT and Wikidata, as well as the design of an information system and the use of language models for training. The initial working prototype of this information system is briefly described. Work on creating the system is being carried out by researchers and programmers from the Knowledge Engineering Laboratory of the Institute for Mathematical Research of Complex Systems of Moscow State University, as well as scientists from the Faculty of Philology, Mechanics and Mathematics, the Faculty of Computational Mathematics and Cybernetics, and the Branch of Moscow State University in Sevastopol.

作者简介

A. Bubnov

Knowledge Engineering Laboratory, Institute for Mathematical Research of Complex Systems, Lomonosov Moscow State University

Moscow, Russia

N. Gallini

Vernadsky Crimean Federal University

Simferopol, Russia

I. Grishin

Branch of Lomonosov Moscow State University in the city of Sevastopol

Sevastopol, Russia

I. Kobozeva

Faculty of Philology, Lomonosov Moscow State University

Moscow, Russia

N. Lukashevich

Research Computing Center, Lomonosov Moscow State University

Email: louk_nat@mail.ru
Moscow, Russia

M. Panich

Branch of Lomonosov Moscow State University in the city of Sevastopol

Sevastopol, Russia

E. Raevsky

Faculty of Computational Mathematics and Cybernetics, Lomonosov Moscow State University

Moscow, Russia

F. Sadkovsky

Branch of Lomonosov Moscow State University in the city of Sevastopol

Sevastopol, Russia

R. Timirgaleeva

Branch of Lomonosov Moscow State University in the city of Sevastopol

Sevastopol, Russia

参考

  1. Еременко Г. О. Elibrary.ru: курс на повышение качества контента // Университетская книга, 2016, 3. С. 62–68.
  2. Ginsparg P. ArXiv at 20 // Nature, 2011, 476(7359). P. 145–147. https://doi.org/10.1038/476145a
  3. Jain S. M. Introduction to transformers for NLP: With the Hugging Face library and models to solve problems // Berkeley, CA: Apress, 2022. P. 51–67. ISBN: 9781484288443.
  4. Wang K., Shen Z., Huang C.-Y. et al. Microsoft academic graph: When experts are not enough // Quantitative Science Studies, 2020, 1(1). P. 396–413. https://doi.org/10.1162/qss_a_00021
  5. Lund B. D., Wang T. Chatting about ChatGPT: how may AI and GPT impact academia and libraries? // Library hi tech news, 2023, 40(3). P. 26–29. https://doi.org/10.1108/LHTN-01-2023-0009
  6. Haider J., Söderström K. R. Ekström B. et al. GPTfabricated scientific papers on Google Scholar: Key features, spread, and implications for preempting evidence manipulation // Harvard Kennedy School Misinformation Review, 2024, 5(5). P. 1–16.
  7. Dadkhah M., Oermann M. H., Hegedüs M. et al. Detection of fake papers in the era of artificial intelligence // Diagnosis, 2023, 10(4). P. 390–397. https://doi.org/10.1515/dx-2023-0090
  8. Wittau J., Seifert R. How to fight fake papers: a review on important information sources and steps towards solution of the problem // NaunynSchmiedeberg’s archives of pharmacology, 2024. P. 1–14. https://doi.org/10.1007/s00210-024-03272-8
  9. Kendall G., da Silva J. A. T. Risks of abuse of large language models, like ChatGPT, in scientific publishing: Authorship, predatory publishing, and paper mills // Learned Publishing, 2024, 37(1). P. 55–62. https://doi.org/10.1002/leap.1578
  10. Tirumala K., Simig D., Aghajanyan A. et al. D4: Improving LLM pretraining via document deduplication and diversification // Advances in Neural Information Processing Systems, 2023, 36. P. 53983–53995. https://doi.org/10.48550/arXiv.2308.12284
  11. Beltagy I., Lo K., Cohen A. SciBERT: A Pretrained Language Model for Scientific Text // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 2019. P. 3615–3620. https://doi.org/10.18653/v1/D19-1371
  12. Gerasimenko N. A., Chernyavsky A. S., Nikiforova M. A. RuSciBERT: A transformer language model for obtaining semantic embeddings of scientific texts in Russian // Doklady Mathematics, 2022, 106, Suppl 1. P. S95–S96. https://doi.org/10.1134/S1064562422060072
  13. Горячко В. В., Бубнов А. С., Раевский Е. В., Семенов А. Л. Цифровой ковчег знаний // Доклады Российской академии наук. Математика, информатика, процессы управления, 2022, 508(1). С. 128–133. https://doi.org/10.31857/S2686954322070098
  14. Hogan A., Blomqvist E., Cochez M, et al. Knowledge graphs // ACM Computing Surveys (CSUR), 2021, 54(4). P. 1–37. https://doi.org/10.1145/344777
  15. Dong X., Gabrilovich E., Heitz G., et al. Knowledge vault: A web-scale approach to probabilistic knowledge fusion // Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, 2014. P. 601–610. https://doi.org/10.1145/2623330.2623623
  16. Vrandečić D., Krötzsch M. Wikidata: a free collaborative knowledgebase // Communications of the ACM, 2014, 57(10). P. 78–85. https://doi.org/10.1145/2629489
  17. Shenoy K., Ilievski F., Daniel Garijo D., et al. A study of the quality of Wikidata // Journal of Web Semantics, 2022, 72. P. 100679. https://doi.org/10.1016/j.websem.2021.100679
  18. Hug S. E., Ochsner M., Brändle M. P. Citation analysis with Microsoft academic // Scientometrics, 2017, 111. P. 371–378. https://doi.org/10.1007/s11192-017-2247-8
  19. Васенин В. А. Афонин С. А., Голомазова Д. Д. и др. Интеллектуальная система тематического исследования научно-технической информации (ИСТИНА) // Информационное общество, 2013, 1–2. С. 39–57.
  20. Козицын А. С., Афонин С. А. Алгоритм разрешения неоднозначности имен авторов в ИАС ИСТИНА // Современные информационные технологии и ИТ-образование, 2020, 16(1). С. 108–117. https://doi.org/10.25559/SITITO.16.202001.108-117
  21. Семенов А. Л. Искусственный интеллект в обществе // Доклады РАН. Математика, информатика, процессы управления. Специальный выпуск “Технологии искусственного интеллекта и машинного обучения”. 2023, 514(2). С. 6–19. https://doi.org/10.31857/S2686954323350023
  22. Wille R. Formal Concept Analysis as Mathematical Theory of Concepts and Concept Hierarchies // In: Ganter B., Stumme G., Wille R. (eds) Formal Concept Analysis. Lecture Notes in Computer Science, 2005, 3626. Springer, Berlin, Heidelberg. P. 1–33. https://doi.org/10.1007/11528784_1
  23. Лукашевич Н. В., Добров Б. В., Павлов А. М., Штернов С. В. Онтологические ресурсы и информационно-аналитическая система в предметной области “безопасность” // Онтология проектирования, 2018, 1(27). https://cyberleninka.ru/article/n/ontologicheskie-resursy-i-informionno-analiticheskaya-sis-tema-v-predmetnoy-oblasti-bezopasnost (дата обращения: 01.10.2024).
  24. Семенов А. Л., Раевский Е. Н., Бубнов А. С. и др. Универсальная энциклопедическая платформа работы со знанием // Современные информационные технологии и ИТ-образование. 2023, 19(3). С. 696–703.
  25. https://doi.org/10.25559/SITITO.019.202303.696-703

补充文件

附件文件
动作
1. JATS XML

版权所有 © Russian Academy of Sciences, 2024

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».