Data structures for storing language materials: principles and optimization

Cover Page

Cite item

Full Text

Abstract

This article presents a universal approach to creating a specialized corpus of annotated data intended for training a model for information extraction from scientific literature in a specific realm. The process includes data collection and the development of annotation principles that take into account the linguistic features of academic texts and contextual characteristics. Both general programming data structures (arrays, lists, and trees) and specialized ones (corpora, lexicons, ontologies) adapted for solving linguistic issues are discussed. Particular attention is paid to optimization principles, including metadata unification, multi-level markup, ensuring representativeness, and supporting multimodality. The theoretical basis was provided by works on corpus linguistics, linguistic-semiotic foundations for studying scientific discourse, designing linguistic ontologies, and developing data structures for linguistic research. The methodology of automatic text processing is considered as an integral component of working with such structures, including the classification of methods (statistical, rule-based, machine learning) and analysis stages (morphological, syntactic, and semantic). The theoretical significance and practical value of the work lies in its contribution to the development of corpus linguistics, in terms of studying the possibilities and problems that arise in the process of corpus research. We note that the ability of data structures to cope with linguistic ambiguity and reflect complex relationships between linguistic elements using logical inference mechanisms and synergetic principles is an important criterion for the creation of intelligent systems. It is assumed that the trained model will be further used to automatically data extraction from a large unmarked literature array, which will form a knowledge graph of the subject area. Such a knowledge graph opens up opportunities for solving applied problems, including the compilation of frequency dictionaries for narrow scientific specialties and tracking trends in changes in terminology, including the emergence of new terminology.

References

  1. Падерина Т. С. Автоматическое извлечение ключевых терминов из корпуса научных статей в SCP // Верхневолжский филологический вестник. 2024. № 3(38). С. 139-144. doi: 10.20323/2499-9679-2024-3-38-139. EDN: PUBMIE.
  2. Костюшкина Г. М., Свердлова Н. А., Баребина Н. С. и др. Лингвосемиотические основания изучения научного дискурса. Москва: Общество с ограниченной ответственностью "ФЛИНТА", 2024. 216 с. ISBN 978-5-9765-5690-4. EDN: TPHYAF.
  3. Падерина Т. С. Методы извлечения терминов в научных текстах (на материале статей по направлению науки о земле) // Казанский лингвистический журнал. 2023. Т. 6, № 3. С. 388-396. doi: 10.26907/2658-3321.2023.6.3.388-396. EDN: VLCYAH.
  4. Бурков А. А. Инженерия машинного обучения / пер. с англ. А. А. Слинкина. Москва: ДМК Пресс, 2022. 306 с.
  5. Чилингарян К. П. Корпусная лингвистика: теория vs методология // Вестник Российского университета дружбы народов. Серия: Теория языка. Семиотика. Семантика. 2021. Т. 12. № 1. С. 196-218. doi: 10.22363/2313-2299-2021-12-1-196-218. EDN: YMIAME.
  6. Риз Р. Обработка естественного языка на Java / Р. Риз; пер. с англ. А. В. Снастина. 2-е изд., эл. Москва: ДМК Пресс, 2023. 266 с.
  7. Junger J. Predicate formation in the verbal system of Modern Hebrew. Amsterdam: University of Amsterdam, 1987. 183 p.
  8. Кравцов Д. В., Коростелев Д. А., Юркова О. Н. Автоматизированная система для построения онтологий предметных областей // Мониторинг. Наука и технологии. 2017. № 1(30). С. 46-50. EDN: YNCCNP.
  9. Лукашевич Н. В., Добров Б. В. Проектирование лингвистических онтологий для информационных систем в широких предметных областях // Онтология проектирования. 2015. Т. 5, № 1(15). С. 47-69. EDN: TOPTMZ.
  10. Наместников А. М., Пирогова Н. Д., Филиппов А. А. Подход к автоматическому построению лингвистической онтологии для определения интересов пользователей социальных сетей // Онтология проектирования. 2021. Т. 11, № 3(41). С. 351-363. doi: 10.18287/2223-9537-2021-11-3-351-363. EDN: JVKREP.
  11. Fabry P., et al. Rethinking Meaning and Ontologies from the Perspective of Ontological Units. 27 Mar. 2025.
  12. Gendron B., et al. Towards Ontology-Based Descriptions of Conversations with Qualitatively-Defined Concepts. 1, arXiv, 2025. https://doi.org/10.48550/ARXIV.2509.04926.
  13. Schalley A. C., Musgrave S., Haugh M. Accessing phonetic variation in spoken language corpora through non-standard orthography // Australian Journal of Linguistics. 2014. 34(1), 139-170. https://doi.org/10.1080/07268602.2014.87545.
  14. Zhang D., et al. Meronymic Ontology Extraction via Large Language Models. 1, arXiv, 2025. https://doi.org/10.48550/ARXIV.2510.13839.
  15. Федотов А. М., Идрисова И. А., Самбетбаева М. А., Федотова О. А. Использование тезауруса в научно-образовательной информационной системе // Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2015. Т. 13, вып. 2. С. 86-102. EDN: UJEXAX.
  16. Федюченко Л. Г. Терминологическая база данных как трансферная модель технического знания: специальность 10.02.21 "Прикладная и математическая лингвистика": диссертация на соискание ученой степени доктора филологических наук. 2021. 407 с. EDN: PUSZLE.
  17. ISO 2788:1986. Guidelines for the establishment and development of monolingual thesauri. 2nd ed. Geneva: International Organization for Standardization, 1986.
  18. Соловьева А. Е. Англоязычные тексты военной авиации как основа лингвистического корпуса // Балтийский гуманитарный журнал. 2019. Т. 8, № 3(28). С. 369-372. doi: 10.26140/bgz3-2019-0803-0093. EDN: MSLXAE.
  19. Антопольский А. Б. Международная стандартизация в сфере управления лингвистическими информационными ресурсами // Научно-техническая информация. Серия 2: Информационные процессы и системы. 2021. № 5. С. 23-32. doi: 10.36535/0548-0027-2021-05-5. EDN: ORIEWZ.
  20. Zeroual I., Lakhouaja A. Data Science in Light of Natural Language Processing: An Overview // Procedia Computer Science. 2018. Vol. 127. Pp. 82-91. Crossref, https://doi.org/10.1016/j.procs.2018.01.101.
  21. Lust B., Blume M., Pareja-Lora A., Chiarcos C. Development of Linguistic Linked Open Data Resources for Collaborative Data-Intensive Research in the Language Sciences: An Introduction. Cambridge: The MIT Press, 2020. https://doi.org/10.7551/mitpress/10990.003.0002.

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).