Структуры данных для хранения языкового материала: принципы и оптимизация

Обложка

Цитировать

Полный текст

Аннотация

В данной статье представлен универсальный подход к созданию специализированного корпуса аннотированных данных, предназначенного для обучения модели извлечения информации из научной литературы по узкой специализации. Процесс включает в себя сбор данных, разработку принципов аннотирования с учетом лингвистических особенностей академических текстов и контекстуальных характеристик. Обсуждаются как общие структуры данных в программировании (массивы, списки, деревья), так и специализированные (корпусы, лексиконы, онтологии), адаптированные для решения лингвистических задач. Особое внимание уделяется принципам оптимизации, включая унификацию метаданных, многоуровневую разметку, обеспечение репрезентативности и поддержку мультимодальности. Теоретической базой послужили работы по корпусной лингвистике, лингвосемиотическим основаниям изучения научного дискурса, проектированию лингвистических онтологий и разработке структур данных для лингвистических исследований. Рассматривается методология автоматической обработки текстов как неотъемлемый компонент работы с такими структурами, включая классификацию методов (статистические, на основе правил, машинное обучение) и этапы анализа (морфологический, синтаксический, семантический). Теоретическая значимость и практическая ценность работы заключается в том, что она вносит вклад в развитие корпусной лингвистики, в части изучения возможностей и проблем, возникающих в процессе корпусных исследований. Отмечается, что способность структур данных справляться с лингвистической неоднозначностью и отражать сложные взаимосвязи между языковыми элементами, используя механизмы логического вывода и принципы синергетики, является важным критерием для создания интеллектуальных систем. Предполагается дальнейшее использование обученной модели для автоматического извлечения данных из большого массива неразмеченной литературы, которые сформируют граф знаний предметной области. Подобный граф знаний открывает возможности для решения прикладных задач, включая составление частотных словарей по узким научным специальностям, отслеживание тенденции смены терминологического аппарата, в том числе появление новой терминологии.

Об авторах

Татьяна Сергеевна Падерина

Федеральный исследовательский центр «Иркутский институт химии им. А.Е. Фаворского Сибирского отделения Российской академии наук»

Email: jana-pad@mail.ru
ORCID iD: 0000-0002-2603-6242
младший научный сотрудник; лаборатория лингво-педагогических исследований;

Список литературы

  1. Падерина Т. С. Автоматическое извлечение ключевых терминов из корпуса научных статей в SCP // Верхневолжский филологический вестник. 2024. № 3(38). С. 139-144. doi: 10.20323/2499-9679-2024-3-38-139. EDN: PUBMIE.
  2. Костюшкина Г. М., Свердлова Н. А., Баребина Н. С. и др. Лингвосемиотические основания изучения научного дискурса. Москва: Общество с ограниченной ответственностью "ФЛИНТА", 2024. 216 с. ISBN 978-5-9765-5690-4. EDN: TPHYAF.
  3. Падерина Т. С. Методы извлечения терминов в научных текстах (на материале статей по направлению науки о земле) // Казанский лингвистический журнал. 2023. Т. 6, № 3. С. 388-396. doi: 10.26907/2658-3321.2023.6.3.388-396. EDN: VLCYAH.
  4. Бурков А. А. Инженерия машинного обучения / пер. с англ. А. А. Слинкина. Москва: ДМК Пресс, 2022. 306 с.
  5. Чилингарян К. П. Корпусная лингвистика: теория vs методология // Вестник Российского университета дружбы народов. Серия: Теория языка. Семиотика. Семантика. 2021. Т. 12. № 1. С. 196-218. doi: 10.22363/2313-2299-2021-12-1-196-218. EDN: YMIAME.
  6. Риз Р. Обработка естественного языка на Java / Р. Риз; пер. с англ. А. В. Снастина. 2-е изд., эл. Москва: ДМК Пресс, 2023. 266 с.
  7. Junger J. Predicate formation in the verbal system of Modern Hebrew. Amsterdam: University of Amsterdam, 1987. 183 p.
  8. Кравцов Д. В., Коростелев Д. А., Юркова О. Н. Автоматизированная система для построения онтологий предметных областей // Мониторинг. Наука и технологии. 2017. № 1(30). С. 46-50. EDN: YNCCNP.
  9. Лукашевич Н. В., Добров Б. В. Проектирование лингвистических онтологий для информационных систем в широких предметных областях // Онтология проектирования. 2015. Т. 5, № 1(15). С. 47-69. EDN: TOPTMZ.
  10. Наместников А. М., Пирогова Н. Д., Филиппов А. А. Подход к автоматическому построению лингвистической онтологии для определения интересов пользователей социальных сетей // Онтология проектирования. 2021. Т. 11, № 3(41). С. 351-363. doi: 10.18287/2223-9537-2021-11-3-351-363. EDN: JVKREP.
  11. Fabry P., et al. Rethinking Meaning and Ontologies from the Perspective of Ontological Units. 27 Mar. 2025.
  12. Gendron B., et al. Towards Ontology-Based Descriptions of Conversations with Qualitatively-Defined Concepts. 1, arXiv, 2025. https://doi.org/10.48550/ARXIV.2509.04926.
  13. Schalley A. C., Musgrave S., Haugh M. Accessing phonetic variation in spoken language corpora through non-standard orthography // Australian Journal of Linguistics. 2014. 34(1), 139-170. https://doi.org/10.1080/07268602.2014.87545.
  14. Zhang D., et al. Meronymic Ontology Extraction via Large Language Models. 1, arXiv, 2025. https://doi.org/10.48550/ARXIV.2510.13839.
  15. Федотов А. М., Идрисова И. А., Самбетбаева М. А., Федотова О. А. Использование тезауруса в научно-образовательной информационной системе // Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2015. Т. 13, вып. 2. С. 86-102. EDN: UJEXAX.
  16. Федюченко Л. Г. Терминологическая база данных как трансферная модель технического знания: специальность 10.02.21 "Прикладная и математическая лингвистика": диссертация на соискание ученой степени доктора филологических наук. 2021. 407 с. EDN: PUSZLE.
  17. ISO 2788:1986. Guidelines for the establishment and development of monolingual thesauri. 2nd ed. Geneva: International Organization for Standardization, 1986.
  18. Соловьева А. Е. Англоязычные тексты военной авиации как основа лингвистического корпуса // Балтийский гуманитарный журнал. 2019. Т. 8, № 3(28). С. 369-372. doi: 10.26140/bgz3-2019-0803-0093. EDN: MSLXAE.
  19. Антопольский А. Б. Международная стандартизация в сфере управления лингвистическими информационными ресурсами // Научно-техническая информация. Серия 2: Информационные процессы и системы. 2021. № 5. С. 23-32. doi: 10.36535/0548-0027-2021-05-5. EDN: ORIEWZ.
  20. Zeroual I., Lakhouaja A. Data Science in Light of Natural Language Processing: An Overview // Procedia Computer Science. 2018. Vol. 127. Pp. 82-91. Crossref, https://doi.org/10.1016/j.procs.2018.01.101.
  21. Lust B., Blume M., Pareja-Lora A., Chiarcos C. Development of Linguistic Linked Open Data Resources for Collaborative Data-Intensive Research in the Language Sciences: An Introduction. Cambridge: The MIT Press, 2020. https://doi.org/10.7551/mitpress/10990.003.0002.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).