Разноуровневая обработка естественного языка для интеллектуального поиска и анализа текстов

Обложка

Цитировать

Полный текст

Аннотация

В работе рассматривается проблема применения методов разноуровневой обработки естественного языка в решении различных задач интеллектуального поиска и анализа текстов. Показано, в каких задачах и как используется лингвистическая информацию о структуре текста и предложений, получаемая в результате син- таксического, семантического и дискурсивного анализа текстов. Представлены результаты разработки методов разноуровневой обработки русского языка и их применение в задачах семантического и вопросно-ответного поиска, извлечения информации из текстов, классификации текстов и психолингвистического анализа текстов.

Полный текст

Доступ закрыт

Об авторах

Иван Валентинович Смирнов

Федеральный исследовательский центр «Информатика и управление» Российской академии наук

Автор, ответственный за переписку.
Email: ivs@isa.ru

Кандидат физико-математических наук, доцент. Заведующий отделом «Интеллектуальный анализ информации»

Россия, Москва

Список литературы

  1. Kamath U., Liu J., Whitaker J. Deep learning for NLP and speech recognition. – Cham, Switzerland: Springer. 2019. Т. 84.
  2. Glavaš G., Vulić I. Is supervised syntactic parsing beneficial for language understanding tasks? an empirical investigation //Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume. 2021. Р. 3090-3104.
  3. Sachan D. S. et al. Do syntax trees help pre-trained transformers extract information? //arXiv preprint arXiv:2008.09084. 2020.
  4. Mohebbi M., Razavi S. N., Balafar M. A. Computing semantic similarity of texts based on deep graph learning with ability to use semantic role label information//Scientific reports. – 2022. Т. 12. №. 1. Р. 1-11.
  5. Yang J. et al. Measuring the short text similarity based on semantic and syntactic information //Future Generation Computer Systems. 2021. Т. 114. Р. 169-180.
  6. Tymoshenko K., Moschitti A. Assessing the impact of syntactic and semantic structures for answer passages reranking //Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. 2015. Р. 1451-1460.
  7. Galitsky B. A., De La Rosa J. L., Dobrocsi G. Inferring the semantic properties of sentences by mining syntactic parse trees //Data & Knowledge Engineering. 2012. Т. 81. Р. 21-45.
  8. Galitsky B. Machine learning of syntactic parse trees for search and classification of text //Engineering Applications of Artificial Intelligence. 2013. Т. 26. №. 3. Р. 1072-1091.
  9. Reddy S. et al. Universal semantic parsing //arXiv preprint arXiv:1702.03196. 2017.
  10. Galitsky B., Ilvovsky D. Chatbot with a discourse structure-driven dialogue management //Proceedings of the Software Demonstrations of the 15th Conference of the European Chapter of the Association for Computational Linguistics. 2017. Р. 87-90.
  11. Hou S., Zhang S., Fei C. Rhetorical structure theory: A comprehensive review of theory, parsing methods and applications //Expert Systems with Applications. 2020. V.157. P. 113421.
  12. Vargas F. et al. Rhetorical structure approach for online deception detection: A survey //Proceedings of the Thirteenth Language Resources and Evaluation Conference. 2022. Р. 5906-5915.
  13. Green N. L. Representation of argumentation in text with rhetorical structure theory //Argumentation. 2010. Т. 24. №. 2. Р. 181-196.
  14. Small S. G., Medsker L. Review of information extraction technologies and applications //Neural computing and applications. 2014. Т. 25. №. 3. Р. 533-548.
  15. Xiang W., Wang B. A survey of event extraction from text//IEEE Access. 2019. Т. 7. Р. 173111-173137.
  16. Adnan K., Akbar R. An analytical study of information extraction from unstructured and multidimensional big data //Journal of Big Data. 2019. Т. 6. №. 1. Р. 1-38.
  17. Zadgaonkar A. V., Agrawal A. J. An overview of information extraction techniques for legal document analysis and processing //International Journal of Electrical & Computer Engineering (2088-8708). 2021. Т. 11. №. 6.
  18. Tian Y. et al. Improving biomedical named entity recognition with syntactic information //BMC bioinformatics. 2020. Т. 21. №. 1. Р. 1-17.
  19. Chinsha T. C., Joseph S. A syntactic approach for aspect based opinion mining //Proceedings of the 2015 IEEE 9th International Conference on Semantic Computing (IEEE ICSC 2015). IEEE. 2015. Р. 24-31.
  20. Rahimi Z., Noferesti S., Shamsfard M. Applying data mining and machine learning techniques for sentiment shifter identification //Language Resources and Evaluation. 2019. Т. 53. №. 2. Р. 279-302.
  21. Feldman D. G., Vorontsov K. V., Sadekova T. R. Combining facts, semantic roles and sentiment lexicon in a generative model for opinion mining //Computational Linguistics and Intellectual Technologies. 2020. Р. 283-298.
  22. Mohammad S., Zhu X., Martin J. Semantic role labeling of emotions in tweets //Proceedings of the 5th Workshop on Computational Approaches to Subjectivity, Sentiment and Social Media Analysis. 2014. Р. 32-41.
  23. Campagnano C., Conia S., Navigli R. SRL4E–Semantic Role Labeling for Emotions: A Unified Evaluation Framework //Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2022. Р. 4586-4601.
  24. Xu K. et al. Exploiting rich syntactic information for semantic parsing with graph-to-sequence model //arXiv preprint arXiv:1808.07624. 2018.
  25. Осипов Г.С., Смирнов И.В., Тихомиров И.А. Реляционно-ситуационный метод поиска и анализа текстов и его приложения // Искусственный интеллект и принятие решений. 2008. №2. С. 3-10.
  26. Смирнов И.В., Шелманов А.О., Кузнецова Е.С., Храмоин И.В. Семантико-синтаксический анализ естественных языков. Часть II. Метод семантико-синтаксического анализа текстов // Искусственный интеллект и принятие решений. 2014. №1. С. 11-24.
  27. Shelmanov A. O., Smirnov I. V., Methods for Semantic Role Labeling of Russian Texts // Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference "Dialogue" - 2014. Issue 13 (20). 2014. Р. 580-592.
  28. Larionov D., Shelmanov A., Chistova E., Smirnov I. Semantic role labeling with pretrained language models for known and unknown predicates // Proceedings of International Conference on Recent Advances of Natural Language Processing. 2019. Р. 619-628.
  29. Mann W. C., Thompson S. A. Rhetorical structure theory: Toward a functional theory of text organization //Text-Interdisciplinary Journal for the Study of Discourse. 1988. Т. 8. №. 3. Р. 243-281.
  30. Chistova E., Shelmanov A., Pisarevskaya D., Kobozeva M., Isakov V., Panchenko A., Toldova S., Smirnov I. RST Discourse Parser for Russian: an Experimental Study of Deep Learning Models //International Conference on Analysis of Images, Social Networks and Texts. – Lecture Notes in Computer Science, vol 12602, Springer, Cham. 2021. Р. 105-119.
  31. Осипов Г.С. Приобретение знаний интеллектуальными системами: Основы теории и технологии. М.: Наука, Физматлит. 1997.
  32. Тихомиров И.А, Смирнов И.В. Интеграция лингвистических и статистических методов поиска в поисковой машине Exactus // Труды международной конференции «Диалог» -2008. М.: Издательский центр РГГУ. 2008. С. 485-491.
  33. Смирнов И.В., Соченков И.В., Муравьев В.В., Тихомиров И. А. Результаты и перспективы поискового алгоритма Exactus // Труды российского семинара по оценке методов информационного поиска РОМИП'2007-2008. Санкт-Петербург. НУ ЦСИ. 2008. С. 66-76.
  34. Шелманов А.О., Каменская М.И., Ананьева И.В., Смирнов И.В. Семантико-синтаксический анализ текстов в задачах вопросно-ответного поиска и извлечения определений // Искусственный интеллект и принятие решений. 2016. № 4. C. 47–61.
  35. Шелманов А.О., Девяткин Д.А., Исаков В.А., Смирнов И.В. Открытое извлечение информации из текстов. Часть II. Извлечение семантических отношений с помощью машинного обучения без учителя // Искусственный интеллект и принятие решений. 2019. № 2. С. 39–49.
  36. Чистова Е. В., Ларионов Д. С., Шелманов А. О., Латыпова Е. А., Смирнов И. В. Открытое извлечение информации из текстов. Часть III. Система вопросно-ответного поиска //Искусственный интеллект и принятие решений. 2021. №. 4. С. 35-49.
  37. Кузнецова Ю.М., Осипов Г.С., Чудова Н.В., Швец А.В. Автоматическое установление соответствия статей требованиям к научным публикациям. Труды ИСА РАН. 2012. Т. 62. Вып. 3. С. 132-138.
  38. Chistova E. and Smirnov I. Discourse-aware text classification for argument mining // Computational Linguistics and Intellectual Technologies. Papers from the Annual International Conference "Dialogue" - 2022. 2022. Р. 93-105.
  39. Ениколопов С. Н., Кузнецова Ю. М., Осипов Г. С., Смирнов И. В., Чудова Н. В. Метод реляционно-ситуационного анализа текста в психологических исследованиях // Психология. Журнал Высшей школы экономики. 2021. Т. 18. №4. С. 748–769.
  40. Ениколопов С.Н., Медведева Т.И., Воронцова О.Ю., Чудова Н.В., Кузнецова Ю.М., Пенкина М.Ю., Минин А.Н., Станкевич М.А., Смирнов И.В., Любавская А.А. Лингвистические характеристики текстов психически больных и здоровых людей // Психологические исследования. 2018. Том 11, № 61. С.1.
  41. Smirnov I., Stankevich M., Kuznetsova Y., Suvorova M., Larionov D., Nikitina E., Savelov M., Grigoriev O. TITANIS: A Tool for Intelligent Text Analysis in Social Media // In: Kovalev S.M., Kuznetsov S.O., Panov A.I. (eds) Artificial Intelligence. RCAI 2021. Lecture Notes in Computer Science, Springer, Cham, vol 12948. Р. 232-247.
  42. Осипов Г.С., Смирнов И.В. Семантический анализ научных текстов и их больших массивов // Системы высокой доступности. М.: Радиотехника. 2016. №1. С.41-44.
  43. Кузнецова Ю. М., Смирнов И. В., Станкевич М. А., Чудова Н. В. (2019). Создание инструмента автоматического анализа текста в интересах социо-гуманитарных исследований. Часть 2. Машина РСА и опыт ее использования //Искусственный интеллект и принятие решений. 2019. №. 3. С. 40-51.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».