Метод распознавания сентимента и эмоций в транскрипциях русскоязычной речи с использованием машинного перевода

Обложка

Цитировать

Полный текст

Аннотация

В статье рассматривается проблема распознавания сентимента и эмоций пользователей в русскоязычных текстовых транскрипциях речи с использованием словарных методов и машинного перевода. Количество имеющихся информационных ресурсов для анализа сентимента текстовых сообщений на русском языке очень ограничено, что существенно затрудняет применение базовых методов анализа сентимента, а именно, предобработки текстов, векторизации с помощью тональных словарей, традиционных классификаторов. Для решения этой проблемы в статье вводится новый метод на основе автоматического машинного перевода русскоязычных текстов на английский язык. Частичный перевод предполагает перевод отдельных лексем, не включенных в русскоязычные тональные словари, тогда как полный перевод подразумевает перевод всего текста целиком. Переведенный текст анализируется с использованием различных англоязычных тональных словарей. Экспериментальные исследования для решения задачи распознавания сентимента и эмоций были проведены на текстовых транскрипциях многомодального русскоязычного корпуса RAMAS, извлеченных из аудиоданных экспертным путем и автоматически с использованием системы распознавания речи. В результате применения методов машинного перевода достигается значение взвешенной F-меры распознавания семи классов эмоций 31,12 % и 23,74 %, и трех классов сентимента 75,37 % и 71,60 % для экспертных и автоматических транскрипций русскоязычной речи корпуса RAMAS, соответственно. Также в ходе экспериментов было выявлено, что использование статистических векторов в качестве метода преобразования текстовых данных позволяет достичь значение показателя взвешенной F-меры на 1-5 % выше по сравнению с использованием конкатенированного (статистического и тонального) вектора. Таким образом, эксперименты показывают, что объединение всех англоязычных тональных словарей позволяет повысить точность распознавания сентимента и эмоций в текстовых данных. В статье также исследуется корреляция между длиной вектора текстовых данных и его репрезентативностью. По результатам экспериментов можно сделать вывод, что использование лемматизации для нормализации слов текстовых транскрипций речи позволяет достичь большей точности распознавания сентимента по сравнению со стеммингом. Использование предложенных методов с полным и частичным машинным переводом позволяет повысить точность распознавания сентимента и эмоций на 0,65–9,76 % по показателю взвешенной F-меры по сравнению с базовым методом распознавания сентимента и эмоций.

Об авторах

А. А Двойникова

Санкт-Петербургский Федеральный исследовательский центр Российской академии наук (СПб ФИЦ РАН)

Email: dvoynikova.a@iias.spb.su
14-я линия В.О. 39

И. А Кагиров

Санкт-Петербургский Федеральный исследовательский центр Российской академии наук (СПб ФИЦ РАН)

Email: kagirov@iias.spb.su
14-я линия В.О. 39

А. А Карпов

Санкт-Петербургский Федеральный исследовательский центр Российской академии наук (СПб ФИЦ РАН)

Email: karpov@iias.spb.su
14-я линия В.О. 39

Список литературы

  1. Николаев И.С., Митренина О.В., Ландо Т.М. Прикладная и компьютерная лингвистика // М.:ЛЕНАНД. 2017. 320 с.
  2. Carosia A.E.O., Coelho G.P., Silva A.E.A. Analyzing the Brazilian financial market through portuguese sentiment analysis in social media // Applied Artificial Intelligence. 2020. vol. 34. no. 1. pp. 1–19.
  3. Smetanin S. The applications of sentiment analysis for Russian language texts: Current challenges and future perspectives // IEEE Access. 2020. vol. 8. pp. 110693–110719. doi: 10.1109/ACCESS.2020.3002215.
  4. Карпов А.А., Юсупов Р.М. Многомодальные интерфейсы человеко-машинного взаимодействия // Вестник Российской академии наук. 2018. Т. 88. № 2. С. 146–155.
  5. Dvoynikova A., Verkholyak O., Karpov A. Analytical review of methods for identifying emotions in text data // CEUR-WS. 2020. vol. 2552. pp. 8–21.
  6. Ekman P. An Argument for Basic Emotions // Cognition and Emotion. 1992. vol. 6(3-4). pp. 169–200.
  7. Dvoynikova A., Karpov A. Bimodal sentiment and emotion classification with multi-head attention fusion of acoustic and linguistic information // Computational Linguistics and Intellectual Technologies. 2023. vol. 22. pp. 51–61.
  8. Viksna R., Jekabsons G. Sentiment analysis in Latvian and Russian: A survey // Applied Computer Systems. 2018. vol. 23. no. 1. pp. 45–51.
  9. Loukachevitch N., Levchik A. Creating a general Russian sentiment lexicon // Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16). 2016. pp. 1171–1176.
  10. Demirtas E., Pechenizkiy M. Cross-lingual polarity detection with machine translation // Proceedings of the Second International Workshop on Issues of Sentiment Discovery and Opinion Mining. 2013. pp. 1–8.
  11. Reichel J., Benko Ľ. The Influence of a Machine Translation System on Sentiment Levels // RASLAN 2022 Recent Advances in Slavonic Natural Language Processing. 2022. pp. 201–208.
  12. Zygadlo A., Kozlowski M., Janicki A. Text-Based emotion recognition in English and Polish for therapeutic chatbot // Applied Sciences. 2021. vol. 11(21). no. 10146.
  13. Nandwani P., Verma R. A review on sentiment analysis and emotion detection from text // Social Network Analysis and Mining. 2021. vol. 11(1). no. 81.
  14. Hartung K., Herygers A., Kurlekar S.V., Zakaria K., Volkan T., Gröttrup S., Georges M. Measuring Sentiment Bias in Machine Translation // International Conference on Text, Speech, and Dialogue. 2023. pp. 82–93.
  15. Двойникова А.А. Сентимент-анализ транскрипции разговорной речи при помощи автоматического машинного перевода // Сборник трудов IX Конгресса молодых ученых. 2021. C. 199–203.
  16. Perepelkina O., Kazimirova E., Konstantinova M. RAMAS: Russian Multimodal Corpus of Dyadic Interaction for studying emotion recognition // PeerJ Preprints. 2018. vol. 6. no. e26688v1.
  17. Russell J.A. A circumplex model of affect // Journal of personality and social psychology. 1980. vol. 39. no. 6. pp. 1161–1178.
  18. Плунгян В.А. Введение в грамматическую семантику: Грамматические значения и грамматические системы языков мира // М.: РГГУ. 2011. 672 c.
  19. Goddard C., Wierzbicka A. Semantic and Lexical Universals // Studies in Second Language Acquisition, 1996. vol. 18(4). 520 p.
  20. Котельников Е.В., Разова Е.В., Котельникова А.В., Вычегжанин С.В. Современные словари оценочной лексики для анализа мнений на русском и английском языках (аналитический обзор) // Научно-техническая информация. Серия. 2020. Т. 2. С. 16–33.
  21. Hercig T., Brychcín T., Svoboda L., Konkol M. Uwb at semeval-2016 task 5: Aspect based sentiment analysis // Proceedings of the 10th international workshop on semantic evaluation (SemEval-2016). 2016. pp. 342–349.
  22. Koltsova O.Y., Alexeeva S., Kolcov S. An opinion word lexicon and a training dataset for Russian sentiment analysis of social media // Computational Linguistics and Intellectual Technologies. 2016. vol. 15. pp. 277–287.
  23. Strapparava C., Valitutti A. Wordnet affect: an affective extension of wordnet // Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC). 2004. pp. 1083–1086.
  24. Mohammad S.M., Turney D.P. Crowdsourcing a word-emotion association lexicon // Computational Intelligence. 2013. vol. 29(3). pp. 436–465.
  25. Hu M., Liu B. Mining and summarizing customer reviews // Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. 2004. pp. 168–177.
  26. Hutto C., Gilbert E. Vader: A parsimonious rule-based model for sentiment analysis of social media text // Proceedings of the international AAAI conference on web and social media. 2014. vol. 8. no. 1. pp. 216–225.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).