Подходы и инструменты лингвистического профилирования текста на русском языке

Обложка

Цитировать

Полный текст

Аннотация

Развитие подходов и усовершенствование инструментов оценки лингвистической и когнитивной сложности учебного текста востребовано как в науке, так и практике обучения. Особую значимость прогнозирование трудностей восприятия и понимания, а также ранжирование текстов по классам, т.е. количеству лет формального обучения, или уровням владения языком (А1-С2) имеет в системе образования. Цель исследования - продемонстрировать, каким образом современные методологии, алгоритмы и инструменты аналитики текстов на русском языке реализованы в автоматическом анализаторе RuLingva, а также представить статьи тематического выпуска, посвященного комплексному анализу учебников по русскому языку для российских и белорусских школ. Показано, что современная парадигма дискурсивной комплексологии опирается на разработанные в российском языкознании методы стилостатистики, позволяющие выявлять функциональные характеристики языковых единиц и осуществлять их верификацию на материале больших языковых данных. Функционирующие на портале RuLingva сервисы предназначены для преподавателей и исследователей и позволяют в автоматическом режиме не только осуществлять аналитику учебного текста, но и прогнозировать его целевую аудиторию на основании данных о читабельности, лексическом разнообразии, абстрактности, частотности, терминологической плотности. В режиме «Русский как иностранный» RuLingva выгружает из текста списки слов, соответствующие каждому из уровней владения языком, и оценивает долю каждого из них, предоставляя таким образом материал для пред- и посттекстовой работы преподавателя. Алгоритм функционирования RuLingva разработан на основе типологии учебных текстов и имеет в качестве перспективы создание функционала оценки вербального интеллекта и читательской грамотности обучающегося. Перспектива развития RuLingva связана с расширением спектра предикторов сложности и внедрением функции автоматического определения предметной области учебного текста. Оба направления планируется реализовать при помощи нейронных сетей и созданных на их основе классификационных моделей, а также на базе «типологических паспортов» учебных текстов различной сложности и тематической направленности.

Об авторах

Марина Ивановна Солнышкина

Казанский (Приволжский) федеральный университет

Автор, ответственный за переписку.
Email: mesoln@yandex.ru
ORCID iD: 0000-0003-1885-3039
SPIN-код: 6480-1830
Scopus Author ID: 56429529500
ResearcherId: E-3863-2015

доктор филологических наук, профессор, профессор кафедры теории и практики преподавания иностранных языков, руководитель НИЛ «Мультидисциплинарные исследования текста»

Российская Федерация, 420008, г. Казань, ул. Кремлевская, д. 18

Валерий Дмитриевич Соловьев

Казанский (Приволжский) федеральный университет

Email: maki.solovyev@mail.ru
ORCID iD: 0000-0003-4692-2564
SPIN-код: 5791-3820
Scopus Author ID: 26665013000
ResearcherId: C-8023-2015

доктор физико-математических наук, профессор, главный научный сотрудник НИЛ «Мультидисциплинарные исследования текста» Института филологии и межкультурной коммуникации

Российская Федерация, 420008, г. Казань, ул. Кремлевская, д. 18

Юлия Николаевна Эбзеева

Российский университет дружбы народов

Email: ebzeeva-jn@rudn.ru
ORCID iD: 0000-0002-0043-7590
SPIN-код: 3316-4356

доктор социологических наук, кандидат филологических наук, первый проректор - проректор по образовательной деятельности, заведующая кафедрой иностранных языков, филологический факультет

Российская Федерация, 117198, г. Москва, ул. Миклухо-Маклая, д. 6

Список литературы

  1. Blinova, O., & Tarasov, N. (2022). A hybrid model of complexity estimation: Evidence from Russian legal texts. Frontiers in Artificial Intelligence, 5. http://doi.org/10.3389/frai.2022.1008530
  2. Chang, T.A., Arnett, C., Tu, Z., & Bergen, B.K. (2023). When is multilinguality a curse? language modeling for 250 high-and low-resource languages. arXiv preprint. https://doi.org/10.48550/arXiv.2311.09205
  3. Corlatescu, D., Ruseti S., & Dascalu, M. (2022). ReaderBench: Multilevel analysis of Russian text characteristics. Russian Journal of Linguistics, 26(2), 342-370. https://doi.org/10.22363/2687-0088-30145
  4. Cvrček, V., & Chlumská, L. (2015). Simplification in translated Czech: a new approach to type-token ratio. Russian Linguistics, 39, 309-325. https://doi.org/10.1007/s11185-015-9151-8
  5. Dmitrieva, A., Laposhina, A., & Lebedeva, M. (2021). A comparative study of educational texts for native, foreign, and bilingual young speakers of russian: are simplified texts equally simple? Frontiers in Psychology, 12, 703690. https://doi.org/10.3389/fpsyg.2021.703690
  6. Gatiyatullina, G., Solnyshkina, M., Solovyev, V., Danilov, A., Martynova, E., & Yarmakeev, I. (2020). Computing Russian morphological distribution patterns using RusAC online server. In 2020 13th International Conference on Developments in eSystems Engineering (DeSE) (pp. 393-398). IEEE Publ. https://doi.org/10.1109/DeSE51703.2020.9450753
  7. Golovin, B.N. (1971). Language and statistics. Moscow: Prosveshchenie Publ. (In Russ.).
  8. Karakanta, A., Dehdari, J., & van Genabith, J. Neural machine translation for low-resource languages without parallel corpora. Machine Translation, 32, 167-189. https://doi.org/10.1007/s10590-017-9203-5
  9. Kolmogorova, A.V., Kolmogorova, P.A., & Kulikova, E.R. (2024). About the past, but at different times: computer analysis of textbooks on the history of the USSR / Russia for six generations of students. Tomsk State University Journal of Philology, (89), 73-103. (In Russ.). http://doi.org/10.17223/19986645/89/4
  10. Kormilitsyna, M.A., & Sirotinina, O.B. (2013). Functional stylistics and its place in modern linguistics. In L.R. Duskaeva (Ed.), Slavic stylistics. The 21st century: collection of articles (pp. 101-111). Saint Petersburg: SPbU Publ. (In Russ.).
  11. Kozhina, M.N. (1989). On functional semantic-stylistic categories in the aspect of the communicative theory of language. In Varieties and genres of scientific prose. Linguostylistic features (pp. 3-27). Moscow: Nauka Publ. (In Russ.).
  12. Krongauz, M.A. (2009). Russian language on the verge of a nervous breakdown. Moscow: Languages of Slavic cultures Publ. (In Russ.).
  13. Kupriyanov, R.V., Solnyshkina, M.I., Dascalu, M., & Soldatkina, T.A. (2022). Lexical and syntactic features of academic Russian texts: a discriminant analysis. Research Result. Theoretical and Applied Linguistics, 8(4), 105-122. http://dx.doi.org/10.18413/2313-8912-2022-8-4-0-8
  14. Kuznetsova, I. (2015). Linguistic profiles: going from form to meaning via statistics. De Gruyter Mouton. http://doi.org/10.1515/9783110361858
  15. Laposhina, A.N., Veselovskaya, T.S., Lebedeva, M.Yu., & Kupreshchenko, O.F. Lexical composition of the Russian language textbooks for primary school: corpus study. In Computational linguistics and intellectual technologies: based on the materials of the international conference “Dialogue 2019”. Vol. 18 (pp. 351-363). (In Russ.).
  16. Laposhina, A.N., & Lebedeva, M.Yu. (2021). Textometer: an online tool for determining the difficulty level of a text in Russian as a foreign language. Russian Language Studies, 19(3), 331-345. (In Russ.). http://doi.org/10.22363/2618-8163-2021-19-3-331-345
  17. Lipmann, W. (1922). Public Opinion. New York: Macmillan.
  18. Lukashevich, N.V., & Dobrov, B.V. (2015). Designing linguistic ontologies for information systems in broad subject areas. Ontology of Designing, (1), 47-69.
  19. Lyashevskaya, O.N., & Sharov, S.A. (2009). Frequency Dictionary of the Modern Russian Language (based on materials from the Russian National Corpus). Moscow: Azbukovnik Publ. (In Russ.).
  20. Lyashevskaya, O., Panteleeva, I., & Vinogradova, O. (2021). Automated assessment of learner text complexity. Assessing Writing, 49, 100529. https://doi.org/10.1016/j.asw.2021.100529
  21. McNamara, D.S., Graesser, A.C., McCarthy, P.M., & Cai, Z. (2014). Automated Evaluation of Text and Discourse with Coh-Metrix. Cambridge University Press.
  22. Mikheev, M.Yu., & Erlich, L.I. (2018). Idiostyle profile and determination of text authorship by frequencies of function words. Automatic Documentation and Mathematical Linguistics, (2), 25-34. (In Russ.).
  23. Morozov, D.A., Glazkova, A.V., & Iomdin, B.L. (2022). Text complexity and linguistic features: Their correlation in English and Russian. Russian Journal of Linguistics, 26(2), 426-448. https://doi.org/10.22363/2687-0088-30132
  24. Namestnikov, A.M., Pirogova, N.D., & Filippov, A.A. (2021). An approach to the automatic construction of a linguistic ontology for determining the interests of social network users. Ontology of design, 11(3), 351-363. (In Russ.). http://doi.org/10.18287/2223-9537-2021-11-3-351-36
  25. Oborneva, I.V. (2006). Automated assessment of the complexity of educational texts based on statistical parameters. (Candidate dissertation, Moscow). (In Russ.).
  26. Paraschiv, A., Dascalu, M., & Solnyshkina, M.I. (2023). Classification of Russian textbooks by grade level and topic using ReaderBench. Research Result. Theoretical and Applied Linguistics, 9(1), 50-63. https://doi.org/10.18413/2313-8912-2023-9-1-0-4
  27. Sakhovskiy, A., Solovyev, V., & Solnyshkina, M. Topic modeling for assessment of text complexity in Russian textbooks. In Proceedings of 2020 Ivannikov Ispras Open Conference (ISPRAS) (pp. 102-108). IEEE Publ. https://doi.org/10.1109/ISPRAS51486.2020.00022
  28. Saussure, F. de. (1977). Trudy po iazykoznaniiu [Writings in General Linguistics]. Moscow: Progress, 695 p.
  29. Serdobolskaya, N.V., & Toldova, S.Yu. Evaluation predicates: type of evaluation and syntax of the construction. In “Computer linguistics and intellectual technologies”: proceedings of the International Conference ‘Dialogue’ 2005 (pp. 436-443). Moscow: Nauka Publ. (In Russ.).
  30. Solnyshkina, M.I., Solovyev, V.D., Gafiyatova, E.V., & Martynova, E.V. (2022). Text complexity as an interdisciplinary problem. Issues of Cognitive Linguistics, (1), 18-39. https://doi.org/10.20916/1812-3228-2022-1-18-39
  31. Solovyev, V., Ivanov, V., & Solnyshkina, M. (2018). Assessment of reading difficulty levels in Russian academic texts: Approaches and metrics. Journal of Intelligent & Fuzzy Systems, 34(5), 3049-3058 http://doi.org/10.3233/JIFS-169489
  32. Solovyev, V., Solnyshkina, M., & McNamara, D. (2022). Computational linguistics and discourse complexology: Paradigms and research methods. Russian Journal of Linguistics, 26(2), 275-316. https://doi.org/10.22363/2687-0088-31326
  33. Toldova, S., Anastasiya, A.B., Lyashevskaya, O., & Ionov, M. (2015). Evaluation for morphologically rich language: Russian NLP. In Int'l Conf. Artificial Intelligence. ICAI'15 (pp. 300-306).
  34. Valeev, A., Gibadullin, I., Khusainova, A., & Khan, A. (2019). Application of Low-resource Machine Translation Techniques to Russian-Tatar Language Pair. arXiv preprint. http://doi.org/10.48550/arXiv.1910.00368
  35. Vinogradov, V.V. (1938). Modern Russian language. Grammatical doctrine of the word. Moscow; Leningrad State educational-pedagogical publishing house of the People's Commissariat of Education of the RSFSR. (In Russ.).
  36. Virk, S.M., Hammarström, H., Borin, L., Forsberg, M., & Wichmann, S. (2020). From Linguistic Descriptions to Language Profiles. In Proceedings of the 7th Workshop on Linked Data in Linguistics (LDL-2020) (p. 23-27). Marseille: European Language Resources Association Publ.
  37. Young, T., Hazarika, D., Poria, S., & Cambria, E. (2018). Recent Trends In Deep Learning Based Natural Language Processing. IEEE Computational intelligenсe magazine, 13(3), 55-75. http://doi.org/10.1109/MCI.2018.2840738
  38. Zinder, L.R., & Stroeva, T.V. (1968). Historical morphology of the German language. Leningrad: Prosveshchenie Publ. (In Russ.).

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».