Текстометр: онлайн-инструмент определения уровня сложности текста по русскому языку как иностранному

Обложка

Цитировать

Полный текст

Аннотация

Оценка текста с точки зрения его языковой доступности представляется крайне актуальной и трудозатратной задачей в процессе его подготовки к занятию по русскому языку как иностранному. С другой стороны, процесс отнесения текста к одному из уровней по шкале CEFR (от А1 до С2) является достаточно формализованным и описанным в методической литературе, что открывает возможности по его автоматизации. Цель исследования - описать возможности и методику использования нового онлайн-инструмента «Текcтометр» для автоматического анализа уровня сложности текста по шкале CEFR и его подготовки к уроку русского языка в иностранной аудитории. Материалом для построения математической модели по определению уровня текста послужили более чем 800 текстов из современных учебников по русскому языку как иностранному. В процессе разработки концепции и создания сервиса применялись методы теоретического анализа научно-методической литературы и регламентирующих документов в области русского языка как иностранного, анкетирования и тестирования учащихся и преподавателей, машинного обучения и автоматической обработки текстов на естественном языке. В результате установлены и описаны основные возможности сервиса: определение уровня текста по шкале CEFR, предоставление информации, полезной для адаптации текста к учебным задачам, такой как списки ключевых слов и слов - оптимальных кандидатов в словарь к данному тексту, статистика по покрытию текста лексическими минимумами ТРКИ и списками частотных слов русского языка, меры лексического разнообразия текста, прогноз времени, необходимого для разных видов чтения текста. Выявлены недостатки работы сервиса на данном этапе разработки и предложены пути их решения. Приведены результаты экспериментальной проверки качества работы инструмента и намечены векторы дальнейшего развития сервиса. Сервис может быть полезен преподавателям, методистам, а также авторам пособий и представителям издательств для проверки соответствия текстового материала заявленному уровню и учебным целям.

Об авторах

Антонина Николаевна Лапошина

Государственный институт русского языка имени А.С. Пушкина

Автор, ответственный за переписку.
Email: ANLaposhina@pushkin.institute

ведущий эксперт лаборатории когнитивных и лингвистических исследований

Российская Федерация, 117485, Москва, ул. Академика Волгина, д. 6

Мария Юрьевна Лебедева

Государственный институт русского языка имени А.С. Пушкина

Email: MULebedeva@pushkin.institute

кандидат филологических наук, ведущий научный сотрудник лаборатории когнитивных и лингвистических исследований, доцент кафедры методики преподавания РКИ

Российская Федерация, 117485, Москва, ул. Академика Волгина, д. 6

Список литературы

  1. Alexander, P.A., & Jetton, T.L. (1996). The role of importance and interest in the processing of text. Educational Psychology Review, 8(1), 89–121.
  2. Arutyunov, A.R. (1990). Theory and practice of creating a textbook of the Russian language for foreigners. Moscow: Russkii Yazyk Publ. (In Russ.)
  3. Bim, I.L. (1977). Methods of teaching foreign languages as a science and problems of a school textbook. Moscow: Russkii Yazyk Publ. (In Russ.)
  4. Chen, X., & Meurers, D. (2016). Characterizing text difficulty with word frequencies. Proceedings of the 11th Workshop on Innovative Use of NLP for Building Educational Applications (June 16, 2016), 11, 84–94. San Diego, CA, USA.
  5. DuBay, W. (2004). The principles of readability. Costa Mesa, CA: Impact Information.
  6. Graesser, A.C., McNamara, D.S., Cai, Z., Conley, M., Li, H., & Pennebaker, J. (2014). Coh-Metrix measures text characteristics at multiple levels of language and discourse. The Elementary School Journal, 15(2), 210–229.
  7. Karpov, N., Baranova, J., & Vitugin, F. (2014). Single-sentence readability prediction in Russian. Proceedings of Analysis of Images, Social Networks, and Texts conference (AIST), (3), 91–100.
  8. Keskisärkkä, R., & Jönsson, A. (2013). Investigations of synonym replacement for Swedish. Northern European Journal of Language Technology, (3), 41–59.
  9. Laposhina, A.N. (2018). Insights from an experimental study on the text complexity for Russian as a foreign language. The Dynamics of Linguistic and Cultural Processes in Modern Russia: Proceedings of the VI Congress of ROPRYAL, (6), 1544–1549. (In Russ.)
  10. Laposhina, A.N. (2020). A corpus of Russian textbook materials for foreign students as an instrument of an educational content analysis. Russian Language Abroad, (6(283)), 22–28. (In Russ.)
  11. Laposhina, A.N., & Lebedeva, M.U. (2019). Corpus approach to vocabulary selection for learning Russian as a foreign language. Slavica Helsingiensia, (52), 359–368. (In Russ.)
  12. Laposhina, А.N., Veselovskaya, Т.S., Lebedeva, M.U., & Kupreshchenko, O.F. (2018). Automated text readability assessment for Russian second language learners. Dialogue 2018: Proceedings of the International Conference, 17(24), 396–406.
  13. Mikk, Ya.A. (1981). Optimizing the complexity of educational text: A help for authors and editors. Moscow: Prosveshchenie Publ. (In Russ.)
  14. Miller, L.V., Politova, L.V., & Rybakova, I.A. (2016). Once upon a time... 28 Russian lessons for beginners: Textbook. Saint Petersburg: Zlatoust Publ. (In Russ.)
  15. Morkovkin, V.V. (Ed.). (2003). The system of lexical minima of the modern Russian language: 10 lexical lists: From 500 to 5000 of the most important Russian words. Moscow: Astrel Publ. (In Russ.)
  16. Nation, P. (2006). How Large a vocabulary is needed for reading and listening? Canadian Modern Language Review, (63), 59–81.
  17. Qian, D.D. (2002). Investigating the relationship between vocabulary knowledge and academic reading performance: An assessment perspective. Language Learning, 52(3), 513–536.
  18. Reynolds, R. (2016). Insights from Russian second language readability classification: complexity-dependent training requirements, and feature evaluation of multiple categories. Proceedings of the 11th Workshop on the Innovative Use of NLP for Building Educational Applications, 11, 289–300.
  19. Sharoff, S., Kurella, S., & Hartley, A. (2008). Seeking needles in the web’s haystack: Finding texts suitable for language learners. Proceedings of the 8th Teaching and Language Corpora Conference (TaLC-8) (pp. 365–370). Lisbon.
  20. Sharoff, S., Umanskaya, E., & Wilson, J. (2013). A frequency dictionary of Russian: Core vocabulary for learners. New York: Routledge.
  21. To, V., & Le, T. (2013). Lexical density and readability: A case study of English textbooks. Proceedings of the Australian Systemic Functional Linguistics Association Conference (October 1–3, 2013) (pp. 61–71). Melbourne.
  22. Tomina, Yu.A. (1985). Objective assessment of the language difficulty of texts (description, narration, reasoning, argumentation) (Candidate dissertation, Moscow). (In Russ.)
  23. Vyatyutnev, M.N. (1984). Textbook theory of Russian as a foreign language (methodological foundations). Moscow: Russkii Yazyk Publ. (In Russ.)
  24. Zaliznak, A.A. (1967). Russian nominal infleсtion. Moscow: Nauka Publ. (In Russ.)

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».