Automated text processing: topic segmentation of educational texts


如何引用文章

全文:

详细

The article explores the problem of automatic quantitative assessment of text complexity and thematic segmentation of texts. The authors offer a brief description of the state of affairs in this area including the fact that the existing formulas for text readability index are genredependent and lose their reliability when used for texts of other genres. Based on the corpus of educational texts and analysis of quantitative text parameters, we suggest a new way of text ranking so that they correspond linguistic abilities of pupils. The study was carried out on the material of UMK Spotlight 11, the corpus used in the study comprises 38 texts of 12891 tokens in total. The methods used were topic segmentation, component analysis, statistical analysis, Flash-Kincaid readability Texts complexity assessment showed that the dynamics of texts with tasks (1) testing skimming abilities is from more complex to less complex (-0.2); (2) testing scanning abilities is from less complex to more (+0.4); (3) in the texts for intensive reading, text readability rose by 5.2. The thematic segmentation performed based on Monkey Learn revealed the vocabulary of 15 topics that, during the school year, are offered to students on average 3-5 times. The most frequent theme is "Humanities", the reference to which is revealed in 9 modules. It is significant that textbook authors offer the following topics Gardening, Computers & Internet, Science & Mathematics, Entertainment& Recreation only once during the school year.

作者简介

Marina Solnyshkina

Kazan (Volga) Federal University

Email: mesoln@yandex.ru
Dr. Phil. Sci., Professor of Theory and Practice of Teaching Foreign Languages Department. 18, Kremlevskaya st., Kazan, 420008, Russia

Iskander Yarmakeev

Kazan (Volga) Federal University

Email: ermakeev@mail.ru
Dr. Ped. Sci., Professor of Bilingual and Digital Education Department. 18, Kremlevskaya st., Kazan, 420008, Russia

Elzara Gafiyatova

Kazan (Volga) Federal University

Email: rg-777@yandex.ru
Cand. Phil. Sci., Associate Professor of Theory and Practice of Teaching Foreign Languages Department. 18, Kremlevskaya st., Kazan, 420008, Russia

Farida Ismaeva

Kazan (Volga) Federal University

Email: fismaeva@yandex.ru
Cand. Phil. Sci., Associate Professor of Foreign Languages Department. 18, Kremlevskaya st., Kazan, 420008, Russia

参考

  1. Русский язык как иностранный и методика его преподавания: сб. научн. тр. Вып. 28 / Редкол.: Е.И. Зиновьева, Н.А. Любимова (отв. ред.), Л.В. Московкин и др. - СПб.: РОПРЯЛ, 2017. - 160 с. [Электронный ресурс]. - Режим доступа: http://rki.spbu.ru/documents/sbornik2017.pdf (дата обращения 11.04.2017).
  2. Милованов К. Методы интердискурсивной адаптации текста в СМИ с использованием его формальных характеристик // Культурологический журнал. - 2015. - № 2(20) [Электронный ресурс]. - Режим доступа: https://goo.gl/CBofsL (дата обращения 11.04.2017).
  3. Микк Я.А. Методика измерения трудности текста // Вопросы психологии. - 1975. - № 3.- С. 147-155.
  4. Микк Я.А. Факторы, определяющие время прочтения слова в связанном тексте // Вопросы психологии. - 1979. - № 3. - С. 125-128.
  5. Микк Я.А. Оптимизация сложности учебного текста. - М.: Просвещение, 1981. - 119 с.
  6. Сидорова М.Ю. Лингвистическая экспертиза школьных учебников // Метапредметный подход в образовании: русский язык в школьном и вузовском обучении разным предметам: сб. статей Межрегион. науч-практ. конф. (М., 19 апреля 2018). - М.: Российский учебник, 2018. - С. 49-64 [Электронный ресурс]. - Режим доступа: https://elibrary.ru/item.asp?id=36672498 (дата обращения 11.06.2018).
  7. Оборнева И.В. Автоматизированная оценка сложности учебных текстов на основе статистических параметров: автореф. дис. … канд. пед. наук. - М., 2006. - 19 с. [Электронный ресурс]. - Режим доступа:https://www.dissercat.com/content/avtomatizirovannaya- otsenka-slozhnosti-uchebnykh-tekstov-na-osnove-statisticheskikh-parametr (дата обращения 11.04.2017).
  8. Глушань В.М. Компьютерный анализ сложности текстов учебно-методических разработок как средство повышения качества обучения [Электронный ресурс]. - Режим доступа: https://elibrary.ru/item.asp?id=26028726 (дата обращения 25.04.2017).
  9. Солнышкина С.И., Кисельников А.С. Сложность текста: этапы изучения в отечественном прикладном языкознании // Вестник ТГУ. Филология. - № 6(38). - 2015. - С. 86-100.
  10. Solov’ev V., Ivanov V., Solnyshkina M. Assessment of reading difficulty levels in Russian academic texts: Approaches and metrics // Journal of Intelligent & Fuzzy Systems. 2018. Vol. 34. Is. 5. Pp. 3049-3058.
  11. Майер Р.В. Определение уровня абстрактности, сложности и информативности различных тем школьного учебника физики // Психология, социология и педагогика. - 2013. - № 2 [Электронный ресурс]. - Режим доступа: http://psychology.snauka.ru/2013/02/1813 (дата обращения: 08.02.2018).
  12. Уша Т.Ю. Язык школьного учебника: проблема понимания учащимся-инофоном учебного текста, терминологической лексики, формулировок заданий // Теория и практика общественного развития. - 2015. - № 15 [Электронный ресурс]. - Режим доступа: http://teoria-practica.ru/rus/files/arhiv_zhurnala/2015/15/pedagogics/usha.pdf (дата обращения: 08.02.2019).
  13. Устинова Л.В., Адекенова А.Н., Литвинова О.В. Проверка сложности выпускных работ учащихся и студентов на основе статистических параметров // Молодой ученый. - 2015.- № 8. - С. 148-152 [Электронный ресурс]. - Режим доступа:https://moluch.ru/archive/88/16986/ (дата обращения: 28.02.2018).
  14. Webcache [Электронный ресурс]. - Режим доступа:http://webcache.googleusercontent.com/search?q=cache:46AZDFGrSJoJ:www.ras.ru/FStorage /Download.aspx%3Fid%3D17d4378e-749c-45f1-84c8-812282c9b24d+&cd=15&hl=ru&ct=clnk&gl=ru
  15. ФИОКО [Электронный ресурс]. - Режим доступа: https://fioco.ru/results_PISA_2015 (дата обращения: 20.02.2018).
  16. ТАСС [Электронный ресурс]. - Режим доступа: https://tass.ru/obschestvo/5301919 (дата обращения: 20.02.2018).
  17. Автоматическая обработка текстов на естественном языке и анализ данных: Учеб. пособие / Е.И. Большакова, К.В. Воронцов, Н.Э. Ефремова, Э.С. Клышинский, Н.В. Лукашевич, А.С. Сапин. - М.: Изд-во НИУ ВШЭ, 2017. - 269 с.
  18. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: Учеб. пособие / Е.И. Большакова, Э.С. Клышинский, Д.В. Ландэ, А.А. Носков, О.В. Пескова, Е.В. Ягунова. - М.: МИЭМ, 2011. - 272 с.
  19. Аношин П.И. Автоматический анализ текстов. Синтаксический и семантический анализ // Евразийский научный журнал. - 2017. - № 6. - С. 15.
  20. Comparative Analysis about the Degree of text Complexity of Korean and Chinese Intermediate Korean textbooks - based on Internal Factors of texts [Электронный ресурс]. - Режим доступа: https://www.researchgate.net/publication/322205569_Comparative_Analysis _about_the_Degree_of_Text_Complexity_of_Korean_and_Chinese_Intermediate_Korean_Textbooks_-_based_on_Internal_Factors_of_Texts-, https://www.researchgate.net/publication/220746039_Automatic_Assessment_of_Japanese_Te xt_Readability_Based_on_a_Textbook_Corpus, http://wordsandmonsters.com/research/pdf/Japanese_high_school_textbook.pdf (дата обращения: 20.02.2018)
  21. Al-Khalil M., Saddiki H., Habash N., Alfalasi L. A Leveled Reading Corpus of Modern Standard Arabic Muhamed [Электронный ресурс]. - Режим доступа:https://www.aclweb.org/anthology/L18-1366 (дата обращения: 20.06.2018).
  22. Solnyshkina M.I., Zamaletdinov R.R., Gorodetskaya L.A. Evaluating text complexity and Flesch-Kincaid grade level // Journal of Social Studies Education Research. 2017. Vol. 8. Is. 3. Pp. 238-248.
  23. Fisher D., Lapp D., Frey N. Homework in Secondary Classrooms: Making It Relevant and Respectful [Электронный ресурс]. - Режим доступа: https://s3-us-west-1.amazonaws.com/fisher-and-frey/documents/homework_jaal.pdf (дата обращения:15.05.2018).
  24. Using Coh-Metrix to Assess Cohesion and Difficulty in High School Textbooks [Электронный ресурс]. - Режим доступа: https://www.researchgate.net/publication/248260617_Using_Coh-Metrix_to_Assess_Cohesion_and_Difficulty_in_High- School_Textbooks (дата обращения: 20.02.2018).
  25. “STABLE GENIUS” - Let’s Go to the Data [Электронный ресурс]. - Режим доступа:https://factba.se/blog/2018/01/08/stable-genius-lets-go-to-the-data (дата обращения:20.02.2018).
  26. Philip M. McCarthy, Gwyneth A. Lewis, David F. Dufty, Danielle S. McNamara. Analyzing Writing Styles with Coh-Metrix [Электронный ресурс]. - Режим доступа: https://aaai.org/Papers/FLAIRS/2006/Flairs06-151.pdf (дата обращения: 20.02.2018).
  27. Language in Law: Using Coh-Metrix to assess differences between American and English/Welsh language varieties [Электронный ресурс]. - Режим доступа: https://www.researchgate.net/publication/303288858_Language_in_law_Using_Coh- Metrix_to_assess_differences_between_American_and_EnglishWelsh_language_varieties (дата обращения: 17.04.2017).
  28. Gabitov A.I., Solnyshkina M.I., Shayakhmetova L.Kh., Ilyasova L.G. Text Complexity In Russian Textbooks On Social Studies // Revista Publicando. 2017. Vol. 4. Is. 13. Pp. 597-606.
  29. CohMetrix [Электронный ресурс]. - Режим доступа: http://cohmetrix.com (дата обращения: 20.04.2017).
  30. Вычегжанин С.В. Анализ тональности текстов на основе ДСМ-метода. - Киров, 2013. - С. 16.
  31. Солнышкина М.И., Кисельников А.С. Параметры сложности экзаменационных текстов // Вестник Волгоградского государственного университета. Сер. 2: Языкознание. - 2015. - № 1(25). - С. 99-107.
  32. Интегративный подход в обучении младших школьников [Электронный ресурс]. - Режим доступа: integrativnyy-podhod-v-obuchenii-mladshih-shkolnikov (дата обращения:20.02.2018).
  33. Английский язык, 11 класс: Учебник для общеобраз. учреждений / О.В. Афанасьева, Дж. Дули, И.В. Михеева и др. - М.: Просвещение, 2009. - 244 с.
  34. Бахтин М.М. Литературно-критические статьи. - М.: Художественная литература, 1986.- 428 с.
  35. Леонтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы: Учеб. пособие. - М.: Академия, 2006. - 304 с.
  36. Dowell N. Analyzing Language and Discourse With Coh-Metrix. Workshop Presented at 2 nd Learning Analytics Summer Institutes (LASI 2014) / N. Dowell, Z. Cai & A.C. Graesser. Cambridge (MA), 2014. 84 p. Electronic text data. Mode of access: https://drive.google.com/file/d/0B-xloTsxGxlGcEw1RmNGTUtnSnc/edit (дата обращения:25.04.2017).
  37. Graesser A.C., McNamara D.S., Louwerse M.M. What do readers need to learn in order to process coherence relations in narrative and expository text. In A.P. Sweet and C.E. Snow (Eds.), Rethinking reading comprehension: New York: Guilford Publications, 2003. Pp. 82-98.
  38. Coltheart. The MRC Psycholinguistic Database. Quarterly Journal of Experimental Psychology. 1981. 33A. Pp. 497-505.
  39. MonkeyLearn [Электронный ресурс]. - Режим доступа: https://monkeylearn.com/topic-analysis (дата обращения: 25.04.2017).

补充文件

附件文件
动作
1. JATS XML

版权所有 © Solnyshkina M.I., Yarmakeev I.E., Gafiyatova E.V., Ismaeva F.K., 2019

Creative Commons License
此作品已接受知识共享署名 4.0国际许可协议的许可

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».