Lexical enrichment of philological textbooks: corpus and statistical approaches

Мұқаба

Дәйексөз келтіру

Толық мәтін

Аннотация

The relevance of the study is determined by the need to study objective data on vocabulary frequency in Russian language textbooks and mastering vocabulary in teaching Russian as the native language at school. The article describes the experience of creating a frequency dictionary of philological textbooks based on the linguistic corpus of textbooks on the Russian language and literature for 5-7 grades. Philological textbooks present an average model of the Russian language and literature, reflecting topics relevant to the student and gradually increasing the volume of lexical complexity. The aim of the article is to assess lexical enrichment in philological textbooks for 5-7 grades and to improve the methodology for compiling frequency lists. The study was carried out on the material of a corpus including 66 textbooks on the Russian language and Literature with the total size of 1,553,224 tokens. Methods of corpus and computational linguistics methods, comparative-contrastive, and statistical methods (IKSWEB program, the Google Colab environment, the Pandas, NLTK and Pymorphy libraries) revealed that the frequency list of the 5th grade comprises 8984 lemmas; the 6th grade, 7572 lemmas; the 7th grade, 7321 lemmas. Vocabulary “enrichment” in the 6th grade consists of 258 lexemes, and in the 7th grade, 150 lexemes. The lexical core of the three frequency lists are words of the thematic groups “Philological terms”, “Verbs denoting educational actions”, “Nature”, “Family and friendly relations”, “Art”, and “Time”. The 6th grade vocabulary “enrichment” includes archaisms and historicisms, terms denoting forms of the national language, and word-formation terms. The 7th grade “enrichment” comprises of linguistic terms on the themes “Names of verb forms”, “Religion”, and socio-political vocabulary. The frequency lists confirmed the hypothesis about the thematic balance of texts in modern textbooks on the Russian language and Literature and linguistics terminology being the core in the textbooks. The prospects of the study are seen in conducting a similar research of educational texts in Philology and other subjects form the textbooks for senior school in order to define intra- and meta-subject links.

Авторлар туралы

Khalida Galimova

Kazan (Volga Region) Federal University

Хат алмасуға жауапты Автор.
Email: galikha@mail.ru
ORCID iD: 0000-0003-1817-5004
SPIN-код: 7931-3389

PhD in Philology, Senior Researcher at the Multidisciplinary Text Investigation Research Institute of Philology and Intercultural Communication

18 Kremlevskaya St, Kazan, 420008, Russian Federation

Ekaterina Martynova

Kazan (Volga Region) Federal University

Email: katerinamarty@yandex.ru
ORCID iD: 0000-0001-5883-0718
SPIN-код: 9431-7981

Senior Lecturer at the Department of Theory and Practice of Teaching Foreign Languages, Junior Researcher at the Multidisciplinary Text Investigation Research Institute of Philology and Intercultural Communication

18 Kremlevskaya St, Kazan, 420008, Russian Federation

Svetlana Moskvitcheva

RUDN University

Email: moskvitcheva-sa@rudn.ru
ORCID iD: 0000-0002-8047-7030
SPIN-код: 9596-7692

PhD in Philology, Associate Professor of the General and Russian Linguistics Department, Faculty of Philology

6 Miklukho-Maklaya St, Moscow, 117198, Russian Federation

Әдебиет тізімі

  1. Arapov, M.V. (1982). Text and language — integrity and organization. Scientific Journal of the Tartu University. Tartu. 628. (In Russ.).
  2. Baroni, M., Bernardini, S., Ferraresi, A., & Zanchetta, E. (2009). The WaCky Wide Web: A collection of very large linguistically processed webcrawled corpora. Language Resources and Evaluation, 43, 209–226. https://doi.org/10.1007/s10579-009-9081-4
  3. Blinova, O.V. (2019). Russian low-frequency words and approaches to modeling general language frequency. Socio- and Psycholinguistic Studies, (7), 7–13. (In Russ.).
  4. Churunina, A.A., Solnyshkina, M.I., & Yarmakeev, I.E. (2023). Lexical diversity as a predictor of the complexity of textbooks on the Russian language. Russian Language Studies, 21(2), 212–227. (In Russ.). https://doi.org/10.22363/2618-8163-2023-21-2-212-227
  5. Generalova, E.V. (2019). Obsolescent vocabulary of the Russian language: educational and lexicographic interpretation issues. Journal of Applied Linguistics and Lexicography, (2), 371–380. (In Russ.). https://doi.org/10.33910/2687-0215-2019-1-2-371-380
  6. Gindin, S.I. (1982). The frequency of the word and its significance in the language system. Tartu Ülikooli Toimetised, (658), 22–54. (In Russ.).
  7. Glinkina, L.A. (2011). Frequency as an important characteristic of lexicography and phraseography. Journal of Historical, Philological and Cultural Studies, (3), 7–11.
  8. Josselson, H. (1953). The Russian word count and frequency analysis of grammatical categories of standard literary Russian. Detroit: Wayne University Press.
  9. Kazachkova, M.B., & Galimova, H.N. (2022). A linguistic corpus of English textbooks creation. Foreign Languages at School, 2, 32–38. (In Russ.).
  10. Korosteleva, L.V. (2013). High-frequency nouns, adjectives and numerals in modern Russian (based on the materials of lexicography): monograph. Nizhnevartovsk: Publishing House of Nizhnevartovsk State University. (In Russ.).
  11. Laposhina, A.N., Veselovskaya, T.S., Lebedeva, M.Yu., & Kupreshchenko, O.F. Lexical composition of the Russian language textbooks for primary school: corpus study. In Computational linguistics and intellectual technologies: based on the materials of the international conference “Dialogue 2019”. Vol. 18 (pp. 351–363). (In Russ.).
  12. Laposhina, A.N., & Lebedeva, M.Yu. (2022). Developing a Russian frequency core vocabulary list for foreign children based on corpus data. Mir Russkogo Slova, (3), 90–99. (In Russ.). https://doi.org/10.24412/1811-1629-2022-3-90-99
  13. Laposhina, A.N., & Lebedeva, M.Yu. (2021). Textometr: an online tool for automated complexity level assessment of texts for Russian language learners. Russian Language Studies, (3), 331–345. (In Russ.). https://doi.org/10.22363/2618-8163-2021-19-3-331-345
  14. Malmkjær, K. (2002). The linguistics encyclopedia. 2nd ed. London; New York: Routledge.
  15. Martynova, E.V., Solnyshkina, M.I, & Merzlyakova, A.R. (2020). Lexical parameters of the academic text (based on the texts of the academic corpus of the Russian language). Philology and Culture, (3), 72–80. https://doi.org/10.26907/2074-0239-2020-61-3-72-80
  16. Nagel, O.V. (2008). Corpus linguistics and its use in computer-based language teaching. Language and Culture, 4, 53–59. (In Russ.).
  17. Nemova, A.N. (2015). Case texts as a cultural code in the process of studying the literature. Nizhny Novgorod Education, (1), 22–26. (In Russ.).
  18. Nesova, N.M., & Bobritskikh, L.Ya. (2018). Representation of the dictionary in theoretical and educational lexicography. RUDN Journal of Language Studies, Semiotics and Semantics, 9(2), 439–450. (In Russ.). https://doi.org/10.22363/2313-2299-2018-9-2-439-450
  19. Orlov, Yu.K. (1978). A model of the frequency structure of vocabulary. Research in computational linguistics and linguostatistics. Moscow State University, 59–118. (In Russ.).
  20. Rudell, A. (1993). Frequency of word usage and perceived word difficulty: Ratings of Kucera and Francis words. Behaviour Research Methods, Instruments, & Computers, (25), 455–463.
  21. Shteifeldt, E. (1963). Frequency dictionary of a modern Russian literary language: 2500 most common words. Tallin.
  22. Solnyshkina, M., & Gafiyatova, E. (2014). Modern forestry English: Macro- and microstructure of low register dictionary. Journal of Language and Literature, 5(4), 220–224. https://doi.org/10.7813/jll.2014/5-4/47
  23. Solnyshkina, M.I., & Gatiyatullina, G.M. (2020). The history of corpus linguistics (on the example of the English language corpora). Tomsk State University Journal of Philology, 63, 133–157. (In Russ.). https://doi.org/10.17223/19986645/63/8
  24. Soloviev, V.D., Solnyshkina, M.I., & McNamara, D.S. (2022). Computational linguistics and discursive complexology: paradigms and research methods. Russian Journal of Linguistics, 26(2), 275–316. (In Russ.). https://doi.org/10.22363/2687-0088-30161
  25. Solovyev, V., Islamov, M., Solnyshkina, M., Kupriyanov, R., & Gafiyatova, E. (2021). Sentiment Analysis for Russian Academic Texts: A Lexicon-Based Approach. In CEUR Workshop Proceedings, 3090 (pp. 89–97).
  26. Turygina, L.A. (1988). Modeling of language structures by means of computer technology. Moscow. (In Russ.).
  27. Tvorogov, O.V. (1995). Gapaks “Words”. In Encyclopedia “Words on Igor's Regiment”. In 5 vol. Vol. 2 (pp.12–15). St. Petersburg: Dmitry Bulanin. (In Russ.).

Қосымша файлдар

Қосымша файлдар
Әрекет
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».