Лексическое обогащение в учебниках филологического блока: корпусный и статистический подходы

Обложка

Цитировать

Полный текст

Аннотация

Актуальность представленного исследования определяется значимостью объективных данных о частоте употребления лексических единиц в учебниках русского языка, а также неизученностью процессов освоения лексики в процессе обучения родному языку в школе. Описан опыт создания частотного словаря учебников филологического блока с опорой на лингвистический корпус учебников русского языка и литературы для 5-7 классов. Учебники филологического предметного блока содержат в себе усредненную модель русского языка и литературы, отражая актуальные для школьника темы и постепенно наращивая объем лексического состава от простого к более сложному. Цель исследования - оценка лексического обогащения в учебных текстах филологического предметного блока для 5-7 классов, а также усовершенствование методики формирования частотных списков. Исследование проведено на материале корпуса, в который вошли 66 учебников по русскому языку и литературе общим объемом 1 553 224 словоформ. Использование методов корпусной и компьютерной лингвистики, а также сравнительно-сопоставительного и статистического методов, в частности программы IKSWEB, среды Google Colab, библиотек Pandas, NLTK и Pymorphy позволило выявить, что объем частотного словаря учебников филологического блока 5 класса составляют 8984 лексемы, 6 класса - 7572 лексемы, 7 класса - 7321 лексемы. «Обогащение» лексики» в 6 классе составляют 258 лексем, в 7 классе - 150 лексем. Лексическим ядром трех частотных списков являются слова следующих тематических групп: «Филологические термины», «Глаголы, обозначающие учебные операции», «Природа», «Родственные и дружеские отношения», «Искусство» и «Время». Выявлено, что обогащение словарного запаса у учащихся 6 класса осуществляется за счет архаизмов и историзмов; терминов, характеризующих формы общенационального языка, и терминов словообразования. В 7 классе обогащение частотного словаря осуществляется за счет лингвистических терминов по теме «Наименование глагольных форм», лексико-тематической группы «Религия» и общественно-политической лексики. Частотные списки подтвердили гипотезу о тематической сбалансированности текстов в современных учебниках русского языка и литературы среднего звена и ядерном положении терминологии в текстах рассматриваемых учебников. Перспектива исследования видится в осуществлении аналогичного исследования на материале учебных текстов филологического и других предметных блоков старшей школы для выявления внутри- и метапредметных связей.

Об авторах

Халида Нурисламовна Галимова

Казанский (Приволжский) федеральный университет

Автор, ответственный за переписку.
Email: galikha@mail.ru
ORCID iD: 0000-0003-1817-5004
SPIN-код: 7931-3389

кандидат филологических наук, старший научный сотрудник НИЛ «Мультидисциплинарные исследования текста» института филологии и межкультурной коммуникации

Российская Федерация, 420008, г. Казань, ул. Кремлевская, д. 18

Екатерина Владимировна Мартынова

Казанский (Приволжский) федеральный университет

Email: katerinamarty@yandex.ru
ORCID iD: 0000-0001-5883-0718
SPIN-код: 9431-7981

старший преподаватель кафедры теории и практики преподавания иностранных языков, младший научный сотрудник НИЛ «Мультидисциплинарные исследования текста» института филологии и межкультурной коммуникации

Российская Федерация, 420008, г. Казань, ул. Кремлевская, д. 18

Светлана Алексеевна Москвичева

Россйский университет дружбы народов

Email: moskvitcheva-sa@rudn.ru
ORCID iD: 0000-0002-8047-7030
SPIN-код: 9596-7692

кандидат филологических наук, доцент кафедры общего и русского языкознания, филологический факультет

Российская Федерация, 117198, г. Москва, ул. Миклухо-Маклая, д. 10/2

Список литературы

  1. Arapov, M.V. (1982). Text and language — integrity and organization. Scientific Journal of the Tartu University. Tartu. 628. (In Russ.).
  2. Baroni, M., Bernardini, S., Ferraresi, A., & Zanchetta, E. (2009). The WaCky Wide Web: A collection of very large linguistically processed webcrawled corpora. Language Resources and Evaluation, 43, 209–226. https://doi.org/10.1007/s10579-009-9081-4
  3. Blinova, O.V. (2019). Russian low-frequency words and approaches to modeling general language frequency. Socio- and Psycholinguistic Studies, (7), 7–13. (In Russ.).
  4. Churunina, A.A., Solnyshkina, M.I., & Yarmakeev, I.E. (2023). Lexical diversity as a predictor of the complexity of textbooks on the Russian language. Russian Language Studies, 21(2), 212–227. (In Russ.). https://doi.org/10.22363/2618-8163-2023-21-2-212-227
  5. Generalova, E.V. (2019). Obsolescent vocabulary of the Russian language: educational and lexicographic interpretation issues. Journal of Applied Linguistics and Lexicography, (2), 371–380. (In Russ.). https://doi.org/10.33910/2687-0215-2019-1-2-371-380
  6. Gindin, S.I. (1982). The frequency of the word and its significance in the language system. Tartu Ülikooli Toimetised, (658), 22–54. (In Russ.).
  7. Glinkina, L.A. (2011). Frequency as an important characteristic of lexicography and phraseography. Journal of Historical, Philological and Cultural Studies, (3), 7–11.
  8. Josselson, H. (1953). The Russian word count and frequency analysis of grammatical categories of standard literary Russian. Detroit: Wayne University Press.
  9. Kazachkova, M.B., & Galimova, H.N. (2022). A linguistic corpus of English textbooks creation. Foreign Languages at School, 2, 32–38. (In Russ.).
  10. Korosteleva, L.V. (2013). High-frequency nouns, adjectives and numerals in modern Russian (based on the materials of lexicography): monograph. Nizhnevartovsk: Publishing House of Nizhnevartovsk State University. (In Russ.).
  11. Laposhina, A.N., Veselovskaya, T.S., Lebedeva, M.Yu., & Kupreshchenko, O.F. Lexical composition of the Russian language textbooks for primary school: corpus study. In Computational linguistics and intellectual technologies: based on the materials of the international conference “Dialogue 2019”. Vol. 18 (pp. 351–363). (In Russ.).
  12. Laposhina, A.N., & Lebedeva, M.Yu. (2022). Developing a Russian frequency core vocabulary list for foreign children based on corpus data. Mir Russkogo Slova, (3), 90–99. (In Russ.). https://doi.org/10.24412/1811-1629-2022-3-90-99
  13. Laposhina, A.N., & Lebedeva, M.Yu. (2021). Textometr: an online tool for automated complexity level assessment of texts for Russian language learners. Russian Language Studies, (3), 331–345. (In Russ.). https://doi.org/10.22363/2618-8163-2021-19-3-331-345
  14. Malmkjær, K. (2002). The linguistics encyclopedia. 2nd ed. London; New York: Routledge.
  15. Martynova, E.V., Solnyshkina, M.I, & Merzlyakova, A.R. (2020). Lexical parameters of the academic text (based on the texts of the academic corpus of the Russian language). Philology and Culture, (3), 72–80. https://doi.org/10.26907/2074-0239-2020-61-3-72-80
  16. Nagel, O.V. (2008). Corpus linguistics and its use in computer-based language teaching. Language and Culture, 4, 53–59. (In Russ.).
  17. Nemova, A.N. (2015). Case texts as a cultural code in the process of studying the literature. Nizhny Novgorod Education, (1), 22–26. (In Russ.).
  18. Nesova, N.M., & Bobritskikh, L.Ya. (2018). Representation of the dictionary in theoretical and educational lexicography. RUDN Journal of Language Studies, Semiotics and Semantics, 9(2), 439–450. (In Russ.). https://doi.org/10.22363/2313-2299-2018-9-2-439-450
  19. Orlov, Yu.K. (1978). A model of the frequency structure of vocabulary. Research in computational linguistics and linguostatistics. Moscow State University, 59–118. (In Russ.).
  20. Rudell, A. (1993). Frequency of word usage and perceived word difficulty: Ratings of Kucera and Francis words. Behaviour Research Methods, Instruments, & Computers, (25), 455–463.
  21. Shteifeldt, E. (1963). Frequency dictionary of a modern Russian literary language: 2500 most common words. Tallin.
  22. Solnyshkina, M., & Gafiyatova, E. (2014). Modern forestry English: Macro- and microstructure of low register dictionary. Journal of Language and Literature, 5(4), 220–224. https://doi.org/10.7813/jll.2014/5-4/47
  23. Solnyshkina, M.I., & Gatiyatullina, G.M. (2020). The history of corpus linguistics (on the example of the English language corpora). Tomsk State University Journal of Philology, 63, 133–157. (In Russ.). https://doi.org/10.17223/19986645/63/8
  24. Soloviev, V.D., Solnyshkina, M.I., & McNamara, D.S. (2022). Computational linguistics and discursive complexology: paradigms and research methods. Russian Journal of Linguistics, 26(2), 275–316. (In Russ.). https://doi.org/10.22363/2687-0088-30161
  25. Solovyev, V., Islamov, M., Solnyshkina, M., Kupriyanov, R., & Gafiyatova, E. (2021). Sentiment Analysis for Russian Academic Texts: A Lexicon-Based Approach. In CEUR Workshop Proceedings, 3090 (pp. 89–97).
  26. Turygina, L.A. (1988). Modeling of language structures by means of computer technology. Moscow. (In Russ.).
  27. Tvorogov, O.V. (1995). Gapaks “Words”. In Encyclopedia “Words on Igor's Regiment”. In 5 vol. Vol. 2 (pp.12–15). St. Petersburg: Dmitry Bulanin. (In Russ.).

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».