Corpora and corpus-based studies of the languages of the Russian Federation

Cover Page

Cite item

Full Text

Open Access Open Access
Restricted Access Access granted
Restricted Access Subscription Access

Abstract

The article describes corpus resources for the languages of Russia and their use in linguistic research. The linguistic diversity of the country is quite substantial: currently 155 languages are identified as languages of Russia. Many of them are under threat of extinction, which makes the task of creating corpora particularly relevant as a tool for language preservation. In this study we conducted a survey among the staff of the Institute of Linguistics of the Russian Academy of Sciences and other colleagues, which helped us collect the data about 73 corpus resources representing various languages and dialects of Russia. The sample covers both major languages and languages with relatively few speakers, including unwritten languages. The article examines various parameters by which corpora may differ, and offers examples of research based on materials from the corpora. The final part of the article discusses the organizational aspects of creating and maintaining corpus resources. The results of the study suggest that corpus resources not only play an important role in preserving the linguistic diversity of Russia but also represent a valuable tool for various research tasks, as well as for creating other language resources.

Full Text

Restricted Access

About the authors

T. I. Davidyuk

Institute of Linguistics of the Russian Academy of Sciences; Lomonosov Moscow State University

Author for correspondence.
Email: davidyuk@iling-ran.ru

младший научный сотрудник; программист, аспирант

Russian Federation, Moscow; Moscow

A. A. Kibrik

Institute of Linguistics of the Russian Academy of Sciences; Lomonosov Moscow State University

Email: aakibrik@iling-ran.ru

доктор филологических наук, директор, заведующий отделом типологии и ареальной лингвистики; профессор

Russian Federation, Moscow; Moscow

D. D. Mordashova

Institute of Linguistics of the Russian Academy of Sciences

Email: d.mordashova@iling-ran.ru

младший научный сотрудник

Russian Federation, Moscow

References

  1. Koryakov Yu.B., Davidyuk T.I., Haritonov V.S., Evstigneeva A.P., Syuryun A.A. A list of languages of Russia and their vitality statuses. Preprint. Moscow: Institute of Linguistics RAS, 2023. http://jazykirf.iling-ran.ru/(2023)_Spisok_jazykov_Rossii_Monograph.pdf (accessed 25.05.2024).
  2. The Routledge handbook of corpus linguistics / Еd. by A. O’Keeffe, M.J. McCarthy. Abingdon, New York: Routledge, 2021.
  3. Kibrik A.A. A program for the preservation and revitalization of the languages of Russia // Russian Journal of Linguistics. 2021, vol. 25, no. 2, pp. 507–527.
  4. Linguistic diversity of Russia and opportunities for its preservation / Еd. by E.Yu. Gruzdeva, A.A. Syuryun. Preprint. Moscow: Institute of Linguistics, Russian Academy of Sciences, 2023. https://iling-ran.ru/library/revitalization/gruzdeva_et_al_language_diversity_2023.pdf (accessed 25.05.2024).
  5. Gatbonton E., Pelczer I., Cook C., Venkatesh V., Nochasak C., Andersen H. A pedagogical corpus to support a language teaching curriculum to revitalize an endangered language: the case of Labrador Inuttitut // International Journal of Computer-Assisted Language Learning and Teaching. 2015, no. 5(4), pp. 16–36.
  6. Sichinava D.V. On parallel texts within the Russian National Corpus: new languages and new challenges // Proceedings of the V.V. Vinogradov Russian Language Institute. 2019, no. 21, pp. 41–60.
  7. Arkhangelsky T.A. The corpus platform Tsakorpus and the languages of Russia // Electronic Writing Systems of the Peoples of the Russian Federation – 2021 and IWCLUL 2021. Proceedings of the International Scientific and Practical Conference, Syktyvkar, September 23–24, 2021. Syktyvkar: Komi Republic Academy of Public Administration and Management, 2022. P. 23–24.
  8. Bright W. Contextualizing a grammar // Perspectives on grammar writing / Ed. by Th. Payne, D. Weber. Amsterdam: John Bejamins, 2007. P. 11–17.
  9. Mosel U. Corpus linguistic and documentary approaches in writing a grammar of a previously undescribed language // The Art and Practice of Grammar Writing (LD&C Special Publication 8) / Ed. by T. Nakayama, K. Rice. 2014. P. 135–157.
  10. Bachaeva S.E. Lexical collocations of adjectives denoting the small size (based on the materials of the National Corpus of the Kalmyk language) // DSPU Journal. 2016, vol. 10, no. 4, pp. 42–47.
  11. Khanina O.V. Advantages of digital technologies: a description of front vowels allophones, of a glottal stop, and of verbal object cross-reference in Enets // Ural-Altaic Studies. 2017, no. 3(26), pp. 186–207.
  12. Serdobolskaya N. A corpus analysis of differential object marking in Beserman Udmurt // Linguistica Uralica. 2020, vol. 56, no. 4, pp. 275–308.
  13. Russkih A.A., Oskolskaya S.A. Additive particle in Turkic Languages of the Volga-Kama Sprachbund // Oriental Studies. 2021, vol. 14, no. 6, pp. 1324–1352.
  14. Ganenkov D.S. A corpus-based study of infinitive constructions in Lezgian // Acta Linguistica Petropolitana. Transactions of the Institute for Linguistic Studies. 2016, vol. 12, part 1, pp. 310–322.
  15. Plungian V.A. The parallel corpus as a grammar database and the New Testament as a parallel corpus (Preface) // Acta Linguistica Petropolitana. Transactions of the Institute for Linguistic Studies. 2023, vol. 19, part 3, pp. 15–38.
  16. Burkova S.I., Filimonova E.V. Reduplication in Russian sign language // Russian Language and Linguistic Theory. 2014, no. 2(28), pp. 202–258.
  17. Burkova S.I. The ways of expressing nominal plurality in the Russian sign language // Siberian Journal of Philology. 2015, no. 2, pp. 174–184.
  18. Dybo A.V., Krylov Ph.S., Maltseva V.S., Sheimovich A.V. Segmental rules in the automatic parser for the Khakas corpus // Ural-Altaic Studies. 2019, no. 1(32), pp. 48–69.
  19. Dybo A.V., Maltseva V.S., Sultrekova E.V., Sheimovich A.V., Krylov Ph.S. The structure of the Khakas word form and restrictions on the compatibility of affixes in the automatic parser for the Khakas language // Ural-Altaic Studies. 2023, no. 2(49), pp. 42–75.
  20. Khusainov A.F., Suleymanov D.Sh. Overview of speech corpora and software for the Tatar speech synthesis // Speech Technology. 2020, no. 1, pp. 63–72.
  21. Sabantsev G.L., Chemyshev A.V. Yandex.Translate and the languages of Russia // Electronic Writing Systems of the Peoples of the Russian Federation – 2021 and IWCLUL 2021. Proceedings of the International Scientific and Practical Conference, Syktyvkar, September 23–24, 2021. Syktyvkar: Komi Republic Academy of Public Administration and Management, 2022. P. 178–181.
  22. Forker D., Gadzhimuradov G.A. Sanzhi tales and stories. With Sanzhi-Russian and Russian-Sanzhi dictionaries. Makhachkala: A4 Printing House, 2017.
  23. Tulumbaev V.Z. Corpus linguistics technologies in teaching Bashkir // Modern Problems and Prospects of Natural Sciences Development. Proceedings of a National Scientific and Practical Conference. Ufa, June 8–9, 2020. Ufa: Bashkir State Pedagogical University named after M. Akmulla, 2020. P. 309–312.
  24. Kibrik A.A., Maisak T.A. Discourse transcription rules for descriptive and documentary studies // Rhema. 2021, no. 2, pp. 23–45.
  25. Baranov A.N. Introduction to applied linguistics. Moscow: Editorial URSS, 2001.

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Fig. 1. Example of morphological analysis

Download (101KB)

Copyright (c) 2024 Russian Academy of Sciences

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».