Корпуса и корпусные исследования языков Российской Федерации
- Авторы: Давидюк Т.И.1,2, Кибрик А.А.1,2, Мордашова Д.Д.1
-
Учреждения:
- Институт языкознания РАН
- Московский государственный университет имени М.В. Ломоносова
- Выпуск: Том 94, № 9 (2024)
- Страницы: 804-813
- Раздел: С КАФЕДРЫ ПРЕЗИДИУМА РАН
- URL: https://journals.rcsi.science/0869-5873/article/view/268314
- DOI: https://doi.org/10.31857/S0869587324090039
- EDN: https://elibrary.ru/FCFZQL
- ID: 268314
Цитировать
Аннотация
Статья посвящена описанию корпусных ресурсов по языкам России и их использованию в лингвистических исследованиях. Языковое разнообразие РФ весьма значительно – в настоящее время насчитывается 155 языков России. Многие из них находятся под угрозой исчезновения, что делает особенно актуальной задачу создания корпусов – инструмента, позволяющего сохранять языки и языковые данные. В рамках данной работы был проведён опрос среди сотрудников Института языкознания РАН и других лингвистов, собраны сведения о 73 корпусных ресурсах, представляющих различные языки России и их диалекты. Выборка охватывает как крупные языки, так и языки с небольшим числом носителей, включая бесписьменные языки.
В статье подробно рассматриваются параметры, по которым могут различаться корпуса, приводятся примеры исследований, проведённых на основе материалов корпусов. Обсуждаются организационные аспекты создания и поддержания корпусных ресурсов, которые не только играют важную роль в сохранении языкового разнообразия России, но и представляют собой ценный инструмент для решения различных исследовательских задач, а также для создания других языковых ресурсов. Статья основана на научном сообщении, с которым А.А. Кибрик выступил на заседании Президиума РАН 9 апреля 2024 г.
Ключевые слова
Полный текст

Об авторах
Татьяна Игоревна Давидюк
Институт языкознания РАН; Московский государственный университет имени М.В. Ломоносова
Автор, ответственный за переписку.
Email: davidyuk@iling-ran.ru
младший научный сотрудник; программист, аспирант
Россия, Москва; МоскваАндрей Александрович Кибрик
Институт языкознания РАН; Московский государственный университет имени М.В. Ломоносова
Email: aakibrik@iling-ran.ru
доктор филологических наук, директор, заведующий отделом типологии и ареальной лингвистики; профессор
Россия, Москва; МоскваДарья Дмитриевна Мордашова
Институт языкознания РАН
Email: d.mordashova@iling-ran.ru
младший научный сотрудник
Россия, МоскваСписок литературы
- Коряков Ю.Б., Давидюк Т.И., Харитонов В.С., Евстигнеева А.П., Сюрюн А.А. Список языков России и статусы их витальности. Монография-препринт. М.: Институт языкознания РАН, 2023. http://jazykirf.iling-ran.ru/(2023)_Spisok_jazykov_Rossii_Monograph.pdf (дата обращения 25.05.2024).
- The Routledge handbook of corpus linguistics / Еd. by A. O’Keeffe, M.J. McCarthy. Abingdon, New York: Routledge, 2021.
- Kibrik A.A. A program for the preservation and revitalization of the languages of Russia // Russian Journal of Linguistics. 2021, vol. 25, no. 2, pp. 507–527.
- Языковое многообразие России и возможности его сохранения / Ред. Е.Ю. Груздева, А.А. Сюрюн. Препринт. М.: Институт языкознания РАН, 2023. https://iling-ran.ru/library/revitalization/gruzdeva_et_al_language_diversity_2023.pdf (дата обращения 25.05.2024).
- Gatbonton E., Pelczer I., Cook C., Venkatesh V., Nochasak C., Andersen H. A pedagogical corpus to support a language teaching curriculum to revitalize an endangered language: the case of Labrador Inuttitut // International Journal of Computer-Assisted Language Learning and Teaching. 2015, no. 5(4), pp. 16–36.
- Сичинава Д.В. Параллельные тексты в составе Национального корпуса русского языка: новые языки и новые задачи // Труды Института русского языка им. В.В. Виноградова. 2019. № 21. С. 41–60.
- Архангельский Т.А. Корпусная платформа Tsakorpus и языки России // Электронная письменность народов Российской Федерации – 2021 и IWCLUL 2021. Материалы Международной научно-практической конференции, Сыктывкар, 23–24 сентября 2021 года. Сыктывкар: Коми республиканская академия государственной службы и управления, 2022. С. 23–24.
- Bright W. Contextualizing a grammar // Perspectives on grammar writing / Ed. by Th. Payne, D. Weber. Amsterdam: John Bejamins, 2007. P. 11–17.
- Mosel U. Corpus linguistic and documentary approaches in writing a grammar of a previously undescribed language // The Art and Practice of Grammar Writing (LD&C Special Publication 8) / Ed. by T. Nakayama, K. Rice. 2014. P. 135–157.
- Бачаева С.Е. Лексическая сочетаемость имён прилагательных, обозначающих малый размер (на материале Национального корпуса калмыцкого языка) // Известия ДГПУ. 2016. Т. 10. № 4. С. 42–47.
- Ханина О.В. Возможности цифровых технологий: описание аллофонов передних гласных, гортанного смычного и объектного согласования глагола в энецком языке // Урало-алтайские исследования. 2017. № 3(26). С. 186–207.
- Serdobolskaya N. A corpus analysis of differential object marking in Beserman Udmurt // Linguistica Uralica. 2020, vol. 56, no. 4, pp. 275–308.
- Русских А.А., Оскольская С.А. Аддитивная частица в тюркских языках Поволжья // Oriental Studies. 2021. Т. 14. № 6. С. 1324–1352.
- Ганенков Д.С. Корпусное исследование инфинитивных конструкций в лезгинском языке // Acta Linguistica Petropolitana. Труды Института лингвистических исследований. 2016. Т. 12. Ч. 1. С. 310–322.
- Плунгян В.А. Параллельный корпус как грамматическая база данных и Новый Завет как параллельный корпус (предисловие) // Acta Linguistica Petropolitana. Труды Института лингвистических исследований. 2023. Т. 19. Ч. 3. С. 15–38.
- Буркова С.И., Филимонова Е.В. Редупликация в русском жестовом языке // Русский язык в научном освещении. 2014. № 2(28). С. 202–258.
- Буркова С.И. Способы выражения именной множественности в русском жестовом языке // Сибирский филологический журнал. 2015. № 2. С. 174–184.
- Дыбо А.В., Крылов Ф.С., Мальцева В.С., Шеймович А.В. Сегментные правила в автоматическом парсере Корпуса хакасского языка // Урало-алтайские исследования. 2019. № 1(32). С. 48–69.
- Дыбо А.В., Мальцева В.С., Султрекова Э.В., Шеймович А.В., Крылов Ф.С. Структура хакасской словоформы и ограничения на сочетаемость аффиксов в автоматическом парсере хакасского языка // Урало-алтайские исследования. 2023. № 2(49). С. 42–75.
- Хусаинов А.Ф., Сулейманов Д.Ш. Обзор созданных речевых корпусов и программных средств для синтеза татарской речи // Речевые технологии. 2020. № 1. С. 63–72.
- Сабанцев Г.Л., Чемышев А.В. Яндекс.Переводчик и языки России // Электронная письменность народов Российской Федерации - 2021 и IWCLUL 2021. Материалы Международной научно-практической конференции, Сыктывкар, 23–24 сентября 2021 года. Сыктывкар: Коми республиканская академия государственной службы и управления, 2022. С. 178–181.
- Форкер Д., Гаджимурадов Г.А. Санжинские сказки и рассказы. C приложением санжинско-русского и русско-санжинского словарей. Махачкала: Типография А4, 2017.
- Тулумбаев В.З. Технологии корпусной лингвистики в обучении башкирскому языку // Современные проблемы и перспективы развития естествознания. Материалы национальной научно-практической конференции. Уфа, 8–9 июня 2020 года. Уфа: Башкирский государственный педагогический университет им. М. Акмуллы, 2020. С. 309–312.
- Кибрик А.А., Майсак Т.А. Правила дискурсивной транскрипции для описательных и документационных исследований // Рема. 2021. № 2. С. 23–45.
- Баранов А.Н. Введение в прикладную лингвистику: Учебное пособие. М.: Эдиториал УРСС, 2001.
Дополнительные файлы
