Корпуса и корпусные исследования языков Российской Федерации

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

Статья посвящена описанию корпусных ресурсов по языкам России и их использованию в лингвистических исследованиях. Языковое разнообразие РФ весьма значительно – в настоящее время насчитывается 155 языков России. Многие из них находятся под угрозой исчезновения, что делает особенно актуальной задачу создания корпусов – инструмента, позволяющего сохранять языки и языковые данные. В рамках данной работы был проведён опрос среди сотрудников Института языкознания РАН и других лингвистов, собраны сведения о 73 корпусных ресурсах, представляющих различные языки России и их диалекты. Выборка охватывает как крупные языки, так и языки с небольшим числом носителей, включая бесписьменные языки.

В статье подробно рассматриваются параметры, по которым могут различаться корпуса, приводятся примеры исследований, проведённых на основе материалов корпусов. Обсуждаются организационные аспекты создания и поддержания корпусных ресурсов, которые не только играют важную роль в сохранении языкового разнообразия России, но и представляют собой ценный инструмент для решения различных исследовательских задач, а также для создания других языковых ресурсов. Статья основана на научном сообщении, с которым А.А. Кибрик выступил на заседании Президиума РАН 9 апреля 2024 г.

Полный текст

Доступ закрыт

Об авторах

Татьяна Игоревна Давидюк

Институт языкознания РАН; Московский государственный университет имени М.В. Ломоносова

Автор, ответственный за переписку.
Email: davidyuk@iling-ran.ru

младший научный сотрудник; программист, аспирант

Россия, Москва; Москва

Андрей Александрович Кибрик

Институт языкознания РАН; Московский государственный университет имени М.В. Ломоносова

Email: aakibrik@iling-ran.ru

доктор филологических наук, директор, заведующий отделом типологии и ареальной лингвистики; профессор

Россия, Москва; Москва

Дарья Дмитриевна Мордашова

Институт языкознания РАН

Email: d.mordashova@iling-ran.ru

младший научный сотрудник

Россия, Москва

Список литературы

  1. Коряков Ю.Б., Давидюк Т.И., Харитонов В.С., Евстигнеева А.П., Сюрюн А.А. Список языков России и статусы их витальности. Монография-препринт. М.: Институт языкознания РАН, 2023. http://jazykirf.iling-ran.ru/(2023)_Spisok_jazykov_Rossii_Monograph.pdf (дата обращения 25.05.2024).
  2. The Routledge handbook of corpus linguistics / Еd. by A. O’Keeffe, M.J. McCarthy. Abingdon, New York: Routledge, 2021.
  3. Kibrik A.A. A program for the preservation and revitalization of the languages of Russia // Russian Journal of Linguistics. 2021, vol. 25, no. 2, pp. 507–527.
  4. Языковое многообразие России и возможности его сохранения / Ред. Е.Ю. Груздева, А.А. Сюрюн. Препринт. М.: Институт языкознания РАН, 2023. https://iling-ran.ru/library/revitalization/gruzdeva_et_al_language_diversity_2023.pdf (дата обращения 25.05.2024).
  5. Gatbonton E., Pelczer I., Cook C., Venkatesh V., Nochasak C., Andersen H. A pedagogical corpus to support a language teaching curriculum to revitalize an endangered language: the case of Labrador Inuttitut // International Journal of Computer-Assisted Language Learning and Teaching. 2015, no. 5(4), pp. 16–36.
  6. Сичинава Д.В. Параллельные тексты в составе Национального корпуса русского языка: новые языки и новые задачи // Труды Института русского языка им. В.В. Виноградова. 2019. № 21. С. 41–60.
  7. Архангельский Т.А. Корпусная платформа Tsakorpus и языки России // Электронная письменность народов Российской Федерации – 2021 и IWCLUL 2021. Материалы Международной научно-практической конференции, Сыктывкар, 23–24 сентября 2021 года. Сыктывкар: Коми республиканская академия государственной службы и управления, 2022. С. 23–24.
  8. Bright W. Contextualizing a grammar // Perspectives on grammar writing / Ed. by Th. Payne, D. Weber. Amsterdam: John Bejamins, 2007. P. 11–17.
  9. Mosel U. Corpus linguistic and documentary approaches in writing a grammar of a previously undescribed language // The Art and Practice of Grammar Writing (LD&C Special Publication 8) / Ed. by T. Nakayama, K. Rice. 2014. P. 135–157.
  10. Бачаева С.Е. Лексическая сочетаемость имён прилагательных, обозначающих малый размер (на материале Национального корпуса калмыцкого языка) // Известия ДГПУ. 2016. Т. 10. № 4. С. 42–47.
  11. Ханина О.В. Возможности цифровых технологий: описание аллофонов передних гласных, гортанного смычного и объектного согласования глагола в энецком языке // Урало-алтайские исследования. 2017. № 3(26). С. 186–207.
  12. Serdobolskaya N. A corpus analysis of differential object marking in Beserman Udmurt // Linguistica Uralica. 2020, vol. 56, no. 4, pp. 275–308.
  13. Русских А.А., Оскольская С.А. Аддитивная частица в тюркских языках Поволжья // Oriental Studies. 2021. Т. 14. № 6. С. 1324–1352.
  14. Ганенков Д.С. Корпусное исследование инфинитивных конструкций в лезгинском языке // Acta Linguistica Petropolitana. Труды Института лингвистических исследований. 2016. Т. 12. Ч. 1. С. 310–322.
  15. Плунгян В.А. Параллельный корпус как грамматическая база данных и Новый Завет как параллельный корпус (предисловие) // Acta Linguistica Petropolitana. Труды Института лингвистических исследований. 2023. Т. 19. Ч. 3. С. 15–38.
  16. Буркова С.И., Филимонова Е.В. Редупликация в русском жестовом языке // Русский язык в научном освещении. 2014. № 2(28). С. 202–258.
  17. Буркова С.И. Способы выражения именной множественности в русском жестовом языке // Сибирский филологический журнал. 2015. № 2. С. 174–184.
  18. Дыбо А.В., Крылов Ф.С., Мальцева В.С., Шеймович А.В. Сегментные правила в автоматическом парсере Корпуса хакасского языка // Урало-алтайские исследования. 2019. № 1(32). С. 48–69.
  19. Дыбо А.В., Мальцева В.С., Султрекова Э.В., Шеймович А.В., Крылов Ф.С. Структура хакасской словоформы и ограничения на сочетаемость аффиксов в автоматическом парсере хакасского языка // Урало-алтайские исследования. 2023. № 2(49). С. 42–75.
  20. Хусаинов А.Ф., Сулейманов Д.Ш. Обзор созданных речевых корпусов и программных средств для синтеза татарской речи // Речевые технологии. 2020. № 1. С. 63–72.
  21. Сабанцев Г.Л., Чемышев А.В. Яндекс.Переводчик и языки России // Электронная письменность народов Российской Федерации - 2021 и IWCLUL 2021. Материалы Международной научно-практической конференции, Сыктывкар, 23–24 сентября 2021 года. Сыктывкар: Коми республиканская академия государственной службы и управления, 2022. С. 178–181.
  22. Форкер Д., Гаджимурадов Г.А. Санжинские сказки и рассказы. C приложением санжинско-русского и русско-санжинского словарей. Махачкала: Типография А4, 2017.
  23. Тулумбаев В.З. Технологии корпусной лингвистики в обучении башкирскому языку // Современные проблемы и перспективы развития естествознания. Материалы национальной научно-практической конференции. Уфа, 8–9 июня 2020 года. Уфа: Башкирский государственный педагогический университет им. М. Акмуллы, 2020. С. 309–312.
  24. Кибрик А.А., Майсак Т.А. Правила дискурсивной транскрипции для описательных и документационных исследований // Рема. 2021. № 2. С. 23–45.
  25. Баранов А.Н. Введение в прикладную лингвистику: Учебное пособие. М.: Эдиториал УРСС, 2001.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Пример морфологического разбора

Скачать (101KB)

© Российская академия наук, 2024

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».