Russian National Corpus 2.0: New opportunities and development prospects

Мұқаба

Толық мәтін

Ашық рұқсат Ашық рұқсат
Рұқсат жабық Рұқсат берілді
Рұқсат жабық Тек жазылушылар үшін

Аннотация

The paper provides an overview of the results of the fundamental reconstruction and modernization project of the National Corpus of the Russian Language platform, carried out from 2020 to 2023. The focus of the paper is on the new opportunities that are opening up for linguists and a wider audience. This includes improving the representativeness of existing corpora, creating new corpora, new annotation obtained through the application of neural network models, and new interface solutions. Three notable new components are examined in more detail: a resource-related one, which is the new Social Networks corpus, a search-related one, which is the Panchronic corpus that combines searches across corpora from different periods, and an analytical one, which is the functional complex of statistics and data visualization.

Негізгі сөздер

Толық мәтін

Рұқсат жабық

Авторлар туралы

Svetlana Savchuk

Vinogradov Russian Language Institute, Russian Academy of Sciences

Хат алмасуға жауапты Автор.
Email: savsvetlana@mail.ru
Ресей, Moscow

Timofey Arkhangelskiy

Hamburg University

Email: timarkh@gmail.com
Германия, Hamburg

Anastasiya Bonch-Osmolovskaya

HSE University; Kharkevich Institute for Information Transmission Problems, Russian Academy of Sciences

Email: abonch@gmail.com
Ресей, Moscow; Moscow

Ol’ga Donina

Voronezh State University

Email: olga-donina@mail.ru
Ресей, Voronezh

Yuliya Kuznetsova

Lomonosov Moscow State University; Kharkevich Institute for Information Transmission Problems, Russian Academy of Sciences

Email: kuznetsova.yn@gmail.com
Ресей, Moscow; Moscow

Ol’ga Lyashevskaya

HSE University; Vinogradov Russian Language Institute, Russian Academy of Sciences

Email: olesar@yandex.ru
Ресей, Moscow; Moscow

Boris Orekhov

HSE University

Email: nevmenandr@gmail.com
Ресей, Moscow

Mariya Podryadchikova

Email: mpodr2015@gmail.com
Ресей

Әдебиет тізімі

  1. Бергельсон 2002 — Бергельсон М. Б. Языковые аспекты виртуальной коммуникации (Языковое поведение в сети Интернет). Вестник МГУ. Сер. 19. Лингвистика и межкультурная коммуникация, 2002, 1: 55–67. [Bergel’son M. B. Linguistic aspects of virtual communication (Linguistic behavior on the Internet). Vestnik MGU. Ser. 19. Lingvistika i mezhkul’turnaya kommunikatsiya, 2002, 1: 55–67.]
  2. Гаврилова и др. 2016 — Гаврилова Т. С., Шалганова Т. А., Ляшевская О. Н. К задаче автоматической лексико-грамматической разметки старорусского корпуса XV–XVII вв. Вестник ПСТГУ. Серия III: Филология, 2016, 2(47): 7–25. [Gavrilova T. S., Shalganova T. A., Lyashevskaya O. N. On the problem of automatic lexical and grammatical markup in the Old Russian corpus of the XV–XVII centuries. Vestnik PSTGU. Seriya III: Filologiya, 2016, 2(47): 7–25.]
  3. Гладилин, Козеренко 2022 — Гладилин С., Козеренко А. Новый интерфейс поиска для НКРЯ: системное описание и реализация. Информационные технологии и системы 2022 (ИТС 2022): материалы конференций. Шилин Л. Ю. и др. (ред.). Минск: БГУИР, 2022, 113–121. [Gladilin S., Kozerenko A. The new search interface for the RNC: System description and implementation. Informatsionnye tekhnologii i sistemy 2022 (ITS 2022). Conf. proc. Shilin L. Yu. et al. (eds.). Minsk: Belarusian State Univ. of Informatics and Radioelectronics, 2022, 113–121.]
  4. Горошко 2007 — Горошко Е. И. Теоретический анализ Интернет-жанров: к описанию проблемной области. Жанры речи: Сб. науч. ст. Вып. 5. Жанр и культура. Дементьев В. В. (ред.). Саратов: Наука, 2007, 119–127. [Goroshko E. I. Theoretical analysis of Internet genres: Towards a description of the problem area. Zhanry rechi. Coll. of papers. No. 5. Zhanr i kul’tura. Dement’ev V. V. (ed.). Saratov: Nauka, 2007, 119–127.]
  5. Горошко, Землякова 2017 — Горошко Е. И., Землякова Е. А. Полиформатный мессенджер как жанр 2.0 (на примере мессенджера мгновенных сообщений Telegram). Жанры речи, 2017, 1(15): 92–100. [Goroshko E. I., Zemlyakova E. A. A multi-format messenger as a genre 2.0 (on the example of the Telegram instant messenger). Zhanry rechi, 2017, 1(15): 92–100.]
  6. Дементьев 2016 — Дементьев В. В., Степанова Н. Б. Корпусная генристика: проблема ключевых фраз. Жанры речи, 2016, 1(13): 24–41. [Dement’ev V. V., Stepanova N. B. Corpus genristics: The problem of key phrases. Zhanry rechi, 2016, 1(13): 24–41.]
  7. Донина и др. 2024 (в печати) — Донина О. В., Фурсина Д. А., Горбунов Н. С. Создание регионального подкорпуса: от идеи до воплощения. Труды международной конференции «Корпусная лингвистика-2023» (в печати). [Donina O. V., Fursina D. A., Gorbunov N. S. Creation of a regional subcorpus: From idea to implementation. Trudy mezhdunarodnoi konferentsii «Korpusnaya lingvistika-2023» (in print).]
  8. Егорова 2021 — Егорова В. И. Социальные сети и их речевые жанры. Russian Linguistic Bulletin, 2021, 3(27): 123–128. [Egorova V. I. Social networks and their speech genres. Russian Linguistic Bulletin, 2021, 3(27): 123–128.]
  9. Зализняк 2004 — Зализняк А. А. Древненовгородский диалект. М.: Языки славянской культуры, 2004. [Zaliznyak A. A. Drevnenovgorodskii dialekt [Old Novgorod dialect]. Moscow: Yazyki slavyanskoi kul’tury, 2004.]
  10. Зализняк 2024 — Зализняк А. А. Слово о полку Игореве: взгляд лингвиста. 4-е изд. М.: Альпина, 2024. [Zaliznyak A. A. Slovo o polku Igoreve: vzglyad lingvista [The Tale of Igor’s Campaign: A linguist’s view]. Moscow: Al’pina, 2024.]
  11. Иванов 2000 — Иванов Л. Ю. Язык интернета: заметки лингвиста. Словарь и культура русской речи. М.: Азбуковник, 2000, 131–147. [Ivanov L. Yu. The language of the Internet: Notes of a linguist. Slovar’ i kul’tura russkoi rechi. Moscow: Azbukovnik, 2000, 131–147.] http://faq-www.ru/lingv.htm.
  12. Какорина 2008 — Какорина Е. В. СМИ и интернет-коммуникация (интернет-форум как новый коммуникативно-речевой жанр). Современный русский язык: активные процессы на рубеже XX–XXI веков. Крысин Л. П. (отв. ред.). М.: Языки славянских культур, 2008, 549–578. [Kakorina E. V. Mass media and Internet communication (Internet forum as a new communicative and speech genre). Sovremennyi russkii yazyk: aktivnye protsessy na rubezhe XX–XXI vekov. Krysin L. P. (ed.). Moscow: Yazyki slavyanskikh kul’tur, 2008, 549–578.]
  13. Капанадзе 2005 — Капанадзе Л. А. На границе письменного и устного текста: структура и тенденции развития электронных жанров. Голоса и смыслы. Избранные работы по русскому языку. М.: ИРЯ РАН, 2005, 305–320. [Kapanadze L. A. On the border of written and oral text: The structure and trends in the development of electronic genres. Golosa i smysly. Izbrannye raboty po russkomu yazyku. Moscow: Vinogradov Russian Language Institute, 2005, 305–320.]
  14. Карасик 2019 — Карасик В. И. Жанры сетевого дискурса. Жанры речи, 2019, 1(21): 49–55. [Karasik V. I. Genres of online discourse. Zhanry rechi, 2019, 1(21): 49–55.]
  15. Кириллов 2017 — Кириллов А. Г. Трансформация жанра блога в программах обмена мгновенными сообщениями. Жанры речи, 2017, 2(16): 260–267. [Kirillov A. G. The transformation of the blog genre in instant messaging programs. Zhanry rechi, 2017, 2(16): 260–267.]
  16. Кузнецова, Ефремова 1986 — Кузнецова А. И., Ефремова Т. Ф. Словарь морфем русского языка. М.: Русский язык, 1986. [Kuznetsova A. I., Efremova T. F. Slovar’ morfem russkogo yazyka [Dictionary of morphemes of the Russian language]. Moscow: Russkii yazyk, 1986.]
  17. Кузьмина 2003 — Кузьмина М. В. Компьютерный вид общения «чат» как жанр естественной письменной речи: основные характеристики. Естественная письменная русская речь: исследовательский и образовательный аспекты: материалы конф. Ч. II: Теория и практика современной письменной речи. Голев Н. Д. (ред.). Барнаул: Изд-во Алтайского ун-та, 2003, 86–91. [Kuz’mina M. V. Computer speech style “chat” as a genre of natural written speech: Basic features. Estestvennaya pis’mennaya russkaya rech’: issledovatel’skii i obrazovatel’nyi aspekty. Conf. proc. P. II: Teoriya i praktika sovremennoi pis’mennoi rechi. Golev N. D. (ed.). Barnaul: Altai State Univ. Press, 2003, 86–91.]
  18. Литвиненко 2016 — Литвиненко Ж. М. Современная русистика о жанрах интернет-коммуникации: форум, блог, чат. Вестник ТГПУ, 2016, 3(168): 48–52. [Litvinenko Zh. M. Modern Russian studies on the genres of Internet communication: forum, blog, chat. TSPU Bulletin, 2016, 3 (168): 48–52.]
  19. Ляшевская и др. 2009 — Ляшевская О., Гришина Е., Тагабилева М., Иткин И. О задачах и методах словообразовательной разметки в корпусе текста. Полярный вестник, 2009, 12: 5–25. [Lyashevskaya O., Grishina E., Tagabileva M., Itkin I. On the tasks and methods of word-formation markup in a text corpus. Polyarnyi vestnik, 2009, 12: 5–25.]
  20. Ляшевская, Шаров 2009 — Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009. [Lyashevskaya O. N., Sharov S. A. Chastotnyi slovar’ sovremennogo russkogo yazyka (na materialakh Natsional’nogo korpusa russkogo yazyka) [Frequency dictionary of contemporary Russian based on the Russian National Corpus data]. Moscow: Azbukovnik, 2009.]
  21. Мишина, Пичхадзе 2015 — Мишина Е. А., Пичхадзе А. А. Древнерусский подкорпус Национального корпуса русского языка. Труды Института русского языка им. В. В. Виноградова, 2015, 6: 99–115. [Mishina E. A., Pichkhadze A. A. The Old Russian subcorpus of the Russian National Corpus. Proceedings of the V. V. Vinogradov Russian Language Institute, 2015, 6: 99–115.]
  22. Рахилина и др. 2009 — Рахилина Е. В., Кустова Г. И., Ляшевская О. Н., Резникова Т. И., Шеманаева О. Ю. Задачи и принципы семантической разметки лексики в НКРЯ. Национальный корпус русского языка: 2006–2008. Новые результаты и перспективы. Плунгян В. А. (отв. ред.). СПб.: Нестор-История, 2009, 215–239. [Rakhilina E. V., Kustova G. I., Lyashevskaya O. N., Reznikova T. I., Shemanaeva O. Yu. Tasks and principles of semantic markup of lexicon in the RNC. Natsional’nyi korpus russkogo yazyka: 2006–2008. Novye rezul’taty i perspektivy. Plungian V. A. (ed.). St. Petersburg: Nestor-Istoriya, 2009, 215–239.]
  23. Сичинава 2005 — Сичинава Д. В. Национальный корпус русского языка: очерк предыстории. Национальный корпус русского языка: 2003–2005. Плунгян В. А. (отв. ред.). М.: Индрик, 2005, 21–30. [Sitchinava D. V. Russian National Corpus: An outline of the prehistory. Natsional’nyi korpus russkogo yazyka: 2003–2005. Plungian V. A. (ed.). Moscow: Indrik, 2005, 21–30.]
  24. Сичинава 2016 — Сичинава Д. В. Старорусские/среднерусские тексты в НКРЯ: от экстенсивной коллекции к корпусу. Rašytinis palikimas ir skaitmeninė technologijos: VI tarptautinė mokslinė konferencija, Vilnius, 2016 m. rugpjūčio 22–28 d. Vilnius: Lietuvos mokslo taryba, 2016, 208–210. [Sitchinava D. V. Old/Middle Russian texts in the RNC: from an extensive collection to a corpus. Rašytinis palikimas ir skaitmeninė technologijos: VI tarptautinė mokslinė konferencija, Vilnius, 2016 m. rugpjūčio 22–28 d. Vilnius: Lietuvos mokslo taryba, 2016, 208–210.]
  25. Сичинава 2022 — Сичинава Д. В. Корпус берестяных грамот как параллельный. Труды Института русского языка им. В. В. Виноградова, 2022, 2: 92–106. [Sitchinava D. V. The corpus of birch bark letters as a parallel corpus. Proceedings of the V. V. Vinogradov Russian Language Institute, 2022, 2: 92–106.]
  26. Сичинава 2024 — Сичинава Д. В. Панхронический корпус: интеграция исторических и современных корпусных ресурсов. Труды Института русского языка им. В. В. Виноградова, 2: 336–353. [Sitchinava D. V. A panchronic corpus: Integration of historical and contemporary corpus resources. Proceedings of the V. V. Vinogradov Russian Language Institute, 2: 336–353.]
  27. Тихонов 2002 — Тихонов А. Н. Морфемно-орфографический словарь: около 100 000 слов. М.: АСТ, 2002. [Tikhonov A. N. Morfemno-orfograficheskii slovar’: okolo 100 000 slov [Morphemic and spelling dictionary: about 100,000 words]. Moscow: AST, 2002.]
  28. Трофимова 2004 — Трофимова Г. Н. Функционирование русского языка в Интернете: концептуально-сущностные доминанты. Автореф. дис. … докт. филол. наук. М.: РУДН, 2004. [Trofimova G. N. Funktsionirovanie russkogo yazyka v Internete: kontseptual’no-sushchnostnye dominanty [The functioning of the Russian language on the Internet: conceptual and essential dominants]. Abstract of cand. diss. Moscow: RUDN Univ., 2004.]
  29. Шилихина 2018 — Шилихина К. М. Лексические маркеры жанров интернет-коммуникации. Жанры речи, 2018, 3(19): 218–225. [Shilikhina K. M. Lexical markers of Internet communication genres. Zhanry rechi, 2018, 3(19): 218–225.]
  30. Шмелева 2012 — Шмелева Т. В. Жанр в современной медиасфере. Жанры речи: сб. науч. ст. Вып. 8. Жанр и творчество. Дементьев В. В. (ред.). Саратов; М.: Лабиринт, 2012, 26–37. [Shmeleva T. V. Genre in the modern media sphere. Zhanry rechi. Coll. of papers. No. 8. Zhanr i tvorchestvo. Dement’ev V. V. (ed.). Saratov; Moscow: Labirint, 2012, 26–37.]
  31. Щипицина 2009 — Щипицина Л. Ю. Жанры компьютерно-опосредованной коммуникации. Архангельск: Поморский ун-т, 2009. [Shchipitsina L. Yu. Zhanry komp’yuterno-oposredovannoi kommunikatsii [Genres of computer-mediated communication]. Arkhangelsk: Pomor State Univ., 2009.]
  32. Adams, Vincent (eds.) 2016 — Adams J. N., Vincent N. (eds.). Early and Late Latin continuity or change Cambridge: Cambridge Univ. Press, 2016.
  33. Davies 2010 — Davies M. The Corpus of Historical American English (COHA). Electronic resource, 2010. https://www.english-corpora.org/coha/.
  34. Evert, Krenn 2003 — Evert S., Krenn B. Computational approaches to collocations. Introductory course at the European Summer School on Logic, Language, and Information (ESSLLI 2003), Vienna. 2003. www.collocations.de.
  35. Lyashevskaya et al. 2020 — Lyashevskaya O. N., Shavrina T. O., Trofimov I. V., Vlasova N. A. GRAMEVAL 2020 shared task: Russian full morphology and universal dependencies parsing. Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог», 2020, 19: 553–569. [Lyashevskaya O. N., Shavrina T. O., Trofimov I. V., Vlasova N. A. GRAMEVAL 2020 shared task: Russian full morphology and universal dependencies parsing. Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conf. “Dialogue”, 2020, 19: 553–569.]
  36. Lyashevskaya et al. 2023 — Lyashevskaya O., Afanasev I., Rebrikov S, Shishkina Y., Suleymanova E., Trofimov I., Vlasova N. Disambiguation in context in the Russian National Corpus: 20 years later. Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог», 2023, 2: 307–318. [Lyashevskaya O., Afanasev I., Rebrikov S, Shishkina Y., Suleymanova E., Trofimov I., Vlasova N. Disambiguation in context in the Russian National Corpus: 20 years later. Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conf. “Dialogue”, 2023, 22: 307–318.]
  37. Morozov et al. 2022 — Morozov D. A., Glazkova A. V., Iomdin B. L. Text complexity and linguistic features: their correlation in English and Russian. Russian Journal of Linguistics, 2022, 2(26): 425–447.
  38. Roelli 2014 — Roelli Ph. The Corpus Corporum, a new open Latin text repository and tool. Archivum Latinitatis Medii Aevi: Bulletin Du Cange, 2014, 72: 289–304.
  39. Sitchinava, Dyshkant 2021 — Sitchinava D., Dyshkant A. Integration of the Old East Slavic epigraphical databases, corpora and indices. Scripta & e-Scripta: The Journal of Interdisciplinary Medieval Studies, 2021, 21: 93–106.
  40. Sitchinava 2023 — Sitchinava D. Multiple interpretation and fragmented texts within a historical corpus: the case of Old East Slavic vernacular writing. Jazykovedný časopis, 2023, 74(1): 266–274.
  41. Sorokin, Kravtsova 2018 — Sorokin A., Kravtsova A. Deep convolutional networks for supervised morpheme segmentation of Russian language. Artificial Intelligence and Natural Language. AINL 2018. Communications in Computer and Information Science. Ustalov D., Filchenkov A., Pivovarova L., Žižka J. (eds.). Springer: Cham, 2018, 3–10.
  42. Straka et al. 2016 — Straka M., Hajič J., Straková J. UDPipe: trainable pipeline for processing CoNLL-U files performing tokenization, morphological analysis, pos tagging and parsing. Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC’16). 4290–4297.

© Russian Academy of Sciences, 2024

Осы сайт cookie-файлдарды пайдаланады

Біздің сайтты пайдалануды жалғастыра отырып, сіз сайттың дұрыс жұмыс істеуін қамтамасыз ететін cookie файлдарын өңдеуге келісім бересіз.< / br>< / br>cookie файлдары туралы< / a>