The open corpus of the Vepsian and Karelian languages

Cover Page

Cite item

Full Text

Open Access Open Access
Restricted Access Access granted
Restricted Access Subscription Access

Abstract

In order to preserve and systematically study the Vepsian and Karelian languages, the staff of the Institute of Language, Literature and History and the Institute of Applied Mathematical Research of the KarSC RAS have created and continue to improve the VepKar language corpus. The project is aimed at preserving and accumulating written texts in Karelian and Vepsian languages, fixing and preserving oral speech, researching the Baltic-Finnish languages of Karelia, editing the norms of newly written versions of Karelian and Vepsian languages, and creating educational applications. Anyone can use VepKar as an electronic library and a full-fledged electronic dictionary, which makes this resource very popular.

Full Text

Restricted Access

About the authors

I. I. Mullonen

Institute of Linguistics, Literature and History of the Karelian Research Centre of the Russian Academy of Sciences

Author for correspondence.
Email: irma.mullonen@hotmail.com

член-корреспондент РАН, главный научный сотрудник сектора языкознания

Russian Federation, Petrozavodsk

I. P. Novak

Institute of Linguistics, Literature and History of the Karelian Research Centre of the Russian Academy of Sciences

Email: bel.irina@rambler.ru

кандидат филологических наук, директор

Russian Federation, Petrozavodsk

References

  1. Open corpus of Vepsian and Karelian languages. (In Russ.)
  2. Corpus of the Vepsian language. (In Russ.)
  3. Koryakov Yu.B., Davidyuk T.I., Kharitonov V.S. et al. List of languages of Russia and their vitality statuses. Monograph-preprint. Moscow: Institute of Linguistics RAS, 2022. (In Russ.)
  4. Results of the Russian Population Census 2020. Vol. 5. Table. 1. National composition of the population. (In Russ.)
  5. Results of the Russian Population Census 2020. Vol. 5. Table. 4. Language proficiency and language use by the population. (In Russ.)
  6. Atlas of the world’s languages in danger. Paris: Imprimerie Leclerc, 2010.
  7. Boyko T.P., Zaitseva N.G., Krizhanovskaya N.B. et al. The Linguistic Corpus VepKar is a Language Refuge for the Balticfinnish Languages of Karelia // Proceedings of the Karelian Research Centre of the Russian Academy of Sciences. 2021, no. 7, pp. 100–115. (In Russ.)
  8. Boyko T., Zaitseva N., Krizhanovskaya N. et al. The Open corpus of the Veps and Karelian languages: overview and applications // KnE Social Sciences. 2022, no. 3, pp. 29–40.
  9. Rodionova A.P., Krizhanovskaya N.B., Pellinen N.A. VepKar speech corpus as a tool to preserve the dialect speech of the Baltic-Finnish people of Karelia // Yearbook of Finno-Ugric Studies. 2023, no. 3, pp. 343–351. (In Russ.)
  10. Audio map of the Baltic-Finnish languages of Karelia and adjacent regions. (In Russ.)
  11. Novak I.P., Krizhanovskaya N.B., Boiko T.P., Pellinen N.A. Development of rules of generation of nominal word forms for new-written variants of the Karelian language // Bulletin of Ugric Studies. 2020, no. 10 (4), pp. 679–691. (In Russ.)
  12. Zaitseva N.G., Kharitonova E.E., Zhukova O.Yu. Spelling dictionary of the Vepsian language. Petrozavodsk: Karelian Research Center RAS, 2012. (In Russ.)
  13. Boyko T.P. Grammar and spelling dictionary of the Karelian language. Petrozavodsk: Periodika, 2022. (In Russ.)
  14. RSF project “Creation of a speech corpus of the Baltic-Finnish languages of Karelia.” (In Russ.)

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Fig. 1. Main page of the Open Corpus of the Karelian and Vepsian Languages

Download (644KB)
3. Fig. 2. Statistics of texts by VepKar subcorpora

Download (151KB)
4. Fig. 3. Example of text from the speech dialect subcorpus

Download (373KB)
5. Fig. 4. An example of a dictionary entry from the Lemma Dictionary of the VepCar corpus

Download (276KB)
6. Fig. 5. An example of the editor's work on removing homonymy

Download (195KB)
7. Fig. 6. An example of the selection of Livvik verbs in the perfect conditional form using the VepKara lexical and grammatical search system

Download (164KB)
8. Fig. 7. An example of the spell checker application. Words underlined in red are misspelled or are not present in the corpus database.

Download (178KB)
9. Fig. 8. Statistics of visits to the building for January–March 2024

Download (100KB)
10. Fig. 9. Attendance of the building for the week of 15.04.2024 – 21.04.2024. The sharp increase in the number of visits and visitors on 19.04.2024 is associated with the All-Russian campaign “Dictation in the Karelian and Vepsian Languages”

Download (64KB)
11. Fig. 10. An example of the design of a dictionary entry in LiPaS

Download (252KB)

Copyright (c) 2024 Russian Academy of Sciences

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».