Глагольная база данных: структура, кластеры, опции

Обложка

Цитировать

Полный текст

Аннотация

Содержание и объем лингвистических корпусов различного типа позволяет получать достоверную информацию о реальном функционировании той или иной языковой единицы. В настоящее время существует большое количество корпусов на различных языках, технологии их формирования постоянно совершенствуются. Однако при использовании данных ресурсов в сопоставительных исследованиях возникают некоторые проблемы и ограничения. В этой связи наблюдается необходимость работать с материалом, который был обработан с применением протоколов аннотирования и методов синтаксического анализа. Цель статьи - представить структуру и функционал надкорпусной глагольной базы данных (НГБД), разработанной на основе параллельного русско-французского подкорпуса Национального корпуса русского языка (НКРЯ), а также показать разницу их потенциалов. Описываемая база данных представляет собой систему ручного аннотирования глагольных форм в соответствии с кластерами и является пилотной версией конечного программного обеспечения, которое в настоящее время находится в разработке и проходит апробацию. НГБД состоит из нескольких кластеров, ориентированных на решение ряда лингвистических задач: определить специфику контекстной грамматической семантики и распределения глагольных форм в русском и французском языках; выявить структуру полисеманта в двух языках, что в свою очередь позволяет верифицировать представления о языковых картинах мира носителей рассматриваемых языков. Результаты исследования показали, что механизм функционирования кластерных образований описываемого ресурса позволяет изучать как отдельные характеристики глаголов, так и семантику глагольных лексем и коллокаций. Проводимое ручное аннотирование предусматривает возможность выявить системную асимметрию глагольных форм, а также случаи контекстуальной и малочастотной асимметрии. Таким образом, НГБД может быть использована в лингводидактике, преподавании и изучении дискурсивной грамматики, а также в анализе вариативности моделей перевода.

Об авторах

Надежда Валентиновна Бунтман

Московский государственный университет имени М.В. Ломоносова

Email: nabunt@hotmail.com
ORCID iD: 0009-0008-4945-1028

кандидат филологических наук, доцент кафедры французского языка факультета иностранных языков и регионоведения МГУ имени М.В. Ломоносова. Области ее исследований - сопоставительная и корпусная лингвистика, художественный перевод, стилистика французского языка, современная французская литература. Она является лауреатом переводческих премий и кавалером французского ордена «Академические пальмы».

Москва, Россия

Анна Степановна Борисова

Российский университет дружбы народов

Автор, ответственный за переписку.
Email: borisova-as@rudn.ru
ORCID iD: 0000-0002-7395-7028

кандидат филологических наук, доцент кафедры иностранных языков филологического факультета РУДН. В сферу ее научных интересов входят теория и практика перевода, когнитивная лингвистика, дискурс-анализ.

Москва, Россия

Юлия Андреевна Даровских

Московский государственный университет имени М.В. Ломоносова

Email: juliadarov@mail.ru
ORCID iD: 0009-0007-0606-1161

преподаватель кафедры иностранных языков исторического факультета МГУ имени М.В. Ломоносова, аспирант третьего года обучения. Ее научные интересы включают сопоставительную аспектологию, корпусные исследования и методику преподавания французского языка.

Москва, Россия

Список литературы

  1. Баранов А.Н., Добровольский Д.О. Об одном подходе к количественной оценке идиоматичности текста как характеристике авторского стиля // Компьютерная лингвистика и интеллектуальные технологии: материалы ежегодной международной конференции «Диалог 2021». Т. 20. М.: РГГУ, 2021. С. 58-67. [Baranov, Anatoly N. & Dimitri O. Dobrovol’skij. 2021. Idiomaticity of a Text as a Matter of the Individual Style: A Quantitative Approach. Komp’yuternaya lingvistika i intellektual’nye tekhnologii (Computational Linguistics and Intellectual Technologies). Proceedings of the Annual International Conference ‘Dialog 2021.’ Vol. 20. 58-67. Moscow: RSUHU Publ. (In Russ.)].
  2. Баранов А.Н. Корпусный эксперимент в лингвистической экспертизе // Компьютерная лингвистика и интеллектуальные технологии: материалы ежегодной международной конференции «Диалог 2022». Т. 21. М.: РГГУ, 2022. C. 42-49. [Baranov, Anatoly N. 2022. Corpus experiment in forensic linguistics. Komp’yuternaya lingvistika i intellektual’nye tekhnologii (Computational Linguistics and Intellectual Technologies). Proceedings of the Annual International Conference ‘Dialog 2022. Vol. 21. 42-49. Moscow: RSUHU Publ. (In Russ.)].
  3. Богуславский И.М., Григорьев Н.В., Григорьева С.А., Иомдин Л.Л., Крейдлин Л.Г., Санников В.З., Фрид Н.Е. Аннотированный корпус русских текстов: концепция, инструменты разметки, типы информации // Труды международного семинара «Диалог 2000». [Boguslavskii, Igor’ M., Nikolai V. Grigor’ev, Svetlana A. Grigor’eva, Leonid G. Kreidlin, Vladimir Z. Sannikov & Nina A. Frid. 2000. Annotirovannyi korpus russkikh tekstov: kontseptsiya, instrumenty razmetki, tipy informatsii (An annotated corpus of Russian texts: concept, markup tools, types of information.). Proceedings of the International Seminar ‘Dialog 2000’. (In Russ.)].
  4. Бунтман Н.В., Зализняк А.A., Зацман И.M., Кружков М.Г., Лощилова Е.Ю., Сичинава Д.В. Информационные технологии корпусных исследований: принципы построения кросс-лингвистических баз данных // Информатика и ее применения. 2014. Т. 8. № 2. С. 98-110. [Buntman, Nadezhda V., Anna A., Zaliznyak, IIgor’ M. Zatsman, Mikhail G. Kruzhkov, G., Elena Yu. Loshchilova & Dmitrii V. Sichinava. 2014. Information technologies for corpus studies: Underpinnings for cross-linguistic database creation. Informatics and Applications 8 (2). 98­-110. (In Russ.)].
  5. Бытева Т.И. Основы лингвистической теории перифразы. Красноярск: КрасГУ, 2004. [Byteva, Tat’yana I. 2004. Osnovy lingvisticheskoi teorii perifrazy (Fundamentals of the Linguistic Theory of Periphrase). Krasnoyarsk: KraSGU Publ. (In Russ.)].
  6. Гак В.Г. Языковые преобразования. М.: Школа «Языки русской культуры», 1998. [Gak, Vladimir G. 1998. Yazykovye preobrazovaniya (Language Transformations). Moscow: Shkola «Yazyki russkoi kul’tury». (In Russ.)].
  7. Даровских Ю.А. Сопоставительный анализ семантики грамматических средств выражения аспектуальности в русском и французском языках // Риторика - Лингвистика. 2020. T. 15. C. 76-89. [Darovskikh, Yuliya A. 2020. Comparative analysis of the semantics of grammatical aspect in Russian and French. Ritorika - Lingvistika 15. 76-89. (In Russ.)].
  8. Добровольский Д.О., Кретов А.А., Шаров С.А. Корпус параллельных текстов: архитектура и возможности использования // Национальный корпус русского языка: 2003-2005. М.: Индрик, 2005. C. 263-296. [Dobrovol’skii, Dmitrii O., Aleksei A. Kretov & Sergei A. Sharov. 2005. Korpus parallel’nykh tekstov: arkhitektura i vozmozhnosti ispol’zovaniya (Corpus of parallel texts: Architecture and possibilities of use). Natsional’nyi korpus russkogo yazyka: 2003-2005. Moscow: Indrik. 263-296. (In Russ.)].
  9. Есменская Н.А. Явление перифразы в аспекте смысловой связности текста // Актуальные проблемы французской филологии. Сборник научных трудов. Т.2. М.: 2002. С. 52-55. [Esmenskaya, Natal’ya A. 2002. Yavlenie perifrazy v aspekte smyslovoi svyaznosti teksta (The Phenomenon of Paraphrase in the Aspect of the Semantic Coherence of the Text). Aktual’nye problemy frantsuzskoi filologii. Sbornik nauchnykh trudov. Vol. 2. Moscow.: 52-55. (In Russ.)].
  10. Зализняк А.А. Многозначность в языке и способы ее представления. М.: Языки славянской культуры, 2006. [Zalizniak, Anna A. 2006. Mnogoznachnost’ v yazyke i sposoby predstavleniya (Language Polysemy and Means of its Representation). Moscow: Yazyki slavyanskoi kul’tury. (In Russ.)].
  11. Зализняк А.А., Шмелев А.Д. Исследования по русской и компаративной семантике. М.: Издательский Дом. ЯСК, 2021. [Zalizniak, Anna A., Alexei D. Shmelev. 2021. Issledovaniya po russkoi i comporativnoi semantike (Studies on Russian and Comparative Semantics). Moscow: Izdatel’skii dom. Yask (In Rus.)].
  12. Зализняк А.А., Зацман И.М., Инькова О.Ю., Кружков М.Г. Надкорпусные базы данных как лингвистический ресурс // Труды международной конференции «Корпусная лингвистика-2015». СПб.: 2015. С. 211-218. [Zaliznyak, Anna A., Igor M., Zatsman, Olga U. Inkova & Mikhail G. Kruzhkov. 2015. Supracorpora databases as linguistic resource. Proceedings of the Annual International Conference ‘Corpus Linguistics-2015. Saint Petersburg. 211-218. (In Russ.)].
  13. Зализняк А.А., Кружков М.Г. База данных безличных глагольных конструкций русского языка // Информатика и ее применения, 2016. Т. 10. № 4. С. 132-141. [Zalizniak, Anna A. & Mikhail G. Kruzhkov. 2016. Database or Russian impersonal verbal constructions. Informatics and Applications 10 (4). 132-141. (In Russ.)].
  14. Захаров В.П., Богданова С.Ю. Корпусная лингвистика. СПб.: Изд-во СПбГУ, 2020 [Zaharov, Viktor P. & Svetlana Yu. Bogdanova. 2020. Korpusnaya lingvistika (Corpus Linguistics). Saint Petersburg: Saint Petersburg University Publ. (In Russ.)].
  15. Инькова О.Ю., Кружков М.Г. Надкорпусные русско-французские базы данных глагольных форм и коннекторов // Славянские языки in comparatione: материалы IV Международной конференции по контрастивной лингвистике GELiTeC 2016. Изд-во: Bergamo University Press, 2016. 365-392. [Inkova, Olga U. & Mikhail G. Kruzhkov. 2016. Nadkorpusnye russko-frantsuzskie bazy dannykh glagol’nykh form i konnektorov (Supracorpora Russian-French databases of verb forms and connectors). Slavyanskie yazyki in comparatione (Slavic Languages in Contrast). Proceedings of the International Conference on Contrastive Llinguistics ‘GELiTeC 2016’. Bergamo University Press. 365-393. (In Russ.)].
  16. Кружков М.Г. Информационные ресурсы контрастивных лингвистических исследований: электронные корпуса текстов // Системы и средства информатики. 2015. Т. 25. № 2. С. 140-159. [Kruzhkov, Mikhail G. 2015. Information resources for contrastive studies: Electronic text corpora. Sistemy i Sredstva Informatiki 25 (2). 140-159. (In Russ.)].
  17. Кустова Г.И., Ляшевская О.Н., Падучева Е.В., Рахилина Е.В. Семантическая разметка лексики в Национальном корпусе русского языка: принципы, проблемы, перспективы / / Национальный корпус русского языка: 2003-2005. Результаты и перспективы. М.: Индрик, 2005. С. 155-174. [Kustova, Galina I., Ol’ga N. Lyashevskaya, Elena V.Paducheva & Ekaterina V. Rakhilina. 2005. Semanticheskaya razmetka leksiki v Natsional’nom korpuse russkogo yazyka: printsipy, problemy, perspektivy (Semantic Markup of Vocabulary in the National Corpus of the Russian Language: Principles, Problems, Prospects). Natsional’nyi korpus russkogo yazyka: 2003-2005. Moscow: Indrik. 263-296. (In Russ.)].
  18. Кустова Г.И. Типы инфинитивных конструкций с предикативами (по данным Национального корпуса русского языка) // Компьютерная лингвистика и интеллектуальные технологии: материалы ежегодной международной конференции «Диалог». Т. 20. Москва: РГГУ, 2021. C. 456-463. [Kustova, Galina I. 2021. The types of infinitive constructions with predicatives (according to the Russian National Corpus). Komp’yuternaya lingvistika i intellektual’nye tekhnologii (Computational Linguistics and Intellectual Technologies). Proceedings of the Annual International Conference ‘Dialog’. Vol. 20. 456-463. Moscow: RSUHU Publ. (In Russ.)].
  19. Кустова Г.И. Электронный семантический словарь глагольных прилагательных: структура и типы информации // Компьютерная лингвистика и интеллектуальные технологии: материалы ежегодной международной конференции «Диалог-2009». М.: 2009. С. 271-277. [Kustova, Galina I. 2009. The semantic database of verbal adjectives: Structure and types of information. Komp’yuternaya lingvistika i intellektual’nye tekhnologii (Computational Linguistics and Intellectual Technologies). Proceedings of the Annual International Conference ‘Dialog-2009. Moscow: RGGU. 271-277. (In Russ.)].
  20. Кустова Г.И. Электронный словарь степенной сочетаемости на базе Национального корпуса русского языка // Труды международной конференции «Корпусная лингвистика - 2008». СПб.: 2008. С. 132-149. [Kustova, Galina I. 2008. Ehlektronnyi slovar' stepennoi sochetaemosti na baze Natsional’nogo korpusa russkogo yazyka (Electronic dictionary of power combination based on the national corpus of the Russian language). Proceedings of the International Conference ‘Corpus Linguistics - 2008. Saint Petersburg. 132-149. (In Russ.)].
  21. Прикладная и компьютерная лингвистика / под. ред. И.С. Николаева, О.В. Митрениной, Т.М. Ландо. М.: Ленинград, 2017. [Nikolaev, Il’ya S., Olga V. Mitrenina, Tat’yana M. Lando. (eds.). 2017. Prikladnaya i komp’yuternaya lingvistika (Applied and Computer Linguistics). Moscow: Leningrad. (In Russ.)].
  22. Сиривля М.А. Перифраз в современной лингвистике // Теоретические и методологические аспекты языкознания: материалы международной научно-практической конференции. Алматы: АГУ. 2004. С. 43-47. [Sirivlya, Madina A. 2004. Perifraz v sovremennoi lingvistike (Paraphrase in modern linguistics). Teoreticheskie i metodologicheskie aspekty yazykoznaniya (Theoretical and Methodological Aspects of Linguistics). Proceedings of the International Research and Practice Conference. Almaty: AGU. 2004. 43-47. (In Russ.)].
  23. Сичинава Д.В. Параллельные тексты в составе Национального корпуса русского языка: Новые языки и новые задачи. // Труды Института русского языка им. В.В. Виноградова. 2019. № 21. С. 41-60. [Sitchinava, Dmitri V. 2019. On parallel texts within the Russian national corpus: New languages and new challenges. Trudy Instituta Russkogo Yazyka imeni V. V. Vinogradova 21. 41-60. (In Russ.)].
  24. Туницкая Е.Л. Перефразирование в лингвопрагматическом аспекте на материале французского дискурса. М.: Издательский центр института всеобщей истории РАН, 2010. [Tunitskaya, Elena L. 2010. Perifrazirovanie v lingvopragmaticheskom aspekte na materiale frantsuzskogo diskursa (Paraphrasing in the Linguo-pragmatic Aspect Based on French Discourse.). Moscow: Izdatel’skii tsentr instituta vseobshchei istorii RAN. (In Russ.)].
  25. Чуйкова О.Ю. Родительный партитивный в русском языке: словарные и корпусные данные // Компьютерная лингвистика и интеллектуальные технологии: материалы ежегодной международной конференции «Диалог». Т. 22. М.: РГГУ, 2023. С. 42-50. [Chuikova, Oksana Yu. 2023. Partitive genitive in Russian: Dictionary and corpus data. Komp’yuternaya lingvistika i intellektual’nye tekhnologii. (Computational Linguistics and Intellectual Technologies). Proceedings of the Annual International Conference ‘Dialog’. Vol. 22. Moscow: RSUHU Publ. 42-50. (In Russ.)].
  26. Шаров С.А. Представительный корпус русского языка в контексте мирового опыта // Научно- техническая информация. 2003. Т.2. № 6. С.12-16. [Sharov, Sergei A. 2003. Predstavitel’nyi korpus russkogo yazyka v kontekste mirovogo opyta (Representative corpus of the Russian language in the context of world experience). Nauchno-tekhnicheskaya informatsiya 2 (6). 12-16. (In Russ.)].
  27. Kruzhkov, Mikhail, Nadezhda V. Buntman, Elena Yu. Loshchilova, Dmitri V. Sitchinava, Anna A. Zalizniak & Igor. M. Zatsman. 2014. The database of Russian verbal forms and their French translation equivalents. Computational Linguistics and Intellectual Technologies. Proceedings of the Annual International Conference ‘Dialog-2014’. Moscow: RGGU. 275-287.
  28. Letuchii, Alexandre B. 2018. Predicatives. Materials for the corpus grammar of the Russian language. No. III. Parts of Speech and Lexical and Grammatical Classes. Saint Petersburg: Nestor- Istoriya. 136-192.
  29. Loiseau, Sébastien, Dmitri V. Sitchinava, Anna A. Zalizniak & Igor M. Zatsman. 2013. Information technologies for creating the database of equivalent verbal forms in the Russian-French multivariant parallel corpus. Informatics and Applications 7 (2). 100-109.
  30. Novakova, Iva & Dirk Siepmann. 2020. Phraseology and Style in Subgenres of the Novel: A Synthesis of Corpus and Literary Perspectives. London: Palgrave Macmillan.
  31. Pons Bordería, Salvador & Elena Pascual Aliaga. 2021. Inter-annotator agreement in spoken language annotation: Applying uα-family coefficients to discourse segmentation. Russian Journal of Linguistics 25 (2). 478-506. https://doi.org/10.22363/2687-0088-2021-25-2-478-506
  32. Plungian, Vladimir, Ekaterina Rakhilina & Tatiana Reznikova. 2022. Perfective, performative and present: Some non-standard combinations in Slavic and beyond. Russian Journal of Linguistics 26 (4). 1012-1030. https://doi.org/10.22363/2687-0088-31252
  33. Sharoff, Serge. 2022. What neural networks know about linguistic complexity. Russian Journal of Linguistics 26 (2). 371-390. https://doi.org/10.22363/2687-0088-30178
  34. Solovyev, Valery, Marina Solnyshkina & Danielle McNamara. 2022. Computational linguistics and discourse complexology: Paradigms and research methods. Russian Journal of Linguistics 26 (2). 275-316. https://doi.org/10.22363/2687-0088-30161
  35. Rastier, François. 2023. Enjeux épistémologiques de la linguistique de corpus. http://www.revue- texto.net/Inedits/Rastier/Rastier_Enjeux.html>. (accessed 12 July 2023).
  36. Zatsman, Igor & Nadezhda Buntman. 2015. Outlining goals for discovering new knowledge and computerised tracing of emerging meanings. Proceedings of the 16th European Conference on Knowledge Management. Reading: Academic Publishing International Limited. 851-860.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Бунтман Н.В., Борисова А.С., Даровских Ю.А., 2023

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution-NonCommercial 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».