Глагольная база данных: структура, кластеры, опции
- Авторы: Бунтман Н.В.1, Борисова А.С.2, Даровских Ю.А.1
-
Учреждения:
- Московский государственный университет имени М.В. Ломоносова
- Российский университет дружбы народов
- Выпуск: Том 27, № 4 (2023): Современные языки и культуры: вариативность, функции и идеологии в когнитивном аспекте
- Страницы: 981-1004
- Раздел: Статьи
- URL: https://journals.rcsi.science/2687-0088/article/view/313481
- DOI: https://doi.org/10.22363/2687-0088-35812
- EDN: https://elibrary.ru/XMTURJ
- ID: 313481
Цитировать
Полный текст
Аннотация
Содержание и объем лингвистических корпусов различного типа позволяет получать достоверную информацию о реальном функционировании той или иной языковой единицы. В настоящее время существует большое количество корпусов на различных языках, технологии их формирования постоянно совершенствуются. Однако при использовании данных ресурсов в сопоставительных исследованиях возникают некоторые проблемы и ограничения. В этой связи наблюдается необходимость работать с материалом, который был обработан с применением протоколов аннотирования и методов синтаксического анализа. Цель статьи - представить структуру и функционал надкорпусной глагольной базы данных (НГБД), разработанной на основе параллельного русско-французского подкорпуса Национального корпуса русского языка (НКРЯ), а также показать разницу их потенциалов. Описываемая база данных представляет собой систему ручного аннотирования глагольных форм в соответствии с кластерами и является пилотной версией конечного программного обеспечения, которое в настоящее время находится в разработке и проходит апробацию. НГБД состоит из нескольких кластеров, ориентированных на решение ряда лингвистических задач: определить специфику контекстной грамматической семантики и распределения глагольных форм в русском и французском языках; выявить структуру полисеманта в двух языках, что в свою очередь позволяет верифицировать представления о языковых картинах мира носителей рассматриваемых языков. Результаты исследования показали, что механизм функционирования кластерных образований описываемого ресурса позволяет изучать как отдельные характеристики глаголов, так и семантику глагольных лексем и коллокаций. Проводимое ручное аннотирование предусматривает возможность выявить системную асимметрию глагольных форм, а также случаи контекстуальной и малочастотной асимметрии. Таким образом, НГБД может быть использована в лингводидактике, преподавании и изучении дискурсивной грамматики, а также в анализе вариативности моделей перевода.
Об авторах
Надежда Валентиновна Бунтман
Московский государственный университет имени М.В. Ломоносова
Email: nabunt@hotmail.com
ORCID iD: 0009-0008-4945-1028
кандидат филологических наук, доцент кафедры французского языка факультета иностранных языков и регионоведения МГУ имени М.В. Ломоносова. Области ее исследований - сопоставительная и корпусная лингвистика, художественный перевод, стилистика французского языка, современная французская литература. Она является лауреатом переводческих премий и кавалером французского ордена «Академические пальмы».
Москва, РоссияАнна Степановна Борисова
Российский университет дружбы народов
Автор, ответственный за переписку.
Email: borisova-as@rudn.ru
ORCID iD: 0000-0002-7395-7028
кандидат филологических наук, доцент кафедры иностранных языков филологического факультета РУДН. В сферу ее научных интересов входят теория и практика перевода, когнитивная лингвистика, дискурс-анализ.
Москва, РоссияЮлия Андреевна Даровских
Московский государственный университет имени М.В. Ломоносова
Email: juliadarov@mail.ru
ORCID iD: 0009-0007-0606-1161
преподаватель кафедры иностранных языков исторического факультета МГУ имени М.В. Ломоносова, аспирант третьего года обучения. Ее научные интересы включают сопоставительную аспектологию, корпусные исследования и методику преподавания французского языка.
Москва, РоссияСписок литературы
- Баранов А.Н., Добровольский Д.О. Об одном подходе к количественной оценке идиоматичности текста как характеристике авторского стиля // Компьютерная лингвистика и интеллектуальные технологии: материалы ежегодной международной конференции «Диалог 2021». Т. 20. М.: РГГУ, 2021. С. 58-67. [Baranov, Anatoly N. & Dimitri O. Dobrovol’skij. 2021. Idiomaticity of a Text as a Matter of the Individual Style: A Quantitative Approach. Komp’yuternaya lingvistika i intellektual’nye tekhnologii (Computational Linguistics and Intellectual Technologies). Proceedings of the Annual International Conference ‘Dialog 2021.’ Vol. 20. 58-67. Moscow: RSUHU Publ. (In Russ.)].
- Баранов А.Н. Корпусный эксперимент в лингвистической экспертизе // Компьютерная лингвистика и интеллектуальные технологии: материалы ежегодной международной конференции «Диалог 2022». Т. 21. М.: РГГУ, 2022. C. 42-49. [Baranov, Anatoly N. 2022. Corpus experiment in forensic linguistics. Komp’yuternaya lingvistika i intellektual’nye tekhnologii (Computational Linguistics and Intellectual Technologies). Proceedings of the Annual International Conference ‘Dialog 2022. Vol. 21. 42-49. Moscow: RSUHU Publ. (In Russ.)].
- Богуславский И.М., Григорьев Н.В., Григорьева С.А., Иомдин Л.Л., Крейдлин Л.Г., Санников В.З., Фрид Н.Е. Аннотированный корпус русских текстов: концепция, инструменты разметки, типы информации // Труды международного семинара «Диалог 2000». [Boguslavskii, Igor’ M., Nikolai V. Grigor’ev, Svetlana A. Grigor’eva, Leonid G. Kreidlin, Vladimir Z. Sannikov & Nina A. Frid. 2000. Annotirovannyi korpus russkikh tekstov: kontseptsiya, instrumenty razmetki, tipy informatsii (An annotated corpus of Russian texts: concept, markup tools, types of information.). Proceedings of the International Seminar ‘Dialog 2000’. (In Russ.)].
- Бунтман Н.В., Зализняк А.A., Зацман И.M., Кружков М.Г., Лощилова Е.Ю., Сичинава Д.В. Информационные технологии корпусных исследований: принципы построения кросс-лингвистических баз данных // Информатика и ее применения. 2014. Т. 8. № 2. С. 98-110. [Buntman, Nadezhda V., Anna A., Zaliznyak, IIgor’ M. Zatsman, Mikhail G. Kruzhkov, G., Elena Yu. Loshchilova & Dmitrii V. Sichinava. 2014. Information technologies for corpus studies: Underpinnings for cross-linguistic database creation. Informatics and Applications 8 (2). 98-110. (In Russ.)].
- Бытева Т.И. Основы лингвистической теории перифразы. Красноярск: КрасГУ, 2004. [Byteva, Tat’yana I. 2004. Osnovy lingvisticheskoi teorii perifrazy (Fundamentals of the Linguistic Theory of Periphrase). Krasnoyarsk: KraSGU Publ. (In Russ.)].
- Гак В.Г. Языковые преобразования. М.: Школа «Языки русской культуры», 1998. [Gak, Vladimir G. 1998. Yazykovye preobrazovaniya (Language Transformations). Moscow: Shkola «Yazyki russkoi kul’tury». (In Russ.)].
- Даровских Ю.А. Сопоставительный анализ семантики грамматических средств выражения аспектуальности в русском и французском языках // Риторика - Лингвистика. 2020. T. 15. C. 76-89. [Darovskikh, Yuliya A. 2020. Comparative analysis of the semantics of grammatical aspect in Russian and French. Ritorika - Lingvistika 15. 76-89. (In Russ.)].
- Добровольский Д.О., Кретов А.А., Шаров С.А. Корпус параллельных текстов: архитектура и возможности использования // Национальный корпус русского языка: 2003-2005. М.: Индрик, 2005. C. 263-296. [Dobrovol’skii, Dmitrii O., Aleksei A. Kretov & Sergei A. Sharov. 2005. Korpus parallel’nykh tekstov: arkhitektura i vozmozhnosti ispol’zovaniya (Corpus of parallel texts: Architecture and possibilities of use). Natsional’nyi korpus russkogo yazyka: 2003-2005. Moscow: Indrik. 263-296. (In Russ.)].
- Есменская Н.А. Явление перифразы в аспекте смысловой связности текста // Актуальные проблемы французской филологии. Сборник научных трудов. Т.2. М.: 2002. С. 52-55. [Esmenskaya, Natal’ya A. 2002. Yavlenie perifrazy v aspekte smyslovoi svyaznosti teksta (The Phenomenon of Paraphrase in the Aspect of the Semantic Coherence of the Text). Aktual’nye problemy frantsuzskoi filologii. Sbornik nauchnykh trudov. Vol. 2. Moscow.: 52-55. (In Russ.)].
- Зализняк А.А. Многозначность в языке и способы ее представления. М.: Языки славянской культуры, 2006. [Zalizniak, Anna A. 2006. Mnogoznachnost’ v yazyke i sposoby predstavleniya (Language Polysemy and Means of its Representation). Moscow: Yazyki slavyanskoi kul’tury. (In Russ.)].
- Зализняк А.А., Шмелев А.Д. Исследования по русской и компаративной семантике. М.: Издательский Дом. ЯСК, 2021. [Zalizniak, Anna A., Alexei D. Shmelev. 2021. Issledovaniya po russkoi i comporativnoi semantike (Studies on Russian and Comparative Semantics). Moscow: Izdatel’skii dom. Yask (In Rus.)].
- Зализняк А.А., Зацман И.М., Инькова О.Ю., Кружков М.Г. Надкорпусные базы данных как лингвистический ресурс // Труды международной конференции «Корпусная лингвистика-2015». СПб.: 2015. С. 211-218. [Zaliznyak, Anna A., Igor M., Zatsman, Olga U. Inkova & Mikhail G. Kruzhkov. 2015. Supracorpora databases as linguistic resource. Proceedings of the Annual International Conference ‘Corpus Linguistics-2015. Saint Petersburg. 211-218. (In Russ.)].
- Зализняк А.А., Кружков М.Г. База данных безличных глагольных конструкций русского языка // Информатика и ее применения, 2016. Т. 10. № 4. С. 132-141. [Zalizniak, Anna A. & Mikhail G. Kruzhkov. 2016. Database or Russian impersonal verbal constructions. Informatics and Applications 10 (4). 132-141. (In Russ.)].
- Захаров В.П., Богданова С.Ю. Корпусная лингвистика. СПб.: Изд-во СПбГУ, 2020 [Zaharov, Viktor P. & Svetlana Yu. Bogdanova. 2020. Korpusnaya lingvistika (Corpus Linguistics). Saint Petersburg: Saint Petersburg University Publ. (In Russ.)].
- Инькова О.Ю., Кружков М.Г. Надкорпусные русско-французские базы данных глагольных форм и коннекторов // Славянские языки in comparatione: материалы IV Международной конференции по контрастивной лингвистике GELiTeC 2016. Изд-во: Bergamo University Press, 2016. 365-392. [Inkova, Olga U. & Mikhail G. Kruzhkov. 2016. Nadkorpusnye russko-frantsuzskie bazy dannykh glagol’nykh form i konnektorov (Supracorpora Russian-French databases of verb forms and connectors). Slavyanskie yazyki in comparatione (Slavic Languages in Contrast). Proceedings of the International Conference on Contrastive Llinguistics ‘GELiTeC 2016’. Bergamo University Press. 365-393. (In Russ.)].
- Кружков М.Г. Информационные ресурсы контрастивных лингвистических исследований: электронные корпуса текстов // Системы и средства информатики. 2015. Т. 25. № 2. С. 140-159. [Kruzhkov, Mikhail G. 2015. Information resources for contrastive studies: Electronic text corpora. Sistemy i Sredstva Informatiki 25 (2). 140-159. (In Russ.)].
- Кустова Г.И., Ляшевская О.Н., Падучева Е.В., Рахилина Е.В. Семантическая разметка лексики в Национальном корпусе русского языка: принципы, проблемы, перспективы / / Национальный корпус русского языка: 2003-2005. Результаты и перспективы. М.: Индрик, 2005. С. 155-174. [Kustova, Galina I., Ol’ga N. Lyashevskaya, Elena V.Paducheva & Ekaterina V. Rakhilina. 2005. Semanticheskaya razmetka leksiki v Natsional’nom korpuse russkogo yazyka: printsipy, problemy, perspektivy (Semantic Markup of Vocabulary in the National Corpus of the Russian Language: Principles, Problems, Prospects). Natsional’nyi korpus russkogo yazyka: 2003-2005. Moscow: Indrik. 263-296. (In Russ.)].
- Кустова Г.И. Типы инфинитивных конструкций с предикативами (по данным Национального корпуса русского языка) // Компьютерная лингвистика и интеллектуальные технологии: материалы ежегодной международной конференции «Диалог». Т. 20. Москва: РГГУ, 2021. C. 456-463. [Kustova, Galina I. 2021. The types of infinitive constructions with predicatives (according to the Russian National Corpus). Komp’yuternaya lingvistika i intellektual’nye tekhnologii (Computational Linguistics and Intellectual Technologies). Proceedings of the Annual International Conference ‘Dialog’. Vol. 20. 456-463. Moscow: RSUHU Publ. (In Russ.)].
- Кустова Г.И. Электронный семантический словарь глагольных прилагательных: структура и типы информации // Компьютерная лингвистика и интеллектуальные технологии: материалы ежегодной международной конференции «Диалог-2009». М.: 2009. С. 271-277. [Kustova, Galina I. 2009. The semantic database of verbal adjectives: Structure and types of information. Komp’yuternaya lingvistika i intellektual’nye tekhnologii (Computational Linguistics and Intellectual Technologies). Proceedings of the Annual International Conference ‘Dialog-2009. Moscow: RGGU. 271-277. (In Russ.)].
- Кустова Г.И. Электронный словарь степенной сочетаемости на базе Национального корпуса русского языка // Труды международной конференции «Корпусная лингвистика - 2008». СПб.: 2008. С. 132-149. [Kustova, Galina I. 2008. Ehlektronnyi slovar' stepennoi sochetaemosti na baze Natsional’nogo korpusa russkogo yazyka (Electronic dictionary of power combination based on the national corpus of the Russian language). Proceedings of the International Conference ‘Corpus Linguistics - 2008. Saint Petersburg. 132-149. (In Russ.)].
- Прикладная и компьютерная лингвистика / под. ред. И.С. Николаева, О.В. Митрениной, Т.М. Ландо. М.: Ленинград, 2017. [Nikolaev, Il’ya S., Olga V. Mitrenina, Tat’yana M. Lando. (eds.). 2017. Prikladnaya i komp’yuternaya lingvistika (Applied and Computer Linguistics). Moscow: Leningrad. (In Russ.)].
- Сиривля М.А. Перифраз в современной лингвистике // Теоретические и методологические аспекты языкознания: материалы международной научно-практической конференции. Алматы: АГУ. 2004. С. 43-47. [Sirivlya, Madina A. 2004. Perifraz v sovremennoi lingvistike (Paraphrase in modern linguistics). Teoreticheskie i metodologicheskie aspekty yazykoznaniya (Theoretical and Methodological Aspects of Linguistics). Proceedings of the International Research and Practice Conference. Almaty: AGU. 2004. 43-47. (In Russ.)].
- Сичинава Д.В. Параллельные тексты в составе Национального корпуса русского языка: Новые языки и новые задачи. // Труды Института русского языка им. В.В. Виноградова. 2019. № 21. С. 41-60. [Sitchinava, Dmitri V. 2019. On parallel texts within the Russian national corpus: New languages and new challenges. Trudy Instituta Russkogo Yazyka imeni V. V. Vinogradova 21. 41-60. (In Russ.)].
- Туницкая Е.Л. Перефразирование в лингвопрагматическом аспекте на материале французского дискурса. М.: Издательский центр института всеобщей истории РАН, 2010. [Tunitskaya, Elena L. 2010. Perifrazirovanie v lingvopragmaticheskom aspekte na materiale frantsuzskogo diskursa (Paraphrasing in the Linguo-pragmatic Aspect Based on French Discourse.). Moscow: Izdatel’skii tsentr instituta vseobshchei istorii RAN. (In Russ.)].
- Чуйкова О.Ю. Родительный партитивный в русском языке: словарные и корпусные данные // Компьютерная лингвистика и интеллектуальные технологии: материалы ежегодной международной конференции «Диалог». Т. 22. М.: РГГУ, 2023. С. 42-50. [Chuikova, Oksana Yu. 2023. Partitive genitive in Russian: Dictionary and corpus data. Komp’yuternaya lingvistika i intellektual’nye tekhnologii. (Computational Linguistics and Intellectual Technologies). Proceedings of the Annual International Conference ‘Dialog’. Vol. 22. Moscow: RSUHU Publ. 42-50. (In Russ.)].
- Шаров С.А. Представительный корпус русского языка в контексте мирового опыта // Научно- техническая информация. 2003. Т.2. № 6. С.12-16. [Sharov, Sergei A. 2003. Predstavitel’nyi korpus russkogo yazyka v kontekste mirovogo opyta (Representative corpus of the Russian language in the context of world experience). Nauchno-tekhnicheskaya informatsiya 2 (6). 12-16. (In Russ.)].
- Kruzhkov, Mikhail, Nadezhda V. Buntman, Elena Yu. Loshchilova, Dmitri V. Sitchinava, Anna A. Zalizniak & Igor. M. Zatsman. 2014. The database of Russian verbal forms and their French translation equivalents. Computational Linguistics and Intellectual Technologies. Proceedings of the Annual International Conference ‘Dialog-2014’. Moscow: RGGU. 275-287.
- Letuchii, Alexandre B. 2018. Predicatives. Materials for the corpus grammar of the Russian language. No. III. Parts of Speech and Lexical and Grammatical Classes. Saint Petersburg: Nestor- Istoriya. 136-192.
- Loiseau, Sébastien, Dmitri V. Sitchinava, Anna A. Zalizniak & Igor M. Zatsman. 2013. Information technologies for creating the database of equivalent verbal forms in the Russian-French multivariant parallel corpus. Informatics and Applications 7 (2). 100-109.
- Novakova, Iva & Dirk Siepmann. 2020. Phraseology and Style in Subgenres of the Novel: A Synthesis of Corpus and Literary Perspectives. London: Palgrave Macmillan.
- Pons Bordería, Salvador & Elena Pascual Aliaga. 2021. Inter-annotator agreement in spoken language annotation: Applying uα-family coefficients to discourse segmentation. Russian Journal of Linguistics 25 (2). 478-506. https://doi.org/10.22363/2687-0088-2021-25-2-478-506
- Plungian, Vladimir, Ekaterina Rakhilina & Tatiana Reznikova. 2022. Perfective, performative and present: Some non-standard combinations in Slavic and beyond. Russian Journal of Linguistics 26 (4). 1012-1030. https://doi.org/10.22363/2687-0088-31252
- Sharoff, Serge. 2022. What neural networks know about linguistic complexity. Russian Journal of Linguistics 26 (2). 371-390. https://doi.org/10.22363/2687-0088-30178
- Solovyev, Valery, Marina Solnyshkina & Danielle McNamara. 2022. Computational linguistics and discourse complexology: Paradigms and research methods. Russian Journal of Linguistics 26 (2). 275-316. https://doi.org/10.22363/2687-0088-30161
- Rastier, François. 2023. Enjeux épistémologiques de la linguistique de corpus. http://www.revue- texto.net/Inedits/Rastier/Rastier_Enjeux.html>. (accessed 12 July 2023).
- Zatsman, Igor & Nadezhda Buntman. 2015. Outlining goals for discovering new knowledge and computerised tracing of emerging meanings. Proceedings of the 16th European Conference on Knowledge Management. Reading: Academic Publishing International Limited. 851-860.
Дополнительные файлы
