Корпусная лингвистика: теория vs методология

Обложка

Цитировать

Полный текст

Аннотация

Проведено комплексное исследование этапов становления и развития корпусной лингвистики. Целью статьи является анализ научных подходов к вопросу научной значимости рассматриваемой лингвистической дисциплины, а также выявление комплекса понятий и критериев, составляющих фундамент данного направления. Корпусная лингвистика представляет собой одну из наиболее перспективных и быстро развивающихся областей языковых исследований. Лингвистика XIX века ставила своей целью изучение языка как такового, лингвистика XXI века видит актуальность исследования не в выявлении абсолютных лингвистических категорий и значений, но в практическом применении лингвистических знаний. Актуальность представляемой статьи определяется тем, что в лингвистических корпусах заложен огромный потенциал, который еще не в полной мере осмыслен научным сообществом, хотя бы в силу того, что текст - основной объект корпусной лингвистики - в различных формах своей реализации представляет собой одну из главных составляющих системы языка и речемыслительной деятельности современного носителя языка. Содержание и объем лингвистических корпусов различного рода позволяет получать достоверную информацию об актуальном и реальном использовании того или иного термина: корпус становится инструментом анализа функционирования этого термина как в лингвистической области (морфологии, синтаксиса и лексики), так и в теории и практике перевода, идентифицируя регистр его формального или неформального узуса. Принципиальная новизна результатов данного исследования позволяет говорить о правомерности создания корпусных словарей и корпусных грамматик нового поколения, разработанных и верифицированных по отношению к конкретному фиксированному корпусу. Одновременно обосновывается положение о том, что корпусный характер словарей и грамматик повышает их надежность, достоверность и объективность и позволяет избежать субъективности, которая нередко свойственна исследованиям, опирающимся исключительно на интуицию лингвиста. Корпус является средой для получения новых научных данных, осмысление которых представляется приоритетным для современного лингвистического описания и абсолютно необходимым в научной деятельности современного исследователя. Новизна проведенного анализа заключается в том, подтверждена целесообразность корпусных исследований как сущностное требование времени, связанное с новым качеством лингвистической реальности и отвечающее потребностям современного общества. В статье рассматриваются основные этапы становления корпусной лингвистики как научного направления, характеризуются научные представления и подходы, присущие каждому из этих этапов, представляется обзор основных понятийных положений корпусной лингвистики в рамках отечественного и зарубежного языкознания. Автор подробно анализирует полемику между представителями различных научных направлений и выявляет преимущества того или иного подхода, прослеживает сходства и различия между подходами к изучению корпусов на различных исторических этапах становления изучаемого научного направления. В фокусе обзора роль и место корпусных исследований языка в современной лингвистике, сопоставление аргументов pro и contra применения корпусных технологий в лингвистическом описании. Значительное внимание обращается на основные критерии классификации корпусов, предлагается краткий обзор наиболее известных в истории корпусов, а также обсуждаются перспективы их использования в различных областях современной науки о языке.

Об авторах

Камо Павелович Чилингарян

Российский университет дружбы народов

Автор, ответственный за переписку.
Email: chilingaryan-kp@rudn.ru

старший преподаватель Института Гостиничного бизнеса и туризма

117198, Российская Федерация, Москва, ул. Миклухо-Маклая, 6

Список литературы

  1. Melnikov, G.P. (2003). System typology of languages: Principles, methods, models. Moscow: Nauka. (In Russ.).
  2. Plungyan, V.A. (2008). Corpus as a tool and as ideology: on some topics of modern corpus linguistics. Russian language in scientific coverage, 2(16), 7—20. (In Russ.).
  3. Moure, T. & Llisterri, J. (1996). Lenguaje y nuevas tecnologías: el campo de la lingüística computacional In M. Fernández Pérez (coord.) Avances en Lingüística aplicada, Universidade de Santiago de Compostela, Servicio de Publicacións e Intercambio Científico. Santiago de Compostela: Universidade de Santiago de Compostela, Servicio de Publicacións e Intercambio Científico. pp. 147—227. (In Spanish).
  4. Real Academia Española (2001). Diccionario de la lengua española. Madrid: Espasa. URL: https://dle.rae.es/corpus (accessed: 10.11.2020). (In Spanish).
  5. Ushakov, D.N. (2012). Explanatory dictionary of the Russian language. URL: https://gufo.me/dict/ushakov/корпус (accessed: 29.10.2020).
  6. Villayandre Llamazares, М. (2008). Lingüística con corpus. Estudios humanísticos. Filología, 30, 329—349.
  7. McEnery, T. (2003). Corpus Linguistics In en R. Mitkov (ed.) The Oxford Handbook of Computational Linguistics. Oxford: Oxford University Press. pp. 448—463.
  8. McEnery, T. & Wilson, A. (1996). Corpus Linguistics. Edinburgh: Edinburgh University Press.
  9. McEnery, T. & Wilson, A. (2001). Corpus Linguistics. Edinburgh: Edinburgh University Press.
  10. McEnery, T., Xiao, R. & Tono, Y. (2006). Corpus-Based Language Studies. An advanced resource book, London-New York: Routledge. URL: https://www.lancaster.ac.uk/fass/ projects/corpus/ZJU/xCBLS/chapters/B03.pdf (accessed: 07.11.2020).
  11. Chomsky, N. (1969). Quine’s empirical assumptions. In D. Davidson & J. Hintikka (Eds.) Words and objections. Essay on the Work of W.V Quine. Dordrecth: D. Reidel. pp. 53—68.
  12. Chomsky, N. (2006). Language and mind. Cambridge.
  13. Abercrombie, D. (1965). Studies in Phonetics and Linguistics. London: Oxford University Press. URL: http://www.davidcrystal.com/Files/BooksAndArticles/-4896.pdf (accessed: 06.11.2020).
  14. Juilland, A.G., Brodin, D.R. & Davidovitch, C. (1970). Frequency dictionary of French words. Hague—Paris: Mouton.
  15. Biber, D., Conrad, S., Reppen, R. (1998). Corpus linguistics: Investigating language structure and use. Cambridge: Cambridge University Press.
  16. Biber, D. (1993). Representativeness in corpus design. Literary and Linguistic computing, 8(4), 243—257.
  17. Baker, P., Hardie, A. & McEnery, T. (2006). Glossary of Corpus Linguistics. Edinburgh: University Press.
  18. Krasina, E.A. & Novikova, M.L. (2019). Phenomenon of language in the paradigms of functional semantics and linguosemiotics (V Novikov readings. Moscow, April 18—19, 2019). Russian Journal of Linguistics, 23(3), 856—864. DOI: 10.22363 / 2312-9182-2019-23-3-856864. (In Russ.).
  19. Svartvik, J. (1992). Corpus linguistics comes of age In J. Svartvik (ed.) Directions in Corpus Linguistics. Proceedings of Nobel Symposium 82 (Stockholm, 4—8 August, 1991). Berlin—New York: Mouton de Gruyter. pp. 7—13.
  20. Leech, G. (1992). Corpora and theories of linguistic performance In J. Svartvik (ed.) Directions in Linguistics: Proceedings of Nobel Symposium 82 (Stockholm, 4—8 August, 1991). Berlin—New: Mouton de Gruyter. pp. 105—122.
  21. Labov, W. (1969). The logic of non-standard English. Georgetown. Monographs on Language and Linguistics, 22.
  22. Krasina, E.A. & Perfilieva, N.V. (2018). Semantic parameters of quantitative units in differentstructured languages. Cognitive linguistics issues, 1(54), 126—136. doi: 10.20916/18123228-2018-1-126-136. (In Russ.).
  23. Denisenko, V.N., Krasina, E.A. & Perfilieva, N.V. (2016). The principle of double meaning in language and word. Cognitive linguistics issues, 3(48), 103—108. (In Russ.).
  24. Aarts, J. & Meijs, W. (eds.) (1984). Corpus Linguistics. Amsterdam: Rodopi.
  25. Manual for the Corpus of Early English Correspondence Sampler CEECS (1998) Nurmi A. (ed.). Helsinki. URL: http://www.eng.helsinki.fi/doe/projects/ceec/ (accessed: 06.11.2020).
  26. Taavitsainen, I. & Pahta, P. (1997). Corpus of Early English Medical Writing. Computers in English Linguistics, 21, 71—79.
  27. Sinclair, J. (1991). Corpus, Concordance, Collocation. Oxford.
  28. Stubbs, M. (2001). Words and phrases: corpus studies of lexical semantics. Oxford: Blackwell.
  29. Stubbs, M. (2006). Corpus analysis: the state of the art and three types of unanswered question In Hunston, S. & Thompson, G. (eds.) System and corpus: Exploring connections. London: Equinox. pp. 15—36.
  30. Simpson, R. & Swales, J. (2001). Introduction to North American perspective on corpus linguistics at the millennium In R. Simpson and J. Swales (eds.) Corpus linguistics in North America. Selections from the 1999 Symposium. Ann Arbor: The University of Michigan Press. pp. 1—14.
  31. Parodi, G. (2008). Lingüística de Corpus: Una introducción al. ámbito. Revista de Lingüística Teórica y Aplicada, 46(1), 93—119. (In Spanish).
  32. Abaitua, J. (2002). Tratamiento de corpora bilingües In M.A. Martí & J. Llisterri (eds.) Tratamiento del lenguaje natural: tecnología de la lengua oral y escrita. Soria—Barcelona: Fundación Duques de Soria/Edicions de la Universitat de Barcelona. pp. 61—90. (In Spanish).
  33. Aijmer, K. & Altenberg, B. (eds.) (1991). English Corpus Linguistics In Studies in Honour of Jan Svartvik. London: Longman.
  34. Francis, W.N. (1992). Language Corpora B.C. In J. Svartvik (ed.) Directions in Linguistics: Proceedings of Nobel Symposium 82 (Stockholm, 4—8 August 1991). Berlin—New York: Mouton de Gruyter. pp. 17—32.
  35. Sinclair, J. (1996). EAGLES Preliminary recommendations on Corpus Typology. URL: http://www.ilc.cnr.it/EAGLES96/corpustyp/corpustyp.html (accessed: 01.11.2020).
  36. Martí Antonín, Mª.A. & Castellón Masalles I. (2000). Lingüística computacional. Barcelona: Edicions Universitat de Barcelona. (In Spanish).
  37. Santalla del Río, M.ª P. (2005). “La elaboración de corpus lingüísticos”, en M. Cal, P. Núñez, I. M. Palacios (eds.): Nuevas tecnologías en Lingüística, Traducción y Enseñanza de lenguas, Universidade de Santiago de Compostela, Servizo de Publicacións e Intercambio Científico, 45—63. (In Spanish).
  38. Zakharov, V.P. (2005). Corpus linguistics. Saint Petersburg. (In Russ.).
  39. Kozlova, N.V. (2013). Linguistic corpus: definition of basic concepts and typology. Novosibirsk State University Bulletin. Series: Linguistics and Communication, 11(1), 76—89. (In Russ.).
  40. Kibrik, A.E., Brykina, M.M., Leontiev, A.P. & Khitrov, A.N. (2006). Russian possessive constructions in the light of corpus-statistical research. Questions of linguistics, 1, 16—45. (In Russ.).
  41. Torruella, J. & Llisterri, J. (1999). Diseño de corpus textuales y orales In J.M. Blecua, G. Clavería, C. Sánchez & J. Torruella (eds.) Filología e informática. Nuevas tecnologías en los estudios filológicos. Barcelona: Milenio Universidad Autónoma de Barcelona, Dpto. de Filología Española. pp. 45—77. (In Spanish).
  42. Krivnova, O.F. (2006). Areas of application of speech corpora and experience of their development In Proceedings of the XVIII Session of the Russian Acoustic Society of RAO. Taganrog. pp. 81—84. (In Russ.).
  43. PRESEEA (2014). Corpus del Proyecto para el estudio sociolingüístico del español de España y de América. Alcalá de Henares: Universidad de Alcalá. URL: http://preseea.linguas.net (accessed: 01.11.2020). (In Spanish).
  44. Rykov, V.V. (2002). Text corpus as an implementation of the object-oriented paradigm In Proceedings of the international seminar “Dialogue-2002”. Moscow: Nauka. pp. 124—129. (In Russ.).

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».