Corpus Analysis of Artificial Intelligence Terminology in Russian: Insights from Almanac “Artificial Intelligence” Using AntConc

Cover Page

Cite item

Full Text

Abstract

This study is situated at the intersection of corpus linguistics and terminology studies. It highlights the significant evolution of corpus linguistics, from early text collections to the establishment of large national and specialized corpora in the 21st century. The importance of contemporary technologies, such as machine learning and natural language processing, is emphasized for their role in opening new avenues for analyzing large data sets. The article addresses the methodological aspects of researching terminological units within the field of artificial intelligence (AI) based on modern analytical compilations. The aim of the research is to identify patterns in the formation of compound designations, as well as the orthographic and stylistic norms governing the use of AI terms in the Russian language. To achieve this goal, frequency analysis and content analysis methods were employed using AntConc, resulting in the identification of 100 core terms, along with collocations constructed from these terms. The findings indicate that AI terminology in Russian is actively evolving, with a predominance of Anglicisms and hybrid forms. The stylistic features of texts reflecting the technical context and target audience are discussed. In conclusion, the necessity for establishing norms for the use of AI terms in light of their integration into the Russian language is underscored.

About the authors

O. V. Shadrina

Moscow Institute of Physics and Technology (National Research University)

Email: shadrina.ov@mipt.ru
ORCID iD: 0000-0003-1980-3754

O. V. Marunevich

Moscow Institute of Physics and Technology (National Research University)

Email: marunevich.ov@mipt.ru
ORCID iD: 0000-0002-4480-6642

References

  1. Архангельский Т. А. Интернет-корпуса финно-угорских языков России / Т. А. Архангельский // Ежегодник финно-угорских исследований. — 2019. — Т. 13. — № 3. — С. 528—537. — doi: 10.35634/2224-9443-2019-13-3-528-537.
  2. Брейтер М. А. Англицизмы в русском языке : история и перспективы : пособие для иностр. студентов-русистов / М. А. Брейтер. — Москва : Диалог-МГУ, 1997. — 156 с.
  3. Винокурова Т. Н. Структурные особенности терминологии искусственного интеллекта в английском языке / Т. Н. Винокурова // Международный научноисследовательский журнал. — 2016. — № 10—3 (52). — С. 14—23. — doi: 10.18454/IRJ.2016.52.024.
  4. Ермакова О. И. Особенности компьютерного жаргона как специфической подсистемы русского языка / О. И. Ермакова // Диалог. — 2001. — С. 173.
  5. Захаров В. П. Корпусная лингвистика / В. П. Захаров. — Санкт-Петербург : Санкт-Петербургский государственный университет, 2005. — 48 c. — ISBN 978-5-288-05997-1.
  6. Козлова Н. В. Лингвистические корпуса : определение основных понятий и типология / Н. В. Козлова // Вестник НГУ. Лингвистика и межкультурная коммуникация. — 2013. — № 1. — С. 79—88.
  7. Козловская Н. В. Транстерминологизация в сфере искусственного интеллекта : к постановке вопроса о субтерминологии / Н. В. Козловская, А. С. Мусаева, Ю. В. Сложеникина // Art Logos. — 2023. — № 3 (24). — С. 98—118. — doi: 10.24224/2227-1295-2025-14-4-9-37.
  8. Кондратюкова Л. К. Заимствования и интернационализмы в терминологии английской компьютерной техники / Л. К. Кондратюкова // Динамика систем, механизмов и машин. — 2012. — № 4. — С. 155—158.
  9. Кононенко А. П. Лингвистический потенциал компьютерных технологий в современной филологии / А. П. Кононенко, Л. А. Недосека // Гуманитарные и социальные науки. — 2023. — Т. 97. — № 2. — С. 50—54. — doi: 10.18522/2070-14032023-97-2-50-54.
  10. Ляшевская О. Н. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка) / О. Н. Ляшевская, С. А. Шаров. — Москва : Азбуковник, 2009. — 1090 c. — ISBN 978-5-91172-024-7.
  11. Петрова И. М. Современные цифровые технологии в лингвистических исследованиях : учеб. пособие для обучающихся по направлению «Лингвистика» / И. М. Петрова, А. М. Иванова, В. В. Никитина. — Москва : Языки Народов Мира, 2022. — 259 с. — ISBN 978-5-6048046-8-1.
  12. Плунгян В. А. Зачем нужен Национальный корпус русского языка? Неформальное введение / В. А. Плунгян // Национальный корпус русского языка : 2003—2005. — Москва : Индрик, 2005. — С. 6—20.
  13. Сулейманова О. А. Методика лингвистического исследования как актуальный раздел современной научной публикации / О. А. Сулейманова, А. Б. Гулиянц // Вестник МГПУ. Серия : Филология. Теория языка. Языковое образование. — 2022. — № 4 (48). — С. 89—101. — doi: 10.25688/2076-913X.2022.48.4.07.
  14. Термины и понятия искусственного интеллекта в лингвистическом освещении / А. С. Мусаева, Ю. В. Сложеникина, Л. М. Гареева. — Москва : Спутник+, 2024. — 193 с. — ISBN 978-5-9973-6887-6.
  15. Шалимова П. А. К вопросу о терминах и неологизмах в сфере искусственного интеллекта и нейросетей / П. А. Шалимова // Общество, экономика, культура : стратегии развития. Материалы ХV Всероссийской научно-практической конференции. — 2024. — С. 218—223.
  16. A global taxonomy of interpretable AI : unifying the terminology for the technical and social sciences / M. Graziani, L. Dutkiewicz, D. Calvaresi // Artificial Intelligence Review. — 2023. — Vol. 56. — № 4. — Pp. 347—3504. — doi: 10.1007/s10462-022-10256-8.
  17. Aarts J. Corpus Linguistics / J. Aarts, W. Meij. — Amsterdam : Rodopi, 1984. — 229 p.
  18. Abercrombie D. Studies in Phonetics and Linguistics / D. Abercrombie — London : Oxford University Press, 1965. — 151 p.
  19. Corpus Linguistics and Corpus-Based Research and Its Implication in Applied Linguistics : A Systematic Review / A. M. S. Al-Hamzi, A. Gougui, Y. Sari Amalia, T. Suhardijanto // PAROLE : Journal of Linguistics and Education. — 2020. — Vol. 10. — № 2. — Pp. 176—181.
  20. Allwood J. Multimodal corpora / J. Allwood // Corpus Linguistics. An International Handbook. — Berlin : de Gruyter, 2009. — Pp. 207—225.
  21. Anthony L. AntConc : A Learner and Classroom Friendly, Multi-Platform Corpus Analysis Toolkit / L. Anthony // IWLeL 2004 : An Interactive Workshop on Language eLearning. — 2011. — Pp. 7—13.
  22. Assunção C. Entries on the History of Corpus Linguistics / C. Assunção, C. S. Araújo // Linha D Água. — 2019. — Vol. 32. — № 1. — Pp. 39—57. — doi: 10.11606/issn.22364242.v32i1p39-57.
  23. Atkins B. T. S. The Oxford guide to practical lexicography / B. T. S. Atkins, M. Rundell. — Oxford : Oxford university press, 2008. — 540 p.
  24. Bataillon L. J. Hugues de Saint-Cher († 1263), bibliste et théologien / L. J. Bataillon, G. Dahan, P.-M. Gy. — Turnhout : Brepols, 2004. — 520 p.
  25. Biber D. On the exploitation of computerized corpora in variation studies / D. Biber, E. Finegan // English corpus linguistics : Studies in honour of Jan Svartvik. — London : Longman, 1991. — Pp. 204—220.
  26. Boas F. Handbook of American Indian Languages / F. Boas. — Cambridge : Cambridge University Press, 2013. — 570 p.
  27. Boulton A. Using Corpora in Language Teaching, Learning and Use / A. Boulton, C. Landure // Recherche et pratiques pédagogiques en langues de spécialité. — 2016. — Vol. 35. — № 2. — Pp. 67—72. — doi: 10.4000/apliut.5433.
  28. Casson L. F. A Fourteenth Century Concordance to the Vulgate / L. F. Casson // Libri. — 1960. — Vol. 10. — № 2. — Pp. 111—128. — doi: 10.1515/libr.1960.10.2.111.
  29. Chang L. A Corpus-Based Mechanical Engineering Academic Word List / L. Chang // International Journal of TESOL Studies. — 2023. — Vol. 5. — № 3. — Pp. 126—142. — doi: 10.58304/ijts.20230310.
  30. Chomsky N. Quine’s empirical assumptions / N. Chomsky // Synthese. — 1968. — Vol. 19. — Pp. 53—68. — doi: 10.1007/BF00568049.
  31. Dash N. S. History, Features, and Typology of Language Corpora / N. S. Dash, S. Arulmozi. — Springer :, 2018. — 311 p. — doi: 10.1007/978-981-10-7458-5_15.
  32. Dernoncourt F. PubMed 200k RCT : a Dataset for Sequential Sentence Classification in Medical Abstracts / F. Dernoncourt, J. Y. Lee // Proceedings of the 8th International Joint Conference on Natural Language Processing. — Taipei : IEEE Signal Processing Society. — 2017. — Pp. 308—313.
  33. Doğan R. I. An improved corpus of disease mentions in PubMed citations / R. I. Doğan, Z. Lu // Proceedings of the 2012 Workshop on Biomedical Natural Language Processing (BioNLP 2012). — Montreal : Association for Computational Linguistics. — 2012. — Pp. 91—99.
  34. Eaton H. Semantic frequency list for English, French, German, and Spanish ; a correlation of the first six thousand words in four single-language frequency lists / H. Eaton. — Chicago : Chicago University Press, 1940. — 440 р.
  35. Francis W. N. Brown Corpus Manual : Manual of information to accompany. A Standard Corpus of Present-Day Edited American English, for use with Digital Computers / W. N. Francis, H. Kucera. — Providence : Brown University, 1964. — 467 p.
  36. Grammar of Spoken and Written English / D. Biber, S. Johansson, G. Leech, S. Conrad, E. Finegan. — Longman Harlow : Pearson Education Limited, 1999. — 1204 p.
  37. Guietti P. Hermeneutic of Aquinas’s Texts : Notes on the Index Thomisticus / P. Guietti // The Thomist : A Speculative Quarterly Review. — 1993. — Vol. 57. — № 4. — Pp. 667—686. — doi: 10.1353/tho.1993.0006.
  38. Harris Z. S. Structural Linguistics / Z. S. Harris. — Chicago : University Of Chicago Press, 1960. — 384 p.
  39. Hill J. LTP Dictionary of Selected Collocations / J. Hill, M. Lewis. — Hove : Language Teaching Publications, 1997. — 288 р.
  40. Hunston S. Pattern Grammar / S. Hunston, G. Francis. — Amsterdam : John Benjamins Publishing, 2000. — 288 p.
  41. Hyland K. As it can be seen : Lexical bundles and disciplinary variation / K. Hyland // English for Specific Purposes. — 2008. — Vol. 27. — Pp. 4—21. — doi: 10.1016/j.esp.2007.06.00.
  42. Johansson S. Some aspects of the development of corpus linguistics in the 1970-s and 1980-s / S. Johansson // Corpus Linguistics: An International Handbook. — Berlin : De Gruyter, 2009. — Pp. 33—53.
  43. Kuebler S. Corpus Linguistics and Linguistically Annotated Corpora / S. Kuebler, H. Zinsmeister. — London : Bloomsbury Publishing, 2015. — 320 p.
  44. Lei L. A new medical academic word list : A corpus-based study with enhanced methodology / L. Lei, D. Liu // Journal of English for Academic Purposes. — 2016. — Vol. 22. — Pp. 42—53. — doi: 10.1016/j.jeap.2016.01.008.
  45. Liu J. A corpus-based environmental academic word list building and its validity test / J. Liu, L. Han // English for Specific Purposes. — 2015. — Vol. 39. — № 1. — Pp. 1—11. — doi: 10.1016/j.esp.2015.03.001.
  46. Martínez I. A. Academic vocabulary in agriculture research articles : a corpus-based study / I. A. Martínez, S. C. Beck, C. B. Panza // English for Specific Purposes. — 2009. — Vol. 28. — № 3. — Pp. 183—198. — doi: 10.1016/j.esp.2009.04.003.
  47. McEnery T. Corpus Linguistics : Method, Theory and Practice / T. McEnery, A. Hardie. — Cambridge : Cambridge University Press, 2012. — 312 p.
  48. Mcgillivray B. The Index Thomisticus Treebank Project : Annotation, Parsing and Valency Lexicon / B. Mcgillivray, M. Passarotti, P. Ruffolo // Traitement Automatique des Langues. — 2009. — Vol. 50. — № 2. — Pp. 103—127.
  49. O’Keeffe A. Routledge handbook of corpus linguistics / A. O’Keeffe, M. McCarthy. — London : Routledge, 2010. — 682 p.
  50. Partington A. Using corpora in discourse analysis / A. Partington, A. Marchi // The Cambridge Handbook of English Corpus Linguistics. — Cambridge : Cambridge University Press, 2015. — Pp. 216—234.
  51. Pawley A. Two puzzles for linguistic theory : Nativelike selection and nativelike frequency / A. Pawley, F. H. Syder // Language and Communication. — London : Longman. — 1983. — Pp. 191—226.
  52. Resslerová V. La terminologie du domaine de l'intelligence artificielle : néologie et pluridisciplinarité / V. Resslerová // Studia Romanistica. — 2024. — Vol. 24. — № 2. — Pp. 59—71. — doi: 10.15452/SR.2024.24.0012.
  53. Rockwell G. The Index Thomisticus as a Digital Humanities Big Data Project / G. Rockwell, M. Passarotti // Umanistica Digitale. — 2019. — № 5. — Pp. 13—34. — doi: 10.6092/issn.2532-8816/8575.
  54. Sabahuddin A. AI Lexica : Exploring the Vocabulary of Artificial Intelligence / A. Sabahuddin // Journal of Emerging Technologies and Innovative Research. — 2024. — Vol. 11. — Issue 4. — Pp. 123—137.
  55. Scott M. Textual Patterns : Key words and corpus analysis in language education / M. Scott, C. Tribble. — Amsterdam : John Benjamins Publishing, 2006. — 203 р.
  56. Selivan L. Corpus Linguistics and Vocabulary Teaching / L. Selivan // Demystifying Corpus Linguistics for English Language Teaching. — Springer. — 2023. — Pp. 139— 161. — doi: 10.1007/978-3-031-11220-1_8.
  57. Sinclair J. Looking up : an account of the COBUILD Project in lexical computing / J. Sinclair. — London and Glasgow : Collins ELT, 1987. — 182 p.
  58. Sinclair J. Corpus, Concordance, Collocation / J. Sinclair. — Oxford : University of Oxford, 1991. — 179 p.
  59. Stefanowitsch A. Corpus linguistics : A guide to the methodology / A. Stefanowitsch. — Berlin : Language Science Press, 2020. — 510 p.
  60. Stefchov E. Towards Constructing a Corpus for Studying the Effects of Treatments and Substances Reported in PubMed Abstracts / E. Stefchov, G. Angelova, P. Nakov // Lecture Notes in Computer Science. — 2018. — Vol. 11089. — Pp. 115—125. — doi: 10.1007/9783-319-99344-7_11.
  61. Suleimanova O. A. Anthropocentrical Turn in Linguistics Through the Digital Lens : Evidence from Analyses of Russian Mnemonic Verbs / O. A. Suleimanova, I. V. Tivyaeva // Journal of Siberian Federal University. Humanities and Social Sciences. — 2024. — Vol. 17. — № 5. — Pp. 847—861.
  62. Valipouri L. A corpus-based study of academic vocabulary in chemistry research articles / L. Valipouri, H. Nassaji // Journal of English for Academic Purposes. — 2013. — Vol. 12. — № 4. — Pp. 248—263. — doi: 10.1016/j.jeap.2013.07.001.

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2025 Shadrina O.V., Marunevich O.V.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».