АРХИТЕКТУРА СБАЛАНСИРОВАННОГО ЛИНГВИСТИЧЕСКОГО КОРПУСА, ПОЛУЧЕННОГО АВТОМАТИЧЕСКИМ ПУТЕМ (ОПЫТ МОСКОВСКОГО ГОСУДАРСТВЕННОГО ЛИНГВИСТИЧЕСКОГО УНИВЕРСИТЕТА)

Обложка

Цитировать

Полный текст

Аннотация

Цель настоящего прикладного исследования - продемонстрировать возможности современных программных решений построения сбалансированного лингвистического корпуса на основе процедур обработки естественного языка, применяемых в лаборатории фундаментальных и прикладных проблем виртуального образования Московского государственного лингвистического университета. В ходе работы применяются описательный метод, а также методы моделирования и прогнозирования. В качестве материала исследования выступает авторский программный комплекс «Генератор сбалансированного лингвистического корпуса и корпусный менеджер». В результате описаны новые функции программного комплекса и обозначена перспектива его развития в виде двух параллельных направлений.

Об авторах

Алексей Иванович Горожанов

Московский государственный лингвистический университет

Автор, ответственный за переписку.
Email: a.gorozhanov@linguanet.ru

доктор филологических наук, доцент, профессор кафедры грамматики и истории немецкого языка факультета немецкого языка

Россия

Список литературы

  1. Бондарчук Г. Г. Семиотические функции английских наименований одежды в публицистическом тексте (корпусное исследование) // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2024. № 4(885). С. 23-29. EDN BXILCR.
  2. Красикова Е. А. Роль корпусного менеджера в анализе употребления имен собственных в текстах электронных СМИ (на примере англоязычного корпуса CNN) // Филологические науки в XXI веке: актуальность многополярность перспективы развития: Сборник научных трудов. Краснодар : Кубанский государственный университет 2024. С. 45-49. EDN JPRHAE.
  3. Степанова Д. В. Программный комплекс для генерации динамического корпуса текстов СМИ // Вестник Минского государственного лингвистического университета. Серия 1: Филология. 2023. № 6(127). С. 123-130. EDN FMBTKO.
  4. Соколова В. Л., Голубкова Е. Е. Дискурсивный механизм и концептуальные основания лингвостилистической кластеризации в англоязычных коротких шутках // Когнитивные исследования языка. 2024. № 2-2(58). С. 215-218. EDN OHNINL.
  5. Гусейнова И. А., Косиченко Е. Ф. Грани смешного и юмор без границ: семиотика комических текстов разных жанров. Казань: Бук 2024. 210 с. ISBN 978-5-907839-92-2. EDN PSLMFL.
  6. Котюрова И. А., Щеголева Л. В. Визуализация образовательных данных в немецкоязычном корпусе студенческих текстов // Перспективы науки и образования. 2024. № 2(68). С. 578-594. doi: 10.32744/pse.2024.2.35. EDN UTDLFM.
  7. Куприянов Р. В., Солнышкина М. И., Лехницкая П. А. Параметрическая таксономия учебных текстов // Вестник Волгоградского государственного университета. Серия 2: Языкознание. 2023. Т. 22. № 6. С. 80-94. doi: 10.15688/jvolsu2.2023.6.6. EDN VFCVLW.
  8. Гик А. В. Приложения к Конкордансу М. Кузмина // Труды института русского языка им. В.В. Виноградова. 2024. № 1. С. 227-243. doi: 10.31912/pvrli-2024.1.22. EDN NVKTQL.
  9. Бобунова М. А. Об исследовательском потенциале лексикографических комплексов фольклорных текстов // Вопросы лексикографии. 2023. № 28. С. 44-65. doi: 10.17223/22274200/28/3. EDN SFNPOP.
  10. Ким И. Е. Пунктуация "говорящего" и пунктуация "слушающего": ономасиологический и семасиологический подход в пунктуации // Труды института русского языка им. В.В. Виноградова. 2021. № 3. С. 252-260. doi: 10.31912/pvrli-2021.3.20. EDN BZDVOQ.
  11. Горожанов А. И., Степанова Д. В. Интерпретация художественного произведения: корпусный подход // Филологические науки. Вопросы теории и практики. 2022. Т. 15. № 1. С. 203-208. doi: 10.30853/phil20220020. EDN TCZLAF.
  12. Горожанов А. И., Гусейнова И. А., Степанова Д. В. Стандартизированная процедура получения статистических параметров текста (на материале цикла рассказов Дж. Лондона "Смок Белью. Смок и Малыш") // Вестник Минского государственного лингвистического университета. Серия 1: Филология. 2022. № 4(119). С. 7-13. EDN PXAVUX.
  13. Горожанов А. И., Гусейнова И. А., Степанова Д. В. Обработка естественного языка и художественный текст: база для корпусного исследования // Вестник Российского университета дружбы народов. Серия: Теория языка. Семиотика. Семантика. 2024. Т. 15. №1. C. 195-210. doi: 10.22363/2313-2299-2024-15-1-195-210.
  14. Горожанов А. И. Расширение стандартного сбалансированного лингвистического корпуса построенного по правилам spaCy коннотативными характеристиками // Филологические науки. Вопросы теории и практики. 2023. Т. 16. № 11. С. 3888-3893. doi: 10.30853/phil20230594. EDN FVUIUL.
  15. Горожанов А. И. Метод программного анализа контекста лексической единицы // Актуальные проблемы филологии и педагогической лингвистики. 2024а. № 3. С. 178-190. doi: 10.29025/2079-6021-2024-3-178-190. EDN QNFATA.
  16. Горожанов А. И. Алгоритмы поиска фразеологизмов в лингвистическом корпусе с морфологической разметкой (индоевропейские языки) // Филологические науки. Вопросы теории и практики. 2024б. Т. 17. № 1. С. 132-138. doi: 10.30853/phil20240020. EDN JTWSIQ.
  17. Писарик О. И. Принципы разработки базы данных подъязыка предметной области "строительство" // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2021. № 5(847). С. 150-160. doi: 10.52070/2542-2197_2021_5_847_150. EDN RKPNSU.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML


Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».