Оптимизация традиционных методов определения сходства наименований проектов и закупок с использованием больших языковых моделей

Обложка

Цитировать

Полный текст

Аннотация

Предметом исследования является анализ и совершенствование методов определения релевантности наименований проектов к информационному содержанию закупок с использованием больших языковых моделей. Объектом исследования служит база данных, содержащая наименования проектов и закупок в сфере электроэнергетики, собранная из открытых источников. Автор подробно рассматривает такие аспекты темы, как применение метрик TF-IDF и косинусного сходства для первичной фильтрации данных, а также детально описывает интеграцию и оценку эффективности больших языковых моделей, таких как GigaChat, GPT-3.5, и GPT-4 в задачах сопоставления текстовых данных. Особое внимание уделяется методикам уточнения сходства наименований на основе рефлексии, введенной в промпты больших языковых моделей, что позволяет повысить точность сопоставления данных.  В исследовании использованы методы TF-IDF и косинусного сходства для первичного анализа данных, а также большие языковые модели GigaChat, GPT-3.5 и GPT-4 для детальной проверки релевантности наименований проектов и закупок, включая рефлексию в промптах моделей для улучшения точности результатов. Новизна исследования заключается в разработке комбинированного подхода к определению релевантности наименований проектов и закупок, сочетающего традиционные методы обработки текстовой информации (TF-IDF, косинусное сходство) с возможностями больших языковых моделей. Особым вкладом автора в исследование темы является предложенная методика повышения точности сопоставления данных за счет уточнения результатов первичного отбора с помощью моделей GPT-3.5 и GPT-4 с оптимизированными промптами, включающими рефлексию. Основными выводами проведенного исследования являются подтверждение перспективности применения разработанного подхода в задачах информационной поддержки процессов закупок и реализации проектов, а также возможность использования полученных результатов для развития систем интеллектуального анализа текстовых данных в различных отраслях экономики. Исследование показало, что использование языковых моделей позволяет улучшить значение F2-меры до 0,65, что свидетельствует о значительном повышении качества сопоставления данных по сравнению с базовыми методами.

Об авторах

Алексей Александрович Голиков

Российский университет дружбы народов им. П. Лумумбы; ООО "Мастерская цифровых решений"

Email: ag@mastercr.ru
аспирант; кафедра Отделение филологии и литературы. Кафедра русского языка и литературы; Генеральный директор;

Дмитрий Андреевич Акимов

ООО "Мастерская цифровых решений"

Email: akimovdmitry1@mail.ru
ORCID iD: 0009-0004-2800-4430
Аналитик;

Юлия Юрьевна Данилова

Казанский федеральный университет

Email: danilovaespu@mail.ru
ORCID iD: 0000-0001-5736-0590
доцент; кафедра русского языка и литературы;

Список литературы

  1. Оськина К. А. Оптимизация метода классификации текстов, основанного на tf-idf, за счет введения дополнительных коэффициентов // Вестник Московского государственного лингвистического университета. Гуманитарные науки. – 2016. – №. 15 (754). – С. 175-187.
  2. Murugesan M. et al. Efficient privacy-preserving similar document detection // The VLDB Journal. – 2010. – Vol. 19. – №. 4. – Pp. 457-475.
  3. Знаменский С. В. Модель и аксиомы метрик сходства // Программные системы: теория и приложения. – 2017. – Т. 8. – №. 4 (35). – С. 347-357.
  4. Гайдамакин Н. А. Мера сходства последовательностей одинаковой размерности // Математические структуры и моделирование. – 2016. – №. 4 (40). – С. 5‑16.
  5. Лыченко Н. М., Сороковая А. В. Сравнение эффективности методов векторного представления слов для определения тональности текстов //Математические структуры и моделирование. – 2019. – №. 4 (52). – С. 97-110.
  6. Jurgens D. Learning about word vector representations and deep learning through implementing word2vec // Proceedings of the Fifth Workshop on Teaching NLP. – 2021. – Pp. 108-111.
  7. Салып Б. Ю., Смирнов А. А. Анализ модели BERT как инструмента определения смысловой близости предложений естественного языка // StudNet. – 2022. – Т. 5. – №. 5. – С. 3509-3518.
  8. Савенков П. А., Ивутин А. Н. Методы анализа естественного языка в задачах детектирования поведенческих аномалий // Известия Тульского государственного университета. Технические науки. – 2022. – №. 3. – С. 358-366.
  9. Валиев А. И., Лысенкова С. А. Применение методов машинного обучения для автоматизации процесса анализа содержания текста // Вестник кибернетики. – 2021. – №. 4 (44). – С. 12-15.
  10. Shinn N. et al. Reflexion: Language agents with verbal reinforcement learning // Advances in Neural Information Processing Systems. – 2024. – Vol. 36.
  11. Степанов А. С., Степанов С. М. О смысле ошибок первого и второго рода // Актуальные проблемы авиации и космонавтики. – 2010. – Т. 1. – №. 6. – С. 239-241.
  12. Савинов А. Н. и др. Анализ решения проблем возникновения ошибок первого и второго рода в системах распознавания клавиатурного почерка // Вестник Волжского университета им. В. Н. Татищева. – 2011. – №. 18. – С. 120-125.
  13. Заикин Д. А. Подход к ранжированию результатов для терминологического поиска // Ученые записки Казанского университета. Серия Физико-математические науки. – 2014. – Т. 156. – №. 1. – С. 12-21.
  14. Wang R., Li J. Bayes test of precision, recall, and F1 measure for comparison of two natural language processing models // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. – 2019. – Pp. 4135-4145.
  15. Быстров И. С., Котенко И. В. Показатели для оценки результатов машинного обучения применительно к задаче обнаружения кибер-инсайдеров // Региональная информатика (РИ-2022). – 2022. – С. 140-141.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).