Optimization of traditional methods for determining the similarity of project names and purchases using large language models

Abstract

The subject of the study is the analysis and improvement of methods for determining the relevance of project names to the information content of purchases using large language models. The object of the study is a database containing the names of projects and purchases in the field of electric power industry, collected from open sources. The author examines in detail such aspects of the topic as the use of TF-IDF and cosine similarity metrics for primary data filtering, and also describes in detail the integration and evaluation of the effectiveness of large language models such as GigaChat, GPT-3.5, and GPT-4 in text data matching tasks. Special attention is paid to the methods of clarifying the similarity of names based on reflection introduced into the prompta of large language models, which makes it possible to increase the accuracy of data comparison.  The study uses TF-IDF and cosine similarity methods for primary data analysis, as well as large GigaChat, GPT-3.5 and GPT-4 language models for detailed verification of the relevance of project names and purchases, including reflection in model prompta to improve the accuracy of results. The novelty of the research lies in the development of a combined approach to determining the relevance of project names and purchases, combining traditional methods of processing text information (TF-IDF, cosine similarity) with the capabilities of large language models. A special contribution of the author to the research of the topic is the proposed methodology for improving the accuracy of data comparison by clarifying the results of primary selection using GPT-3.5 and GPT-4 models with optimized prompta, including reflection. The main conclusions of the study are confirmation of the prospects of using the developed approach in the tasks of information support for procurement processes and project implementation, as well as the possibility of using the results obtained for the development of text data mining systems in various sectors of the economy. The study showed that the use of language models makes it possible to improve the value of the F2 measure to 0.65, which indicates a significant improvement in the quality of data comparison compared with basic methods.

References

  1. Оськина К. А. Оптимизация метода классификации текстов, основанного на tf-idf, за счет введения дополнительных коэффициентов // Вестник Московского государственного лингвистического университета. Гуманитарные науки. – 2016. – №. 15 (754). – С. 175-187.
  2. Murugesan M. et al. Efficient privacy-preserving similar document detection // The VLDB Journal. – 2010. – Vol. 19. – №. 4. – Pp. 457-475.
  3. Знаменский С. В. Модель и аксиомы метрик сходства // Программные системы: теория и приложения. – 2017. – Т. 8. – №. 4 (35). – С. 347-357.
  4. Гайдамакин Н. А. Мера сходства последовательностей одинаковой размерности // Математические структуры и моделирование. – 2016. – №. 4 (40). – С. 5‑16.
  5. Лыченко Н. М., Сороковая А. В. Сравнение эффективности методов векторного представления слов для определения тональности текстов //Математические структуры и моделирование. – 2019. – №. 4 (52). – С. 97-110.
  6. Jurgens D. Learning about word vector representations and deep learning through implementing word2vec // Proceedings of the Fifth Workshop on Teaching NLP. – 2021. – Pp. 108-111.
  7. Салып Б. Ю., Смирнов А. А. Анализ модели BERT как инструмента определения смысловой близости предложений естественного языка // StudNet. – 2022. – Т. 5. – №. 5. – С. 3509-3518.
  8. Савенков П. А., Ивутин А. Н. Методы анализа естественного языка в задачах детектирования поведенческих аномалий // Известия Тульского государственного университета. Технические науки. – 2022. – №. 3. – С. 358-366.
  9. Валиев А. И., Лысенкова С. А. Применение методов машинного обучения для автоматизации процесса анализа содержания текста // Вестник кибернетики. – 2021. – №. 4 (44). – С. 12-15.
  10. Shinn N. et al. Reflexion: Language agents with verbal reinforcement learning // Advances in Neural Information Processing Systems. – 2024. – Vol. 36.
  11. Степанов А. С., Степанов С. М. О смысле ошибок первого и второго рода // Актуальные проблемы авиации и космонавтики. – 2010. – Т. 1. – №. 6. – С. 239-241.
  12. Савинов А. Н. и др. Анализ решения проблем возникновения ошибок первого и второго рода в системах распознавания клавиатурного почерка // Вестник Волжского университета им. В. Н. Татищева. – 2011. – №. 18. – С. 120-125.
  13. Заикин Д. А. Подход к ранжированию результатов для терминологического поиска // Ученые записки Казанского университета. Серия Физико-математические науки. – 2014. – Т. 156. – №. 1. – С. 12-21.
  14. Wang R., Li J. Bayes test of precision, recall, and F1 measure for comparison of two natural language processing models // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. – 2019. – Pp. 4135-4145.
  15. Быстров И. С., Котенко И. В. Показатели для оценки результатов машинного обучения применительно к задаче обнаружения кибер-инсайдеров // Региональная информатика (РИ-2022). – 2022. – С. 140-141.

Supplementary files

Supplementary Files
Action
1. JATS XML

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).