Clustering of financial message texts

Мұқаба

Дәйексөз келтіру

Толық мәтін

Аннотация

The paper is devoted to the problem of clustering financial message texts by machine learning algorithms. Clustering algorithms can be used to identify groups of similar financial messages, identify the same type or suspicious ones, and use the clusters found rather than the message texts themselves in further analysis. Clustering algorithms such as K-means, DBSCAN and the Hierarchical Clustering method are used in the work. Information about bank transactions is used as texts of financial messages in the work. Due to the fact that bank transactions are subject to strict accounting rules established by the Bank of Russia, it is possible to introduce a metric for assessing the quality of clusterization. This metric allows you to rank the quality of clustering using machine learning algorithms, as well as select the parameters used in training these models. Special attention in the article is paid to the specifics of the data used, and how these features can be taken into account in the practical part. In the practical part of the paper, the results of using clustering models are presented, indicating the optimal parameters of these algorithms. In conclusion, it is concluded that the best clustering algorithms are applied to financial texts.

Авторлар туралы

Anton Egorkin

Russian State Social University

Email: 2-5@bk.ru
Moscow

Әдебиет тізімі

  1. АЛЬ ДАУД Д. Применение алгоритма кластеризации k-means для анализа вариативности языковой картины мира носителей арабского и русского языков: корпус-ный подход // Успехи гуманитарных наук. – 2024. – №4. – С. 84–90.
  2. ВИШНЯКОВ И.Э. Выявление и кластеризация шаблон-ных текстов в больших массивах сообщений // Вестник Московского государственного технического универси-тета им. Н.Э. Баумана. Серия Приборостроение. – 2022. – №4(141). – С. 20–35.
  3. ЕГОРКИН А.А. Определение центральности графа ал-горитмом PageRank с учетом весов связей // Управле-ние большими системами. – 2024. – Вып. 111. – С. 81–96.
  4. ЕГОРКИН А.А. Особенности использования алгоритма классификации k-means для данных, подчиненных сте-пенному закону распределения // Современная наука: ак-туальные проблемы теории и практики. Серия: Есте-ственные и технические науки. – 2023. – №9.– С. 65–69.
  5. ЕФРЕМОВА А.Н. Сравнительный анализ алгоритмов нечеткого сравнения строк // Труды Братского государ-ственного университета. Серия: Естественные и инже-нерные науки. – 2023. – Т. 1. – С. 45–50.
  6. ЖИЛОВ Р.А. Интеллектуальные методы кластеризации данных // Известия Кабардино-Балкарского научного центра РАН. – 2023. – №6(116). – С. 152–159.
  7. КУРОЧКИН С.В., ПАВЛОВ Н.А., ТКАЧЕНКО М.В. и др. Методы машинного обучения в риск-профилировании инвестора // AlterEconomics. – 2024. – Т. 21, №3. – С. 527–552.
  8. ПИМЕНОВ В.И. Использование искусственного интел-лекта в противодействии экстремистской деятельно-сти // Интеллектуальные информационные системы: теория и практика: Сборник научных статей по материа-лам V Международной конференции. – 2024. – С. 114–118.
  9. Положение Банка России от 24.11.2022 N 809-П. О плане счетов бухгалтерского учета для кредитных ор-ганизаций и порядке его применения.
  10. ПОНОМАРЕВ Д.С. Иерархическая кластеризация на языке R для производственно-экономических показате-лей пенитенциарной системы // Экономика. Информа-тика. – 2023. – Т.50, №3. – С. 655–668.
  11. САВЕЛЬЕВА М.Ю. Выявление направления искажения финансовых результатов в бухгалтерской отчетности компаний в регионах Сибирского федерального округа // Вестник Самарского государственного экономического университета. – 2020. – №4(186). – С. 109–123.
  12. ФЕДОРОВА Е.А., АФАНАСЬЕВ Д.О., ДЕМИН И.С. Раз-работка тонально-тематического словаря EcSentiThemeLex для анализа экономических текстов на русском языке // Прикладная информатика. – 2020. – Т. 15, №6(90). – С. 58–77.
  13. ACTKINSON B., GRIFFIN R.J. Detecting plumes in mobile air quality monitoring time series with density-based spatial clustering of applications with noise // Atmos. Meas. Tech. – 2023 – Vol. 16 – P. 3547–3559,
  14. BAPTISTA A., BRIÈRE G., BAUDOT A. Random walk with restart on multilayer networks: from node prioritisation to supervised link prediction and beyond // BMC Bioinformat-ics. – 2024. – 19 p.
  15. BAPTISTA A., GONZALEZ A., BAUDOT A. Universal Multilayer Network Exploration by Random Walk with Re-start // Commun Phys. – 2022. – Vol. 5. – 10 p.
  16. BUDIMAN F. Parameters Testing Optimization Using Cross Validation and Grid Search to Improve Multiclass Classifi-cation // Scientific Visualization. – 2019. – P. 80–90
  17. IKOTUN A.M., EZUGWU A.E., ABUALIGAH L. et al. K-means clustering algorithms: A comprehensive review, variants analysis, and advances in the era of big data // Kean Publications. – 2023 – P. 178–210.
  18. TAN P.N., STEINBACH M.M., KUMAR V. Introduction to data mining // Pearson Education. – 2023. – 175 p.
  19. WARD J.H. Hierarchical grouping to optimize an objective function // American Statistical Association. – 1963 – 236 p.
  20. YUBO ZHUANG, XIAOHUI CHEN, YUN YANG et al. Sta-tistically Optimal K-means Clustering via Nonnegative Low-rank Semidefinite Programming // Published as a conference paper at ICLR. – 2024 – 14 p.
  21. WENTAO YE1, JIAJU ZHANG Shannon entropy in qua-siparticle states of quantum chains // Journal of Physics A Mathematical General. – 2024 – 41 p.

Қосымша файлдар

Қосымша файлдар
Әрекет
1. JATS XML


Creative Commons License
Бұл мақала лицензия бойынша қол жетімді Creative Commons Attribution-NonCommercial 4.0 International License.

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).