Comparative analysis of class imbalance reduction methods in building machine learning models in the financial sector

Cover Page

Cite item

Full Text

Abstract

Borrower default prediction is a pressing issue that underlies the financial stability of credit institutions.

Aim. This study is to develop and evaluate an integrated borrower default prediction method.

Materials and methods. The study was conducted by simulating the integrated borrower default prediction method, analyzing and comparing the results with the baseline AI model, and drawing conclusions.

Results. Based on the analysis of dependencies, an integrated borrower default prediction methods developed and calculated. It demonstrated a significant improvement in quality metrics (an increase in average accuracy of 0.383, an increase in f1-score of 0.509, and an increase in accuracy of 0.792) relative to the baseline model. This article presents the results of experiments aimed at improving the quality metrics of machine learning models used to predict borrower default.

Conclusion. The development of integrated borrower default prediction methods will improve the accuracy and reliability of forecast models, which is of great practical importance.

About the authors

A. F. Konstantinov

Plekhanov Russian University of Economics

Email: konstantinovaf@gmail.com
ORCID iD: 0009-0000-9591-3301
SPIN-code: 3088-3121

 Postgraduate Student, Department of Informatics 

Russian Federation, 36, Stremyannyy lane, Moscow, 115054, Russia

L. P. Dyakonova

Plekhanov Russian University of Economics

Author for correspondence.
Email: Dyakonova.LP@rea.ru
ORCID iD: 0000-0001-5229-8070
SPIN-code: 2513-8831

Candidate of Physical and Mathematical Sciences, Associate Professor,
Department of Informatics
 

Russian Federation, 36, Stremyannyy lane, Moscow, 115054, Russia

References

  1. Information and analytical material on the development of the banking sector of the Russian Federation in December 2024. https://www.cbr.ru/ collection/collection/file/55056/razv_bs_24_12.pdf (дата обращения: 17.09.2025). (In Russian)
  2. Ali A.A., Khedr A.M., El-Bannany M., Kanakkayil S. A powerful predicting model for financial statement fraud based on optimized xgboost ensemble learning technique. Applied Sciences. 2023. Vol. 13. No. 4. P. 2272. doi: 10.3390/app13042272
  3. Konstantinov A.F., Dyakonova L.P. Comparative analysis of class imbalance reduction methods in building machine learning models in financial sector. News of the Kabardino-Balkarian Scientific Center of RAS. 2025. Vol. 27. No. 1. Pp. 143–151. doi: 10.35330/1991-6639-2025-27-1-143-151. (In Russian)
  4. Qian H., Zhang S., Wang B. et al. A comparative study on machine learning models combining with outlier detection and balanced sampling methods for credit scoring 2021. https://arxiv.org/abs/2112.13196 (дата обращения: 01.09.2025). doi: 10.48550/arXiv.2112.13196
  5. Dyakonova L., Konstantinov A. Approaches to risk analysis in the financial sector based on machine learning and artificial intelligence methods / MPRA Paper. https://mpra.ub.uni-muenchen.de/122941/ (дата обращения: 17.09.2025)
  6. Liu F.T., Ting K.M., Zhou Z.H. Isolation forest. IEEE Xplore. 2008. Pp. 413–422. doi: 10.1109/ICDM.2008.17
  7. Blázquez-García A., Conde A., Mori U., Lozano J.A. A review on outlier/anomaly detection in time series data. https://arxiv.org/abs/2002.04236
  8. Ribeiro M.T., Singh S., Guestrin C. Why should I trust you? Explaining the predictions of any classifier. Режим доступа: https://arxiv.org/abs/1602.04938
  9. Breiman L. Bagging predictors. Machine Learning. 1996. Vol. 24. No. 2. Pp. 123–140.
  10. Abdoli M., Akbari M., Shahrabi J. Bagging supervised autoencoder classifier for credit scoring. Preprint. doi: 10.48550/arXiv.2108.078
  11. Zou Y., Gao C., Xia M., Pang C. Credit scoring based on a bagging-cascading boosted decision tree. Intelligent Data Analysis. 2022. Vol. 26. No. 6. Pp. 1557–1578. doi: 10.3233/IDA-216228

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2025 Konstantinov A.F., Dyakonova L.P.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».