Прогнозирование рака груди с помощью машинного обучения

Обложка

Цитировать

Полный текст

Аннотация

Рак молочной железы остается одной из основных причин заболеваемости и смертности среди женщин во всем мире. Несмотря на значительные усилия, направленные на раннее выявление болезни, рак молочной железы по-прежнему представляет собой серьезную проблему для здоровья населения. Цель исследования - прогнозирование риска рака молочной железы с использованием различных подходов машинного обучения, основанных на демографических, лабораторных и маммографических данных. Использована модель количественных оценок методов машинного обучения в прогнозировании рака молочной железы. Модель интегрирует алгоритмы машинного обучения, включая метод опорных векторов, деревья решений, случайные леса и модели глубокого обучения, для оценки их точности, эффективности и применимости в медицинской диагностике. Набор данных выявил значительную изменчивость в параметрах опухоли, таких как средний радиус, средняя текстура, средний периметр и средняя площадь. Целевая переменная продемонстрировала дисбаланс классов, с 62 % доброкачественных и 38 % злокачественных случаев. Среди оцененных моделей Random Forest превзошла другие по наибольшей точности, чувствительности, полноте, F1-мере и площади под кривой операционных характеристик, указывая на наилучшую способность прогнозирования. Модели логистической регрессии и метода опорных векторов показали конкурентоспособность, особенно почувствительности и полноте, в то время как модель дерева решений продемонстрировала самую низкую общую эффективность по всем показателям.

Об авторах

Флоренс Увингабийе

Российский университет дружбы народов

Автор, ответственный за переписку.
Email: cyizashem@gmail.com
ORCID iD: 0009-0006-8425-2425

магистрант кафедры механики и процессов управления, инженерная академия

Российская Федерация, 117198, Москва, ул. Миклухо-Маклая, д. 6

Тади Кимений

Российский университет дружбы народов

Email: ki.thadee@gmail.com
ORCID iD: 0009-0006-9831-042X

магистрант кафедры механики и процессов управления, инженерная академия

Российская Федерация, 117198, Москва, ул. Миклухо-Маклая, д. 6

Асаф Кимений

Российский университет дружбы народов

Email: asaph.rw@gmail.com
ORCID iD: 0009-0003-6885-6235

магистрант кафедры механики и процессов управления, инженерная академия, инженерная академия

Российская Федерация, 117198, Москва, ул. Миклухо-Маклая, д. 6

Лариса Владимировна Круглова

Российский университет дружбы народов

Email: kruglova-lv@rudn.ru
ORCID iD: 0000-0002-8824-1241
SPIN-код: 2920-9463

кандидат технических наук, доцент кафедры механики и процессов управления, инженерная академия

Российская Федерация, 117198, Москва, ул. Миклухо-Маклая, д. 6

Список литературы

  1. Sung H, Siegel RL, Jemal A, Ferlay J, Laversanne M, Soerjomataram I, Bray F. Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries. CA: A Cancer Journal for Clinicians. 2021;71(3):209-249. https://doi.org/10.3322/caac.21660 EDN: MRLXRI
  2. Bray F, Laversanne M, Sung H, Soerjomataram I, Siegel SL, Jemal A. Global cancer statistics 2022: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries. CA: A Cancer Journal for Clinicians. 2024;74(3):229-263. https://doi.org/10.3322/caac.21834
  3. Khalid A, Mehmood A, Alabrah A, Alkhamees BF, Amin F, AlSalman H, Choi GS. Breast cancer detection and prevention using machine learning. Diagnostics. 2023;13(19):3113. https://doi.org/10.3390/diagnostics13193113
  4. Davis FD. Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS Quarterly. 2019;13(3):319-340. https://doi.org/10.2307/249008
  5. Venkatesh V, Davis FD. A theoretical extension of the Technology Acceptance Model: Four longitudinal field studies. Management Science. 2000;46(2):186-204. https://doi.org/10.1287/mnsc.46.2.186.11926 EDN: FNVBJN
  6. Heaton JIG, Bengio Y, Courville A. Deep learning. Genet Program Evolvable. 2018;19:305-307. https://doi.org/10.1007/s10710-017-9314-z
  7. Wolberg W, Mangasarian O, Street N, Street W. Breast cancer wisconsin (Diagnostic). UCI Machine Learning Repository. 1993. https://doi.org/10.24432/C5DW2B
  8. Chen T, Guestrin C. XGBoost: A Scalable Tree Boosting System. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016:785-794. https://doi.org/10.1145/2939672.2939785
  9. Gupta V, Choudhary S. Multicollinearity and its impact on model accuracy. Journal of Data Science and Analytics. 2022;14(1):12-24.
  10. Hunter JD. Matplotlib: A 2D Graphics Environment. Computing in Science & Engineering. 2017;9(3):90-95. https://doi.org/10.1109/MCSE.2007.55
  11. Shivakumar M, Kokila R, Likitha BS, Tharun N, Adishesha R. Breast cancer prediction. International Journal of Creative Research Thoughts. 2024;12(5):600-605. Available from: https://ijcrt.org/papers/IJCRTAB02087.pdf (accessed: 15.03.2025).
  12. Vlachas C, Damianos L, Gousetis N, Mouratidis I, Kelepouris D, Kollias K-F, Asimopoulos N, Fragulis GF. Random forest classification algorithm for medical industry data. The 4th ETLTC International Conference on ICT Integration in Technical Education (ETLTC2022). 2022;139:03008. https://doi.org/10.1051/shsconf/202213903008
  13. Tiwari A, Mishra S, Kuo TR. Current AI techno-logies in cancer diagnostics and treatment. Mol Cancer. 2025;24:159. https://doi.org/10.1186/s12943-025-02369-9
  14. Lopez-Miguel ID. Survey on preprocessing techniques for big data projects. Engineering Proceedings. 2021;7(1):14. https://doi.org/10.3390/engproc2021007014
  15. IBM Research. Parallel processing in Random Forest models. IBM Technical Journal. 2023;58(3):125-140. https://doi.org/10.33022/ijcs.v13i2.3803
  16. Ljubic B, Pavlovski M, Gillespie A, Zoran Obradovic Z. Systematic review of supervised machine learning models in prediction of medical conditions. Medrxiv. 2022. https://doi.org/10.1101/2022.04.22.22274183
  17. Bell R, Martinez G. Machine learning for predictive healthcare: Techniquesand applications. Journal of Artificial Intelligence in Medicine. 2018;50(3):19-26. https://doi.org/10.1016/j.artmed.2018.03.003
  18. Kotsiantis SB, Kanellopoulos D, Pintelas PE. Data preprocessing for supervised learning. International Journal of Computer Science. 2006;1(1):111-117.
  19. LeCun Y, Bengio Y, Hinton G. Deep learning. Nature. 2015;521(7553):436-444. https://doi.org/10.1038/nature14539
  20. Waskom ML, Botvinnik O, O'Kane D, Hobson P, Lukauskas S, Seaborn BM. Statistical data visualization. Journal of Open Source Software. 2020;5(52):2186. Available from: https://ui.adsabs.harvard.edu/abs/2020ascl.soft12015W/abstract (accessed: 15.03.2025).

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).