Повышение репрезентативности обучающего набора данных за счет пространственной балансировки

Обложка

Цитировать

Полный текст

Аннотация

В работе исследуются некоторые проблемы машинного обучения, связанные с анализом данных малого объема. А именно, решается задача формирования обучающего набора, обладающего высокой репрезентативностью в задачах многоклассовой классификации. Известно, что межклассовая и внутриклассовая несбалансированность, свойственная малым наборам данных, негативно влияет на качество работы алгоритмов. С целью их устранения в машинном обучении разработаны некоторые методы синтеза данных, дополняющие имеющийся набор и уравнивающие количество объектов каждого из классов. Однако такие методы не всегда решают проблему недостаточной репрезентативности. В данной статье предлагается метод построения репрезентативного обучающего набора данных за счет задания распределения, в наибольшей степени соответствующего действительности. Распределение формируется по каждому признаку в пределах информативных областей. Информативные области содержат характерные значения признаков, наиболее значимые для различения классов объектов. Предложенный метод построения областей основан на идее поэтапного расширения, сопровождающегося ростом информативности областей. При этом под информативностью понимается мера, отражающая то, насколько хорошо с помощью рассматриваемой области можно разделить объекты различных классов. С целью формирования дополняющего набора данных разработан метод генерации. В результате его применения дополняющий набор данных объединяется с исходным и образует в информативной области указанное распределение. Это распределение может быть задано либо на основе экспертных знаний о предметной области, если известно истинное распределение, либо получено в результате вычислительных экспериментов, направленных на поиск наиболее эффективного варианта. Применимость метода продемонстрирована на примере решения задачи определения уровня температурных аномалий молочных желёз. Показано, что для рассматриваемых температурных признаков характерно нормальное распределение. Повышение репрезентативности обучающего набора позволило обучить классический алгоритм классификации – логистическую регрессию – с точностью, сопоставимой с многослойной нейронной сетью. Такой подход к формированию обучающего набора данных открывает возможность создания более прозрачных и интерпретируемых систем искусственного интеллекта.

Об авторах

А. Г Лосев

Волгоградский государственный университет

Email: alexander.losev@volsu.ru
проспект Университетский 100

И. Е Попов

Волгоградский государственный университет

Email: popov.larion@volsu.ru
проспект Университетский 100

А. С Резникова

Волгоградский государственный университет

Email: a.reznikova@volsu.ru
проспект Университетский 100

Список литературы

  1. Jakubik J., Vossing M., Kuhl N., Walk J. Satzger G. Data-Centric Artificial Intelligence // Business & Information Systems Engineering. 2024. vol. 66. no. 4. pp. 507–515.
  2. Kumar S., Datta S., Singh V., Singh S.K., Sharma R. Opportunities and Challenges in Data-Centric AI // IEEE Access. 2024. vol. 12. pp. 33173–33189.
  3. Hamid O.H. Data-Centric and Model-Centric AI: Twin Drivers of Compact and Robust Industry 4.0 Solutions // Applied Sciences. 2023. vol. 13. no. 5. doi: 10.3390/app13052753.
  4. Emmanuel T., Maupong T., Mpoeleng D., Semong T., Mphago B., Tabona O. A survey on missing data in machine learning // Journal of Big Data. 2021. vol. 8. no. 1. doi: 10.1186/s40537-021-00516-9.
  5. Gerber S, Pospisil L, Sys S, Hewel C, Torkamani A, Horenko I Co-Inference of Data Mislabelings Reveals Improved Models in Genomics and Breast Cancer Diagnostics // Frontiers in Artificial Intelligence 2022. vol. 4. doi: 10.3389/frai.2021.739432.
  6. Feng W., Quan Y., Dauphin G. Label Noise Cleaning with an Adaptive Ensemble Method Based on Noise Detection Metric // Sensors. 2020. no. 20(23). DOI: org/10.3390/s20236718.
  7. Чехомова О.В. О проблемах формирования административной ответственности за нарушения прав пациента // Юристъ - Правоведъ. 2010. № 3. C. 120–123.
  8. Собянин К.В., Куликова С.П. Unet-boosted classifier – мультизадачная архитектура для малых выборок на примере классификации МРТ снимков головного мозга // Информатика и автоматизация. 2024. Т. 23. № 4. C. 1022–1046.
  9. Зуев Ю.Ф. Сравнительная оценка достоверности биологических данных при малых выборках методами дисперсионного, кластерного и графового анализа (нестохастический подход) // Актуальные проблемы гуманитарных и естественных наук. 2015. № 1-1. С. 36–45.
  10. Моргунова А.В., Сажина О.С. Использование непараметрических методов математической статистики для поиска космических струн // Вестник Московского университета. Серия 3. Физика. Астрономия. 2019. № 5. C. 86–92.
  11. Мокеев В.В., Томилов С.В. О решении проблемы выборки малого размера при использовании линейного дискриминантного анализа в задачах распознавания лиц // Бизнес-информатика. 2013. № 1(23). C. 37–43.
  12. Алексахина К.А., Жуков В.В. Особенности построения моделей машинного обучения на малых наборах данных в биомедицине // Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем. Российский университет дружбы народов, 2021. С. 151–155.
  13. Hu Y., Sandt R., Spatschek R. Practical feature filter strategy to machine learning for small datasets in chemistry // Scientific Reports. 2024. vol. 14. no. 1. doi: 10.1038/s41598-024-71342-1.
  14. Safonova A., Ghazaryan G., Stiller S., Main-Knorn M., Nendel C., Ryo M. Ten deep learning techniques to address small data problems with remote sensing // International Journal of Applied Earth Observation and Geoinformation. 2023. vol. 125. doi: 10.1016/j.jag.2023.103569.
  15. He H., Garcia E.A. Learning from Imbalanced Data // IEEE Transactions on Knowledge and Data Engineering. 2009. vol. 21. no. 9. pp. 1263–1284. doi: 10.1109/TKDE.2008.239.
  16. Polyakov M., Sirotin D. A Realistic Breast Phantom for Investigating the Features of the Microwave Radiometry Method Using Mathematical and Physical Modelling // Technologies. 2025. vol. 13(3). doi: 10.3390/technologies13030106.
  17. Chawla N.V., Bowyer K.W., Hall L.O., Kegelmeyer W.P. SMOTE: synthetic minority over-sampling technique // Journal of Artificial Intelligence Research. 2002. vol. 16. pp. 321–357. doi: 10.1613/jair.953.
  18. Hauptmann T., Fellenz S., Nathan L., Tuscher O., Kramer S. Discriminative Machine Learning for Maximal Representative Subsampling // Scientific Reports. 2023. vol. 13. no. 1. doi: 10.1038/s41598-023-48177-3.
  19. Priestley M., O’Donnell F., Simperl E. A Survey of Data Quality Requirements That Matter in ML Development Pipelines // ACM Journal of Data and Information Quality. 2023. vol. 15. no. 2. pp. 1–39. doi: 10.1145/3592616.
  20. Levshinskii V. Mathematical models for analyzing and interpreting microwave radiometry data in medical diagnosis // Journal of computational and engineering mathematics. 2021. vol. 8. no. 1. pp. 3–14.
  21. Лебедев А.В., Фадеева Л.Н. Теория вероятностей и математическая статистика (4-е издание) // М.: Наука. 2018. 408 с.
  22. Kwon S., Lee S. Recent Advances in Microwave Imaging for Breast Cancer Detection // International journal of biomedical imaging. 2016. vol. 2016. pp. 1–25. doi: 10.1155/2016/5054912.
  23. Barrett A.H., Myers P.C. Subcutaneous Temperature: A method of Noninvasive Sensing // Science. 1975. vol. 190. pp. 669–671. doi: 10.1126/science.1188361.
  24. Barrett A.H., Myers Ph.C., Sadovsky N.L. Microwave Thermography in the Detection of Breast Cancer // AJR. American journal of roentgenolog. 1980. vol. 134(2). pp. 365–368. doi: 10.2214/ajr.134.2.365.
  25. Gautherie M. Temperature and Blood Flow Patterns in Breast Cancer During Natural Evolution and Following Radiotherapy // Progress in Clinical and Biological Research. 1982. pp. 21–64.
  26. Троицкий В.С. К теории контактных радиометрических измерений внутренней температуры тел // Радиофизика. 1981. Т. 2. № 9. C. 1054–1061.
  27. Goryanin I., Karbainov S., Shevelev O., Tarakanov A., Redpath K., Vesnin S., Ivanov Yu. Passive microwave radiometry in biomedical studies // Drug Discovery Today. 2020. vol. 25. no. 4. pp. 757–763.
  28. Попов И.Е., Крылова А.Е. Анализ термометрических данных головного мозга, полученных методом микроволновой радиотермометрии // Математическая физика и компьютерное моделирование. 2023. Т. 26. № 2. С. 32–42. doi: 10.15688/mpcm.jvolsu.2023.2.3.
  29. Sedankin M.K., Gudkov A.G., Nelin I.V., Skuratov V.A., Leushin V.Yu, Chizhikov S.V., Sidorov I.A. Mathematical modeling of heat exchange processes in the brain in the presence of pathology for the design of a microwave radiothermograph // Bio-Medical Engineering. 2023. vol. 57. no. 4. pp. 276–279. doi: 10.1007/s10527-023-10314-7.
  30. Li J., Galazis C., Popov L., Ovchinnikov L., Kharybina T., Vesnin S., Losev A., Goryanin I Dynamic Weight Agnostic Neural Networks and Medical Microwave Radiometry (MWR) for Breast Cancer Diagnostics // Diagnostics. 2022. vol. 12. no. 9. doi: 10.3390/diagnostics12092037.
  31. Веснин С.Г., Каплан М.А., Авакян Р.С. Современная микроволновая
  32. радиотермометрия молочных желез // Опухоли женской репродуктивной системы. 2008. № 3. С. 28–33. doi: 10.17650/1994-4098-2008-0-3-28-33.
  33. Лосев А.Г., Левшинский В.В. Интеллектуальный анализ данных микроволновой радиотермометрии в диагностике рака молочной железы // Математическая физика и компьютерное моделирование. 2017. Т. 20. № 5. С. 49–62. doi: 10.15688/mpcm.jvolsu.2017.5.6.
  34. Лосев А.Г., Левшинский В.В. Интеллектуальный анализ термометрических данных в диагностике молочных желез // Управление большими системами: сборник трудов. 2017. № 70. С. 113–135.
  35. Levshinskii V., Galazis C., Ovchinnikov L., Vesnin S., Goryanin I. Application of Data Mining and Machine Learning in Microwave Radiometry (MWR) // Communications in Computer and Information Science (CCIS). 2020. vol. 1211. pp. 265–288. doi: 10.1007/978-3-030-46970-2_13.
  36. Гермашев И.В., Дубовская В.И. Применение моделей нечеткой математики для решения задач медицинской диагностики // Математическая физика и компьютерное моделирование. 2021. Т. 24. № 4. С. 53–66. doi: 10.15688/mpcm.jvolsu.2021.4.4.
  37. Osmonov B., Ovchinnikov L., Galazis C., Emilov B., Karaibragimov M., Seitov M., Vesnin S., Losev A., Levshinskii V., Popov I., Mustafin C., Kasymbekov T., Goryanin I. Passive Microwave Radiometry for the Diagnosis of Coronavirus Disease 2019 Lung Complications in Kyrgyzstan // Diagnostics. 2021. vol. 11. no. 2. doi: 10.3390/diagnostics11020259.
  38. Лосев А.Г., Попов И.Е., Гудков А.Г., Чижиков С. В. Интеллектуальный анализ данных микроволновой радиотермометрии в медицинской диагностике // Нанотехнологии: разработка, применение – XXI век. 2023. Т. 15. № 1. С. 5–22. doi: 10.18127/j22250980-202301-01.
  39. Ahmad H.F., Mukhtar H., Alaqail H., Seliaman M., Alhumam A. Investigating Health-Related Features and Their Impact on the Prediction of Diabetes Using Machine Learning // Applied Sciences. 2021. vol. 11. no. 3. doi: 10.3390/app11031173.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».