Анализ современных SOTA-архитектур искусственных нейронных сетей для решения задач классификации изображений и детекции объектов

Обложка

Цитировать

Полный текст

Аннотация

Научное исследование сфокусировано на проведении анализа наиболее эффективных архитектур искусственных нейронных сетей для решения задач классификации изображений и детекции объектов, согласно данным, полученным с открытого портала для публикации результатов проведения эмпирического исследования собственного алгоритма или применения существующих решений для решения альтернативного перечня задач. Актуальность исследования опирается на растущий интерес к технологиям машинного обучения и регулярного улучшения существующих и разработке инновационных алгоритмов компьютерного зрения. Предметом анализа выступают структурные особенности существующих архитектур нейронных сетей. В частности, наиболее эффективные подходы, используемые в современных архитектурах, позволяющие достигать рекордных показателей в рамках используемых метрик качества, а также ключевые недостатки существующих подходов. Исследуется временной интервал, затрачиваемый как на обучение модели, так и на получение итогового результата.  В рамках данной статьи было проведено аналитическое исследование преимуществ и недостатков существующих решений, рассмотрены передовые SOTA архитектурные решения. Изучены наиболее эффективные подходы, обеспечивающие повышение точности базовых моделей. Определено количество используемых параметров, величина обучающей выборки, точность модели, её размер, адаптивность, сложность и требуемые вычислительные ресурсы для обучения отдельно взятой архитектуры. В рамках настоящей исследовательской работы была осуществлена детальная аналитика внутренней структуры наиболее эффективных архитектур нейронных сетей путем сравнительного анализа пяти перспективных решений, извлеченных из каждого анализируемого датасета, ориентированных на классификацию изображения и детекцию объектов. Построены графики зависимости точности от количества используемых параметров в модели и величины обучающей выборки. Проведенный сравнительный анализ эффективности рассматриваемых решений позволил выделить наиболее действенные методы и технологии для проектирования архитектур искусственных нейронных сетей. Дополнительно, были идентифицированы перспективы для последующих исследований, сфокусированных на гибридизации сверточных нейронных сетей с визуальными трансформерами. Предложен новый метод, ориентированный на создание комплексной адаптивной архитектуры модели, которая может динамически настраиваться в зависимости от входного набора параметров, что представляет собой потенциально значимый вклад в область построения адаптивных нейронных сетей.

Об авторах

Валерий Дмитриевич Корчагин

Финансовый университет при Правительстве Российской Федерации

Email: valerak249@gmail.com
ORCID iD: 0009-0003-1773-0085
аспирант; кафедра ПИШ ХИМ;

Список литературы

  1. Gomolka Z., Using artificial neural networks to solve the problem represented by BOD and DO indicators //Water. – 2017. – Т. 10. – №. 1. – С. 4.
  2. Кадурин А., Николенко С., Архангельская Е. Глубокое обучение. Погружение в мир нейронных сетей //СПб.: Питер. – 2018. – Т. 480.
  3. Джабраилов Шабан Вагиф Оглы, Розалиев Владимир Леонидович, Орлова Юлия Александровна Подходы и реализации компьютерной имитации интуиции // Вестник евразийской науки. 2017. №2 (39).
  4. Бабушкина, Н. Е. Выбор функции активации нейронной сети в зависимости от условий задачи / Н. Е. Бабушкина, А. А. Рачев // Инновационные технологии в машиностроении, образовании и экономике. – 2020. – Т. 27, № 2(16). – С. 12-15.
  5. Соснин А. С., Суслова И. А. Функции активации нейросети: сигмоида, линейная, ступенчатая, relu, tahn. – 2019. – С. 237.
  6. Бредихин Арсентий Игоревич Алгоритмы обучения сверточных нейронных сетей // Вестник ЮГУ. 2019. №1 (52).
  7. Hu J., Shen L., Sun G. Squeeze-and-excitation networks //Proceedings of the IEEE conference on computer vision and pattern recognition. – 2018. – С. 7132-7141.
  8. Gastaldi X. Shake-shake regularization //arXiv preprint arXiv:1705.07485. – 2017.
  9. DeVries T., Taylor G. W. Improved regularization of convolutional neural networks with cutout // arXiv preprint arXiv:1708.04552. – 2017.
  10. He K. et al. Deep residual learning for image recognition //Proceedings of the IEEE conference on computer vision and pattern recognition. – 2016. – С. 770-778.
  11. Tan M., Le Q. Efficientnet: Rethinking model scaling for convolutional neural networks //International conference on machine learning. – PMLR, 2019. – С. 6105-6114.
  12. Tan M. et al. Mnasnet: Platform-aware neural architecture search for mobile //Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. – 2019. – С. 2820-2828.
  13. Dosovitskiy A. et al. An image is worth 16x16 words: Transformers for image recognition at scale //arXiv preprint arXiv:2010.11929. – 2020.
  14. Vaswani A. et al. Attention is all you need //Advances in neural information processing systems. – 2017. – Т. 30.
  15. Liu Z. et al. Swin transformer: Hierarchical vision transformer using shifted windows // Proceedings of the IEEE/CVF international conference on computer vision. – 2021. – С. 10012-10022.
  16. Liu Z. et al. Swin transformer v2: Scaling up capacity and resolution //Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. – 2022. – С. 12009-12019.
  17. Dai Z. et al. Coatnet: Marrying convolution and attention for all data sizes //Advances in neural information processing systems. – 2021. – Т. 34. – С. 3965-3977.
  18. Zhai X. et al. Scaling vision transformers //Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. – 2022. – С. 12104-12113.
  19. Huang Y. et al. Gpipe: Efficient training of giant neural networks using pipeline parallelism //Advances in neural information processing systems. – 2019. – Т. 32.
  20. Методы аугментации обучающих выборок в задачах классификации изображений / С. О. Емельянов, А. А. Иванова, Е. А. Швец, Д. П. Николаев // Сенсорные системы. – 2018. – Т. 32, № 3. – С. 236-245. – doi: 10.1134/S0235009218030058.
  21. Cubuk E. D. et al. Autoaugment: Learning augmentation strategies from data //Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. – 2019. – С. 113-123.
  22. Han D., Kim J., Kim J. Deep pyramidal residual networks //Proceedings of the IEEE conference on computer vision and pattern recognition. – 2017. – С. 5927-5935.
  23. Yamada Y. et al. Shakedrop regularization for deep residual learning //IEEE Access. – 2019. – Т. 7. – С. 186126-186136.
  24. Kolesnikov A. et al. Big transfer (bit): General visual representation learning //Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part V 16. – Springer International Publishing, 2020. – С. 491-507.
  25. Foret P. et al. Sharpness-aware minimization for efficiently improving generalization //arXiv preprint arXiv:2010.01412. – 2020.
  26. Pham H. et al. Meta pseudo labels //Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. – 2021. – С. 11557-11568.
  27. Yu J. et al. Coca: Contrastive captioners are image-text foundation models //arXiv preprint arXiv:2205.01917. – 2022.
  28. Chen X. et al. Symbolic discovery of optimization algorithms //arXiv preprint arXiv:2302.06675. – 2023.
  29. Zhang H. et al. Dino: Detr with improved denoising anchor boxes for end-to-end object detection //arXiv preprint arXiv:2203.03605. – 2022.
  30. Yang J. et al. Focal modulation networks //Advances in Neural Information Processing Systems. – 2022. – Т. 35. – С. 4203-4217.
  31. Wang L. et al. Sample-efficient neural architecture search by learning actions for monte carlo tree search //IEEE Transactions on Pattern Analysis and Machine Intelligence. – 2021. – Т. 44. – №. 9. – С. 5503-5515.
  32. Wang W. et al. Internimage: Exploring large-scale vision foundation models with deformable convolutions //Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. – 2023. – С. 14408-14419.
  33. Zong Z., Song G., Liu Y. Detrs with collaborative hybrid assignments training //Proceedings of the IEEE/CVF international conference on computer vision. – 2023. – С. 6748-6758.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».