Робастный оптимизатор Adam на основе усредняющих агрегирующих функций
- Авторы: Казаков М.А.1
-
Учреждения:
- Институт прикладной математики и автоматизации - филиал Кабардино-Балкарского научного центра Российской академии наук
- Выпуск: Том 27, № 5 (2025)
- Страницы: 159-167
- Раздел: Информатика и информационные процессы
- Статья получена: 13.11.2025
- Статья опубликована: 20.11.2025
- URL: https://journals.rcsi.science/1991-6639/article/view/351225
- DOI: https://doi.org/10.35330/1991-6639-2025-27-5-159-167
- EDN: https://elibrary.ru/DASTQK
- ID: 351225
Цитировать
Полный текст
Аннотация
Обучение на загрязненных данных (выбросы, тяжелые хвосты, шум меток, артефакты предобработки) делает арифметическое усреднение в эмпирическом риске неустойчивым: несколько аномалий смещают оценки, дестабилизируют шаги оптимизации и ухудшают обобщающую способность. Требуется способ повысить робастность без изменения функции потерь и архитектуры модели.
Цель исследования. Разработать и продемонстрировать вариант Adam, в котором усреднение по партии (batch) заменено на робастную усредняющую агрегирующую функцию на основе штрафа, позволяющую ослабить влияние выбросов при сохранении преимуществ момента и покоординатной адаптации шага.
Методы исследования. Используются усредняющие агрегирующие средние на базе штрафной функции. В качестве функций несходства используется функция Хубера. Для нахождения робастного центра и весов элементов партии используется метод Ньютона. Эффективность оценивается на синтетическом эксперименте с контролируемыми выбросами через сравнение со стандартным Adam по устойчивости обучения.
Результаты. Робастный Adam показал более устойчивое обучение на синтетической линейной регрессии: при наличии до 20 % выбросов итоговая модель сохраняет устойчивость. Метод сохраняет вычислительную эффективность и совместимость, добавляются лишь несколько итераций поиска робастного центра на партию, асимптотика не меняется. При квадратичной штрафной функции он вырождается в обычный Adam, что подтверждает корректность обобщения.
Выводы. При помощи М-средних произведена модификация алгоритма оптимизации Adam. Данный алгоритм сохраняет робастность при линейной регрессии при наличии выбросов по крайней мере до 20 %. Точные ограничения еще подлежат исследованию. Накладные вычислительные расходы связаны с вычислением оптимального значения u* для каждой партии. Однако в силу быстрой сходимости (около трех итераций по методу Ньютона) замедление алгоритма несущественное.
Об авторах
М. А. Казаков
Институт прикладной математики и автоматизации - филиал Кабардино-Балкарского научного центра Российской академии наук
Автор, ответственный за переписку.
Email: kasakow.muchamed@gmail.com
ORCID iD: 0000-0002-5112-5079
SPIN-код: 6983-1220
мл. науч. сотр. отдела нейроинформатики и машинного
обучения
Список литературы
- Kingma D.P., Ba J. Adam. A method for stochastic optimization. international conference on learning representations (ICLR 2015). San Diego, 2015. 15 p., available at: https://arxiv.org/abs/1412.6980
- Tieleman T. Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude. COURSERA: Neural Networks for Machine Learning. 2012. Vol. 4. No. 2. Pp. 26. DOI: https://cir.nii.ac.jp/crid/1370017282431050757
- Поляк Б. Т. О некоторых способах ускорения сходимости итерационных методов. Журнал вычислительной математики и математической физики. 1964. Т. 4. No 5. С. 791-803. doi: 10.1016/0041-5553(64)90137-5
- Duchi J., Hazan E., Singer Y. Adaptive subgradient methods for online learning and stochastic optimization. Journal of Machine Learning Research. 2011. Vol. 12. Pp. 2121-2159.
- Koenker R. Quantile Regression. Cambridge: Cambridge University Press, 2005. 366 p. ISBN: 0-521-60827-9
- Huber P.J. Robust Statistics. New York: Wiley, 1981. 308 p. ISBN: 0-471-41805-6
- Tukey J.W. A survey of sampling from contaminated distributions. in: contributions to probability and statistics: essays in honor of Harold Hoteling. Stanford: Stanford University Press, 1960. Pp. 448-485. DOI: https://cir.nii.ac.jp/crid/1570291226404846720
- Rousseeuw P.J., Leroy A.M. Robust regression and outlier detection. New York: Wiley, 1987. 329 p. ISBN: 9780471852339
- Rousseeuw P.J. Least median of square regression. Journal of the American Statistical Association. 1984. Vol. 79. Pp. 871-880. doi: 10.1080/01621459.1984.10477105.
- Vapnik V. The nature of statistical learning theory. New York: Springer-Verlag, 2000. 314 p. ISBN: 978-1-4419-3160-3
- Beliakov G., Sola H., Calvo T. A practical guide to averaging functions. Berlin: Springer-Verlag, 2016. 371 p. ISBN: 978-3319247519
- Calvo T., Beliakov G. Aggregation functions. Fuzzy Sets and Systems. 2010. Vol. 161. No. 10. Pp. 1420-1436. doi: 10.1016/j.fss.2009.05.012
- Mesiar R., Kolesárová A., Calvo T., Komorníková M. A review of aggregation functions. fuzzy sets and their extensions: representation, aggregation and models. studies in fuzziness and soft computing. 2008. Vol. 220. Springer, Berlin, Heidelberg. doi: 10.1007/978-3-540-73723-0_7
- Shibzukhov Z.M. Principle of minimizing empirical risk and averaging aggregate functions. Journal of Mathematical Sciences. 2021. Vol. 253. No. 4. Pp. 571-583. doi: 10.1007/s10958-021-05256-y
- Vapnik V. Principles of risk minimization for learning theory. Advances in Neural Information Processing Systems (NeurIPS). 1991. Vol. 4. Pp. 831-838. DOI: https://cir.nii.ac.jp/crid/1571698599429734144
Дополнительные файлы



