POISKOVYY METOD STOKhASTIChESKOY NESTATsIONARNOY OPTIMIZATsII FUNKTsII S GEL'DEROVSKIM GRADIENTOM

I. A AKINFIEV; АКИНФИЕВ И. А; O. N GRANIChIN; ГРАНИЧИН О. Н; E. Yu TARASOVA; ТАРАСОВА Е. Ю

doi:10.31857/S0005231025080013

POISKOVYY METOD STOKhASTIChESKOY NESTATsIONARNOY OPTIMIZATsII FUNKTsII S GEL'DEROVSKIM GRADIENTOM

Authors: AKINFIEV I.A¹, GRANIChIN O.N¹, TARASOVA E.Y.¹
Affiliations:
Issue: No 8 (2025)
Pages: 6-31
Section: Topical issue
URL: https://journals.rcsi.science/0005-2310/article/view/304785
DOI: https://doi.org/10.31857/S0005231025080013
EDN: https://elibrary.ru/USSKZZ
ID: 304785

Cite item

Abstract

В статье рассматривается поисковый метод стохастической оптимизации с возмущением на входе, предназначенный для отслеживания изменений точки минимума функции (трекинга) с гельдеровским градиентом в условиях наблюдений при почти произвольных неизвестных ограниченных помехах (unknown–but–bounded noise). Подобные методы используются в задачах адаптивного управления (энергетика, логистика, робототехника, трекинг целей), оптимизации зашумленных систем (биомоделирование, физические эксперименты) и онлайн-обучения с дрейфом параметров данных (финансы, потоковая аналитика). В качестве апробации алгоритма исследуется эффективность его работы в условиях, имитирующих отслеживание эволюции человеческих ожиданий в задачах обучения с подкреплением на основе обратной связи от человека и при отслеживании центра кластера задач в системах массового обслуживания. Поисковые методы с возмущениями на входе активно развивались в работах Б.Т. Поляка с 1990 г.

Keywords

трекинг, возмущение на входе, рандомизация, стохастическая оптимизация, безградиентные методы, обучение с подкреплением на основе обратной связи от человека, системы массового обслуживания, неизвестные, но ограниченные помехи

References

Поляк Б.Т. Введение в оптимизацию. М.: Наука, 1983. 384 с.
Поляк Б.Т., Цыпкин Я.З. Псевдоградиентные алгоритмы адаптации и обучения // АиТ. 1973. № 3. С. 45–68.
Поляк Б.Т., Цыпкин Я.З Адаптивные алгоритмы оценивания (сходимость, оптимальность, устойчивость) // АиТ. 1979. № 3. С. 71–84.
Поляк Б.Т., Цыпкин Я.З. Оптимальные псевдоградиентные алгоритмы адаптации // АиТ. 1980. № 8. С. 74–84.
Поляк Б.Т. О некоторых способах ускорения сходимости итерационных методов // Журн. вычисл. мат. и мат. физики. 1964. V. 4. № 5. С.791–803.
Поляк Б.Т. Новый метод типа стохастической аппроксимации // АиТ. 1990. № 7. С. 98–108.
Polgak B.T., Yuditskij A.B. Acceleration of stochastic approximation procedures by averaging // SIAM J. Contr. Optim. 1992. V. 30. No. 4. P. 838–855.
Поляк Б.Т. Сходимость и скорость сходимости итеративных стохастических алгоритмов. I // АиТ. 1976. № 12. С. 83-94.
Поляк Б.Т. Сходимость и скорость сходимости итеративных стохастических алгоритмов. II // АиТ. 1977. № 4 С. 101–107.
Поляк Б.Т., Цыбаков А.Б. Оптимальные порядки точности поисковых алгоритмов стохастической оптимизации // Проблемы передачи информации. 1990. № 26. 2. С. 45–53.
Распаригин Л.А. Статистические методы поиска. М.: Наука, 1968. 376 с.
Граничин О.Н. Стохастическая аппроксимация с возмущением на входе при зависимых помехах наблюдения // Вестн. ЛГУ. 1989. С. 27–31.
Spall J.C. Multivariate stochastic approximation using a simultaneous perturbation gradient approximation // IEEE Transact. Autom. Control. 1992. 37(3). С. 332–341.
Spall J.C. A one-measurement form of simultaneous perturbation stochastic approximation // Automatica. 1997. 33(1). P. 109–112.
Граничин О.Н., Поляк Б.Т. Рандомизированные алгоритмы оценивания и оптимизации при почти произвольных помехах. М.: Наука, 2003. 291 с.
Granichin O., Volkovich V., Toledano-Kitai D. Randomized algorithms in automatic control and data mining. Berlin Heldenberg: Springer, 2015. 251 p.
Попков А.Ю. Градиентные методы для нестационарных задач безусловной оптимизации // АиТ. 2005. № 6. С. 38–46.
Kiefer J., Wolfowitz J. Stochastic estimation of the maximum of a regression function // The Annals of Mathematical Statistics. 1952. 23(3). P. 462–466.
Вахитов А.Т., Граничин О.Н., Гуревич Л.С. Алгоритм стохастической аппроксимации с пробным возмущением на входе в нестационарной задаче оптимизации // АиТ. 2009. № 11. С. 70–79.
Granichin O., Amelina N. Simultaneous perturbation stochastic approximation for tracking under unknown but bounded disturbances // IEEE Transact. Autom. Control. 2015. V. 60. No. 6. P. 1653–1658.
Шиблев И.А. Безградиентные методы оптимизации для функций с гельдеровым градиентом // Дисс. ... канд. физ.-мат. наук. Долгопрудный: МФТИ, 2024.
Shibaev I., Dvurechensky P., Gasnikov A. Zeroth-order methods for noisy Holder-gradient functions // Optimization Letters. 2022. V. 16. P. 2123–2143.
Mandelbrot B. New methods in statistical economics // Journal of Political Economy. 1963. V. 71. No. 5. P. 421–440.
Bazumos A.T., Гранцман О.Н., Сысоев С.С. Точность оценивания рандомизированного алгоритма стохастической оптимизации // АиТ. 2006. № 4. С. 86–96.
Гранцман О.Н. Поисковые алгоритмы стохастической аппроксимации с рандоминацией на входе // АиТ. 2015. № 5. С. 43–59.
Min T. et al. Understanding Impact of Human Feedback via Influence Functions. arXiv preprint arXiv:2501.05790. 2025.
Shen W. et al. Loose lips sink ships: mitigating length bias in reinforcement learning from human feedback // Findings of the Association for Computational Linguistics: EMNLP 2023, 2023. P. 2859–2873.
Christiano P.F. et al. Deep reinforcement learning from human preferences // Advances in Neural Information Processing Systems. 2017. V. 30. P. 1–9.
Sitemon N. et al. Learning to summarize with human feedback // Advances in Neural Information Processing Systems. 2020. V. 33. P. 3008–3021.
Ouyang L. et al. Training language models to follow instructions with human feedback // Advances in Neural Information Processing Systems. 2022. V. 35. P. 27730–27744.
Gans N., Koole G., Mandelbaum A. Telephone call centers: Tutorial, review, and research prospects // Manufacturing and Service Operations Management. 2003. V. 5. No. 2. P. 79–141.
Anderson. C. The Long Tail: Why the Future of Business is Selling Less of More, NY.: Hyperion, 2006. 256 p.
Goel S., Broder A., Gabrilovich E., Pang. B. Anatomy of the long tail: Ordinary People With Extraordinary Tastes // Proceedings of the Third ACM International Conference on Web Search and Data Mining (WSDM’10), ACM, New York, NY, USA, 2010. P. 201–210.
Akinfiev I., Tarasova E. Cluster-Aware LVP: Enhancing Task Allocation with Growth Dynamics // 15th IFAC Workshop on Adaptive and Learning Control Systems (ALCOS), 2025.

Supplementary files

Supplementary Files

Action

1. JATS XML

Download

Username
Password
Remember me

Forgot password?	Register

Username
Password
Remember me

Forgot password?	Register

No 12 (2025)

No 12 (2025)

POISKOVYY METOD STOKhASTIChESKOY NESTATsIONARNOY OPTIMIZATsII FUNKTsII S GEL'DEROVSKIM GRADIENTOM

Full Text

Abstract

Keywords

About the authors

I. A AKINFIEV

O. N GRANIChIN

E. Yu TARASOVA

References

Supplementary files