On Some Works of Boris Teodorovich Polyak on the Convergence of Gradient Methods and Their Development
- Authors: Ablaev S.S.1,2, Beznosikov A.N.1,3, Gasnikov A.V.1,3,4, Dvinskikh D.M.1,3,4, Lobanov A.V.1,4, Puchinin S.M.1, Stonyakin F.S.1,2
-
Affiliations:
- Moscow Institute of Physics and Technology
- Crimean Federal University
- Institute for Information Transmission Problems, Russian Academy of Sciences
- Institute for System Programming, Russian Academy of Sciences
- Issue: Vol 64, No 4 (2024)
- Pages: 587-626
- Section: Optimal control
- URL: https://journals.rcsi.science/0044-4669/article/view/269965
- DOI: https://doi.org/10.31857/S0044466924040028
- EDN: https://elibrary.ru/ZKLBSS
- ID: 269965
Cite item
Full Text
Abstract
The paper presents a review of the current state of subgradient and accelerated convex optimization methods, including the cases with the presence of noise and access to various information about the objective function (function value, gradient, stochastic gradient, higher derivatives). For nonconvex problems, the Polyak–Lojasiewicz condition is considered and a review of the main results is given. The behavior of numerical methods in the presence of a sharp minimum is considered. The aim of this review is to show the influence of the works of B.T. Polyak (1935–2023) on gradient optimization methods and their surroundings on the modern development of numerical optimization methods.
Full Text
ВВЕДЕНИЕ
Данный обзор посвящен частичному разбору нескольких работ Б. Т. Поляка о сходимости методов градиентного типа, которые на многие десятилетия определили развитие численных методов оптимизации. В частности, продолжают активно цитироваться и развиваться в настоящее время. Прежде всего, речь пойдет о работах [1]–[15].
Подчеркнем, что в данной статье не планируется описывать научный путь Бориса Теодоровича. Мы коснемся лишь пары десятков статей из более чем 250-ти. Более подробно с научным путем Б. Т. Поляка можно познакомиться, например, по статьям [16], [17].
Структура обзора следующая. В разд. 2 описываются методы негладкой оптимизации и специальный способ адаптивного выбора шага (в литературе часто называется «шаг Поляка»). В частности, приводится субградиентный метод Поляка–Шора и вариант этого метода с переключением (для задач с функциональными ограничениями). Далее обсуждается вопрос о возможной линейной скорости сходимости таких методов, если минимум острый.
В разд. 3 излагаются методы гладкой оптимизации. Начинается изложение с описания условия градиентного доминирования, которое обобщает условие сильной выпуклости целевого функционала, не предполагая при этом даже выпуклости. Показывается, что при данном условии градиентный спуск глобально линейно сходится. Рассматриваются различные обобщения данного результата. В частности, на случай, когда градиент доступен лишь с заданным уровнем относительной неточности. Затем идет изложение метода условного градиента и некоторых современных результатов вокруг этого метода. В заключении данного раздела описывается метод тяжелого шарика Поляка, который породил линейку современных ускоренных методов.
В разд. 4 приводятся результаты Поляка–Цыпкина и Поляка–Юдицкого–Рупперта, в которых возникают различные формы центральной предельной теоремы для выхода алгоритма типа стохастического градиентного спуска. Далее приводятся неасимптотические результаты, в том числе и для ускоренных вариантов стохастического градиентного спуска. В частности, рассматриваются так называемые мультипликативные помехи, которые в современных исследованиях чаще называют условием сильного роста, не ассоциируя это с пионерскими работами Б. Т. Поляка с соавторами. В заключении разд.4 рассматриваются рандомизированные безградиентные (также называемые поисковыми) методы. В условиях повышенной гладкости целевой функции обсуждается конструкция Поляка–Цыбакова, позволяющая строить хорошую модель производной по направлению целевой функции, исходя всего из двух проб.
НЕГЛАДКАЯ ВЫПУКЛАЯ ОПТИМИЗАЦИЯ
История развития методов негладкой оптимизации начинается в 60-е годы прошлого века и достаточно подробно описана в работе [18]. Наряду с работами Н. З. Шора [19] важный вклад в развитие этой области принадлежит Б. Т. Поляку (см. [11], [15]).
2.1. Субградиентный метод Поляка–Шора
Если не оговорено иное, то далее в тексте рассматриваются задачи вида
, (1)
где f(x) — необязательно дифференцируемая выпуклая функция, Q — выпуклое замкнутое подмножество , .
В данном пункте мы поговорим про субградиентные методы для негладкой оптимизации и вклад Бориса Теодоровича Поляка. Хорошо известно, что при минимизации недифференцируемых функций возникает ряд проблем: неприменим метод покоординатного спуска, а субградиент целевой фyнкции не задает направление наискорейшего возрастания. В связи с этим Н. З. Шором был предложен субградиентный метод [20], являющийся прямым аналогом градиентного метода. Особенность идеи такого метода в том, что вместо градиента целевой функции в методе используется произвольный сyбградиент негладкой выпyклой фyнкции. Рассмотрим случай, когда Q — замкнyтое выпyклое подмножество с евклидовой нормой ||·||2. Пусть . Будем всюду далее обозначать субградиент f (некоторый элемент субдифференциала ) в точке x как ∇f(x). Если функция f дифференцируема в точке x, то ∇f(x) — ее градиент. Итерация сyбградиентного метода при hk > 0 имеет следyющий вид:
, (2)
где — оператор евклидова проектирования на множество Q. Одна из главных особенностей субградиентных методов состоит в том, что значения функции в этом методе могут не убывать монотонно с ростом количества итераций. Вообще, f не обязательно убывает вдоль направления −∇f(xk), обратного направлению сyбградиента в текyщей точке. Однако оказывается, что при этом возможно гарантировать монотонное убывание расстояния от текущей точки до точки минимума. Вторая особенность — это выбор шага сyбградиентного метода. Если выбирать постоянный шаг, то метод может не сходиться. Действительно, пycть для фyнкции одной переменной f(x) = |x|, x0 = −0.01 и выбран постоянный шаг hk = 0.02. Тогда итеративная последовательность метода (2) будет состоять всего из двyх точек −0.01 и 0.01 и не бyдет сходимости к точке минимума 0.
Интересный подход к выбору шага в сyбградиентном методе предложен Б. Т. Поляком. Он предложил при выборе шага использовать степень близости значения функции в текущей точке к минимальному. Это вполне возможно, если известно искомое минимальное значение функции f*. Например, если систему совместных линейных уравнений
,
свести к минимизации функции
,
то f* = 0. Также f* бывает известно в геометрических задачах — проекция точки на множество, нахождение общей точки системы множеств. Используя f*, можно построить адаптивный вариант шага (впервые он предложен в [11]), не содержащий таких параметров задачи, как константа Липшица целевой функции или расстояние от точки старта до множества решений:
. (3)
Такой шаг принято называть шагом Б. Т. Поляка. Для субградиентного метода с таким шагом известен следующий результат о сходимости (см. [2]).
Теорема 1. Пусть f(x) — выпуклая на функция, множество точек минимума X* которой не пусто. Тогда в методе (2) с шагом (3) . При этом .
Доказательство. Как известно, для всякой точки минимума x* ∈ X* верны неравенства
Поэтому
(4)
. (5)
Таким образом, имеем
.
Более того, неравенство означает, что последовательность xk ограничена, и тогда . Поэтому . Следовательно, найдется подпоследовательность . Итак, получаем, что монотонно убывает, а . Отсюда . Ввиду (5) получаем
,
а из ограниченности следует . Если предположить, что , то для достаточно больших k, что противоречит условию . Итак, . Теорема 1 доказана.
Предыдущий результат означает, что для достижения точности ε > 0 решения задачи по функции гарантированно достаточно O(1 / ε2) итераций. Данная оценка скорости сходимости неулучшаема на классе минимизационных задач с выпуклыми липшицевыми (как гладкими, так и негладкими) целевыми функциями. Хотя известны и другие подходы к выбору шага для субградиентного метода. Например, если при предположить (здесь и всюду далее ), что
, (6)
и выбрать шаг субградиентного метода, а также точку выхода следующим образом:
, (7)
то будет выполняться неравенство
. (8)
Неравенство (8) означает, что при выборе
(9)
будет достигаться оценка , которая оптимальна с точностью до умножения на константу. Действительно, известно, что точная нижняя оценка на классе задач выпуклой оптимизации с условием (6) для методов первого порядка вида
, (10)
где для всех j = 0, 1, ..., k верно , имеет вид (см. [21])
. (11)
Представляется, что интерес выбора шага Б. Т. Поляка для сyбградиентного метода в том, что он в каждой точке позволяет учесть динамику значений целевой функции и не содержит параметров типа константы Липшица целевой фyнкции или оценки расстояния от начальной точки до множества точных решений задачи. Такого типа процедуры выбора шагов в оптимизационных методах часто называют адаптивными. Разным подходам к адаптивным процедурам при выборе шагов оптимизационных методов посвящаются все новые работы (см. [22]–[24]). В этом плане можно отметить многочисленные исследования в области универсальных градиентных методов (см. [25], [26]), адаптивных методов типа AdaGrad, да и разные модификации шага Б. Т. Поляка в детерминированном и стохастическом случаях (см. [22], [27]). Важно, что, помимо процедyры выбора шага, Б. Т. Поляк еще выделил и класс задач с острым минимyмом (см. [11]), для которого этот шаг позволил доказать резyльтат о сходимости сyбградиентного метода со скоростью геометрической прогрессии. Далее поговорим об этом результате и его развитии в современных работах.
2.2. Острый минимум и линейная скорость сходимости субградиентного метода с шагом Б. Т. Поляка
Как видим, в описанных выше результатах оценки скорости сходимости субградиентного метода сублинейны. Получить линейную сходимость субградиентного метода можно лишь с помощью дополнительных предположений. Например, линейная скорость сходимости возможна для методов типа секущей гиперплоскости, применимых к задачам малой или умеренной размерности. Что касается задач большой размерности, то сходимость со скоростью геометрической прогрессии может позволить получить дополнительное предположение об остром минимуме
, (12)
где X* — множество точек минимума функции f на множестве Q, α > 0 — некоторое фиксированное положительное число. В частности, условие (12) верно для задачи евклидова проектирования точки x на выпуклый компакт X* ⊂ Q, причем f* = 0. Условие острого минимума было введено Б. Т. Поляком в [11]. Рассмотрим субградиентный метод (2) с шагом Б. Т. Поляка (3) для задачи минимизации f.
Теорема 2. Пусть f — выпуклая функция и для задачи минимизации f с острым минимумом используется алгоритм (2) c шагом Б. Т. Поляка (3). Тогда после k итераций алгоритма (2) верно неравенство
.
Доказательство. Согласно (5) и условию острого минимума имеем
. (13)
Далее, получаем цепочку неравенств
(14)
. (15)
Теорема 2 доказана.
Следствие 1. Если в условиях предыдущей теоремы допустить, что f удовлетворяет условию Липшица с константой m > 0 (т. е. все нормы сyбградиентов f равномерно сверхy ограничены этой константой), то можно утверждать сходимость алгоритма (2) со скоростью геометрической прогрессии:
.
2.3. Субградиентные схемы с переключениями для задач с ограничениями
Б. Т. Поляк внес существенный вклад и в изучение задач математического программирования. Ему принадлежит идея так называемых схем с переключениями по продуктивным и непродуктивным шагам (см. [28]). Общая идея подхода заключается в следующем: если в текущей точке значение ограничения достаточно хорошее, то спуск выполняем по целевой функции, а в противном случае — по функции ограничения. Такого типа подходам, которые интересны ввиду малых затрат памяти на итерациях, посвящаются все новые работы как для выпуклых задач большой и сверхбольшой размерностей (см. [29]–[32]), так и для некоторых классов невыпуклых задач (см. [29]). В последние годы некоторыми из авторов статьи были исследованы адаптивные субградиентные методы с переключениями для липшицевых задач выпуклого программирования, в том числе и для некоторых нелипшицевых и/или квазивыпyклых целевых функций (см. [30], [33]–[35]). Достаточно полное исследование стохастического варианта сyбградиентного метода с переключениями по продуктивным и непродуктивным шагам имеется в работе [36].
В этом пункте приводится результат о сходимости субградиентных методов со скоростью геометрической прогрессии для субградиентных схем с переключениями по продуктивным и непродуктивным шагам в случае выпуклых задач с ограничениями в виде неравенств. Случай квазивыпуклых задач с квазивыпуклыми ограничениями исследован в [35]. Будем рассматривать задачу с функциональными ограничениями вида
(16)
где f(x) и g(x) — липшицевы функции. Всюдy далее будем считать, что задача (16) разрешима.
Algorithm 1. Адаптивный субградиентный метод для выпуклой целевой функции
Require: , множество Q.
1:
2:
3: repeat
4: if then
5: ,
6: , // “продуктивные шаги”
7:
8: else
9: ,
10: , // “непродуктивные шаги”
11: end if
12:
13: until .
Ensure:
Рассмотрим теперь алгоритм 1, где I и J — множества индексов продуктивных и непродуктивных шагов соответственно, а | I | и | J | — мощности этих множеств.
Покажем пару примеров, несколько поясняющих смысл использования таких схем для задач с ограничениями.
Пример 1. Рассмотрим случай задачи с несколькими ограничениями
. (17)
Можно сэкономить время работы алгоритма за счет рассмотрения не всех функциональных ограничений на непродуктивных шагах. То есть на непродyктивных шагах вместо субградиента ограничения g(x) можно рассматривать субградиент любого из функционалов gm(x), для которого верно gm(xk) > ε. Другие ограничения при этом можно игнорировать. Легко проверить, что результат о сходимости алгоритма 1 при этом сохранится. Аналогичное замечание можно сделать и про иные подходы указанного типа (см. [33]).
Пример 2. Интересным примером приложений может быть использование схем с переключениями к задачам проектирования механических констрyкций, сводящихся к минимизации функций max-типа с разреженной матрицей A (см. [32], [37]):
. (18)
Основное преимущество применения субградиентного метода с переключениями для задач выпуклого программирования заключается в том, что сложность одной итерации сильно понижается за счет разреженности векторов ai, f. Из этого следует, что на каждом шаге
в векторе y обновляется не больше чем r = O(1) элементов. Из того, что в каждом узле встречаются не более чем s стержней, следует, что обновление y влечет за собой обновление максимум sr скалярных произведений ⟨ai, y⟩.
Теорема 3. После остановки алгоритма 1 для всякого Mg-липшицева квазивыпуклого ограничения g верно и . При этом в случае Mf -липшицевой функции f достаточное количество итераций для выполнения критерия остановки алгоритма 1 оценивается следующим образом:
.
Заметим, что на практике для реализации алгоритма 1 знание константы Липшица Mf функции f(x) необязательно, достаточно остановить алгоритм после выполнения критерия остановки.
2.4. Аналог условия острого минимума для задач с ограничениями
Для выпуклых (в том числе негладких) липшицевых задач можно доказать сходимость субградиентного метода со скоростью геометрической прогрессии при дополнительном предположении о выполнении условия острого минимума (см. [35]). В частности (см. [2]), острым минимумом будет обладать задача вида
(19)
где c есть n-мерный вектор, A — матрица порядка m × n.
Если для линейных задач (19) возможно обойтись использованием обычного условия острого минимума (12), то в общем случае для нелинейных задач это уже не так.
Для такой постановки (16) будем использовать следующую вариацию понятия острого минимума (см. [35], [38]).
Определение 1. Будем говорить, что для задачи вида (16) выполняется условие острого минимума (“условный” острый минимум), если при некотором α > 0 для всех x справедливо неравенство
. (20)
Смысл такого подхода следующий. Поскольку задача (16) с ограничениями в виде неравенств, то в тех точках x, где эти неравенства нарушены, возможно f(x) ≤ f*, и тогда выполнение неравенства (20) возможно за счет положительного g (очевидный пример — когда в качестве ограничения выбирается функция расстояния от точки до допустимого множества). В случае же g(x) ≤ 0 потенциально возможна ситуация, когда неравенство справедливо, а на всем допустимом множестве было бы неверным. Рассмотрим некоторые примеры таких задач с “условным” острым минимумом.
Пример 3 (cпециальный вариант линейной задачи, см. [38]):
, (21)
. (22)
Как известно (см. [38]), в этой задаче точка минимума x* = (1,0), а оптимальное значение f* = −1. Отдельно целевая функция −x1, вообще говоря, не удовлетворяет условию острого минимума (12), поскольку зависит только от одной переменной из двух. Но при наличии ограничений (22) для этой задачи выполнен “условный” вариант острого минимума (20) при α = ρ / 2 (см. [38]). Выбор масштабирующего коэффициента ρ может влиять на значение параметра такого острого минимума.
Пример 4. Рассмотрим задачу
где ε > 0. В этом примере целевая функция удовлетворяет условию острого минимума (12). Действительно, , f* = 0, а x* = (0,0), и неравенство выполняется, например, при α = 1. Однако функциональные ограничения смещают точку минимума x* = (ε, ε), и условие острого минимума нарушается. А условному острому минимуму эта задача удовлетворяет, учитывая, что x* = (ε, ε), а минимальное значение функции f* = 2ε.
Пример 5 (задача классификации с ограничениями, см. [38]). Рассмотрим множество, состоящее из n пар: , где — вектор признаков, а bi ∈ {1, −1} — множество меток при i = 1, 2,...,n. Пусть , — два типа признаков. Мы хотим найти линейный классификатор , который не только минимизирует функцию потерь, но и правильным образом обрабатывает каждый элемент из множеств и . Указанная задача сводится к следующей постановке:
где κ ∈ (0, 1] — константа, nM и nF — количество экземпляров из и соответственно и — вероятность присваивания метки +1 предсказанию a.
Построим схему рестартов алгоритма 1 и 2 в предположении, что верно условие (20).
Algorithm 2. Рестарты алгоритма 1
Require: , множество Q.
1: Set .
2: repeat
3: — результат работы алгоритма 1 с параметрами δp, θp, x0, где
4: ,
5: ,
6: .
7: Set .
8: until
Ensure: xp.
Для алгоритмов 1 и 2 верна следующая
Теорема 4. Пусть f(x) и g(x) — липшицевы функции с константами Mf и Mg соответственно, удовлетворяющие условию (20), и известна константа θ0 > 0 такая, что . Тогда для алгоритма 1 можно подобрать параметр δ > 0 так, чтобы после
итераций было выполнено неравенство . После p − 1 запусков алгоритма 2.4 (рестартов алгоритма 2.3) имеем
.
Тогда для достижения ε-точного решения вида
достаточное количество обращений к субградиенту f или g можно оценить как
.
2.5. Субградиентные методы для слабо выпуклых и относительно слабо выпуклых задач с острым минимумом
Введенный Б. Т. Поляком класс выпyклых негладких оптимизационных задач с острым минимумом интересен тем, что на нем сyбградиентный метод имеет неплохие вычислительные гарантии (сходится со скоростью геометрической прогрессии). Однако представляется, что условие острого минимума достаточно существенно сужает рассматриваемый класс выпуклых задач. В этой связи интересно отметить наблюдение многих статей последних лет (см. [39]–[42]) о том, что многие возникающие в приложениях слабо выпуклые задачи имеют острый минимум. Это касается разных типов задач нелинейной регрессии, восстановления фазы, восстановления матрицы (matrix recovery) и др. Класс слабо выпуклых оптимизационных задач интересен, ему посвящаются все новые работы (см. [29], [39], [43]–[47]), но без дополнительных предположений скоростные гарантии достаточно пессимистичны. Однако в случае острого минимума недавно доказаны результаты о сходимости субградиентного метода со скоростью геометрической прогрессии при условии достаточной близости начальной точки к точному решению (см. [39]). При этом заметим, что в одном из этих результатов используется способ выбора шага, предложенный Б. Т. Поляком. Немного расскажем об этом направлении.
Как и ранее, рассматриваем задачи минимизации вида (1). Напомним, что функция (аналогично и для функций ) называется µ-слабо выпуклой (µ ≥ 0), если функция выпукла. Для недифференцируемых µ-слабо выпуклых функций f под субдифференциалом в точке x можно понимать (см. [39] и цитируемую там литературу) множество всех векторов , удовлетворяющих неравенству
. (23)
Известно (см. [39]), что все векторы-субградиенты из (23) автоматически удовлетворяют неравенству
. (24)
Можно проверить, что слабо выпуклые функции локально липшицевы, и поэтому в качестве субградиентов можно использовать произвольный вектор из субдифференциала Кларка (см., например, [43]).
Известно немало примеров прикладных слабо выпуклых задач, которые не являются выпуклыми. Так, слабо выпуклыми будут задачи вида (см., например, [39])
,
где выпукло и M-липшицево, а является C1-гладким отображением с β-липшицевой матрицей Якоби. Нетрудно проверить, что при указанных допущениях f — Mβ-слабо выпукла. В частности, в указанный класс задач входят задачи нелинейной регрессии с h(x) = ||x||1, где ||·||1 — 1-норма.
Интересно, что слабая выпyклость позволяет сyщественно расширить класс задач с yсловием острого минимyма, предложенного Б. Т. Поляком в [11]. Приведем еще пару достаточно популярных в современных приложениях примеров слабо выпуклых задач с острым минимумом.
Пример 6 (задача восстановления фазы). Восстановление фазы — распространенная вычислительная задача, имеющая приложения в различных областях, таких как визуализация, рентгеновская кристаллография и обработка речи (см. [40], [41], [45]).
Она сводится к задаче минимизации следующей функции:
, (25)
где и заданы для каждого i = 1, 2,..., m. Данная целевая фyнкция имеет вид , где — выпуклая и M-липшицева функция, а — это C1-гладкое отображение с β -липшицевым отображением Якоби. Как отмечено выше, такие фyнкции слабо выпуклы. В данном случае функция (25) µ -слабо выпукла (см. [44]) при
. (26)
Более того, при соответствующей модели шума в измерениях фyнкция имеет острый минимyм (см. [40], утверждение 3).
Пример 7 (см. [42]):
. (27)
Рассмотрим робастную задачу восстановления матрицы небольшого ранга (см. [42]), в которой измерения искажены всплесками. В частности, мы предполагаем, что
, (28)
где — вектор всплесков-возмущений, у которого небольшая часть элементов имеет произвольную величину, а остальные элементы равны нулю. Кроме того, множество ненулевых элементов предполагается неизвестным.
Хорошо известно, что -функция потерь чувствительна к возмущениям, что приводит к недостаточной эффективности постановки (27) для восстановления базовой матрицы низкого ранга. Глобальные минимумы ξ в (27) отклоняются от базовой матрицы низкого ранга из-за всплесков, и большая доля всплесков приводит к большему возмущению. Напротив, функция потерь более устойчива к выбросам и широко используется для обнаружения выбросов (см. [48]–[50]). Это привело к идее использовать функцию потерь и факторизованное представление матричной переменной для решения надежной задачи восстановления малоранговой матрицы:
. (29)
Известно (см. [42]), что эта целевая функция слабо выпуклая и обладает острым минимумом.
Отметим, что для слабо выпуклых задач характерны многие проблемы сходимости вычислительных процедур, свойственные общей невыпуклой ситуации. Например, нет возможности гарантировать сходимость градиентного метода даже к локальному минимуму.
Пример 8. Действительно (см. [51]), пусть
.
Это слабо выпуклая задача, поскольку добавление к f половины квадрата нормы x приводит к выпуклой функции. Градиент целевой функции имеет вид
,
откуда следует, что существуют только три точки, которые могут претендовать на локальный минимум: . Вычисляя матрицу Гессе
,
заключаем, что и являются точками изолированного локального минимума, в то время как есть только стационарная точка нашей функции. Действительно, и при достаточно малых ε. Рассмотрим траекторию градиентного метода, начинающуюся в точке x0 = (1,0). Обратим внимание на то, что вторая координата этой точки 0, поэтому вторая координата для ∇f(x0) также 0. Следовательно, вторая координата точки x1 равна нулю и т. д. Таким образом, вся последовательность точек, образованная градиентным методом, будет иметь нулевую вторую координату, что означает сходимость этой последовательности к .
Теорема 5 (см. [39]). Пусть f µ-слабо выпукла и имеет α-острый минимум (α,µ > 0), а точка x0: для некоторого фиксированного γ ∈ (0;1). Тогда для метода (2) с шагом (3) верно неравенство
. (30)
Следствие 2. Если в условиях предыдущей теоремы допустить, что f удовлетворяет условию Липшица с константой M > 0, то можно утверждать сходимость алгоритма (2) со скоростью геометрической прогрессии:
.
Отметим, что в условиях теоремы 5 нулевой (суб)градиент возможен только в точке xk ∈ X*, поскольку справедливо следующее
Предложение 1 (окрестность множества X* не имеет стационарных точек). Задача минимизации µ-слабо выпуклой функции f c α-острым минимумом не имеет стационарных точек x, удовлетворяющих условию
. (31)
ГЛАДКАЯ ОПТИМИЗАЦИЯ
Пожалуй, основным атрибутом гладкой оптимизации является наличие моментного ускорения, роль которого, по-видимому, впервые была отмечена в 1964 г. в работе Б. Т. Поляка (см. [9]). Отметим, что в этой работе (как и в работе по негладким методам 1969 г., см. [11]) были заложены основы разработки численных методов оптимизации на базе непрерывных аналогов (дифференциальных уравнений, порождающих при дискретизации итерационный процесс). Впоследствии аналогичным образом неоднократно разрабатывались новые численные методы оптимизации (см. [52]–[55]). Однако наличие гладкости дает возможность не только ускорения скорости сходимости. В данном разделе, следуя работам Б. Т. Поляка в основном 60-х годов прошлого века, продемонстрировано, какие дополнительные возможности приобретаются при наличии гладкости (липшицевости градиента целевой функции).
3.1. Условие градиентного доминирования (Поляка–Лоясиевича)
В 1963 г. Б. Т. Поляк (см. [1]) предложил простое условие, достаточное для того, чтобы показать глобальную линейную скорость сходимости градиентного спуска для достаточно гладких задач. Это условие является частным случаем неравенства Лоясиевича, предложенного в том же году (см. [56]), и не требует сильной выпуклости (или даже выпуклости). Условие вида (32) называется условием градиентного доминирования или же условием Поляка–Лоясиевича (PL-условием) (см. [1], [56]–[58]):
. (32)
Как правило, в литературе это условие называют условием Поляка–Лоясиевича, но стоит отметить еще работу Лежанского (см. [57]), в которой оно появилось независимо. По-видимому, правильнее называть (32) условием Лежанского–Поляка–Лоясиевича. Зачастую в теоретических приложениях данное условие используется как ослабление сильной выпуклости, так как любая µ-сильно выпуклая функция удовлетворяет PL-условию с константой µ.
В последние годы условие градиентного доминирования обширно исследуется в различных областях оптимизации и смежных науках. Толчком к возрождению интереса к этому условию послужила работа [58], в которой авторы показали, что PL-условие слабее тех условий, которые ранее использовались для получения линейной скорости сходимости без сильной выпуклости. Также в этой работе PL-условие использовалось для проведения нового анализа рандомизированных и жадных методов покоординатного спуска, а также стохастических градиентных методов в различных постановках. Было предложено и обобщение результатов на проксимальные градиентные методы, позволяющее несложно доказать их линейную скорость сходимости. Попутно были получены результаты сходимости для широкого круга задач машинного обучения: метода наименьших квадратов, логистической регрессии, бустинга, устойчивого метода обратного распространения ошибки, L1-регуляризации, метода опорных векторов.
Приведем несколько примеров задач, в которых условие градиентного доминирования возникает естественным образом.
Пример 9 (PL-условие для нелинейных задач). Пусть , где дифференцируемо. Тогда f удовлетворяет PL-условию, если существует такое µ > 0, что для всех имеет место равномерная невырожденность матрицы Якоби:
, (33)
где
.
Действительно, достаточно написать
.
В качестве Φ(x) может выступать, например, система нелинейных уравнений. В частности, из этого можно получить, что функции Розенброка и Нестерова–Скокова локально удовлетворяют условию Поляка–Лоясиевича.
Обратим внимание, что допущение (33) предполагает d ≥ n. Это верно, если, например, Φ задает перепараметризованную нейронную сеть (более точные рассуждения с опорой на использование структуры нейронной сети см. в [59]).
В некоторых задачах целевая функция обладает PL-условием не на всем пространстве, а только на каком-то множестве. Однако, если траектория вычислительного метода не выводит итеративную последовательность за рамки этого множества, то, конечно, можно применять PL-условие для анализа сходимости метода.
Пример 10 (композиция сильно (строго) выпуклой и линейной функций). В [58] показано, что если функция f имеет вид f(x) = g(Ax), где g — сильно выпукла, то f удовлетворяет PL-условию. Функции данного вида часто возникают в машинном обучении (например, метод наименьших квадратов). Если ослабить условие сильной выпуклости функции g до строгой выпуклости, то функция f также будет удовлетворять PL-условию, однако уже не на всем пространстве, а только на произвольном компакте. Например, из данного факта следует, что целевая функция задачи логистической регрессии
локально (т. е. на всяком компакте) обладает PL-условием.
Приведем также пример функции с условием градиентного доминирования, связанной с теорией оптимального управления. Этот достаточно интересный класс функций с условием градиентного доминирования был получен совсем недавно И.Ф. Фатхуллиным и Б. Т. Поляком в [60].
Пример 11 (см. [60]). Пусть задана линейная система управления
,
где — состояние системы, а — управление; с начальными условиями x(0), распределенными случайно с нулевым средним и ковариационной матрицей Σ (); с критерием качества вида
,
заданным на множестве S с целью найти матрицу обратной связи по состоянию u(t) = −Kx(t), минимизирующую f(K). Тогда, если известен K0 — стабилизирующий регулятор, то градиент ∇f(K) липшицев на множестве уровня , а для f выполнено условие градиентного доминирования со следующей константой µ:
,
где K* — точка минимума f на множестве S. Здесь λi(X) — собственные числа матрицы , занумерованные в порядке возрастания их действительных частей, т. е. Re λ1(X) ≤ Re λ2(X) ≤ Re λm(X).
Отметим, что функция f(K) достаточно гладкая (имеет липшицев градиент), но невыпуклая.
Таким образом, условие Поляка–Лоясиевича верно для достаточно большого класса невыпyклых задач. Тем не менее, оно позволяет обосновать сходимость градиентного метода со скоростью геометрической прогрессии. Приведем оценку скорости сходимости градиентного метода для L -гладких функций с условием Поляка–Лоясиевича. Будем рассматривать задачи минимизации функции f, удовлетворяющей PL-условию (32), а также условию Липшица градиента
. (34)
Справедлива следующая
Теорема 6. Пусть дана задача безусловной оптимизации arg min f(x), где функция f является L-гладкой и удовлетворяет PL-условию с константой µ. Тогда градиентный метод с постоянным шагом 1 / L вида
(35)
имеет линейную скорость сходимости, т. е.
. (36)
Доказательство. В силу L -гладкости функции f
.
Пользуясь правилом обновления (35), получаем
. (37)
Из PL-условия имеем
. (38)
Из (37) и (38) путем преобразований следует
.
Рекурсивное применение последнего неравенства и дает требуемый результат (36). Теорема 6 доказана.
Доказанная верхняя оценка скорости сходимости из теоремы 6 известна уже около 60 лет. До недавнего времени вопрос о ее оптимальности оставался открытым. В последние дни 2022 г. был выложен препринт [61], в котором обоснована оптимальность этой оценки на классе гладких задач с условием Поляка–Лоясиевича.
Отметим, что существует аналог условия Поляка–Лоясиевича для седловых задач, так называемое двухстороннее условие Поляка–Лоясиевича, которое позволяет получить ряд схожих результатов (см. [62]–[64]). Будем рассматривать седловую задачу . Говорят, что функция f(x,y) удовлетворяет двустороннему PL-условию, если существуют такие константы µ1 и µ2, что ∀x,y
Примеры функций, удовлетворяющих двустороннему PL-условию:
- f(x,y) = F(Ax,By), где F(·, ·) — сильно-выпукло-сильно-вогнутая и A, B — произвольные матрицы.
- Невыпукло-невогнутая (µ1 = 1 /16, µ2 = 1 /14) (см. [62]).
- Релаксация задачи Robust Least Squares (RLS):
где M — положительно полуопределена и . RLS минимизирует невязку наихудшего случая при заданном ограниченном детерминированном возмущении δ на зашумленном векторе измерений и матрице коэффициентов . Саму задачу RLS можно сформулировать так (ρ > 0) (см. [65]):
.
Известно, что при λ > 1 F(x, y) удовлетворяет двустороннему PL-условию, поскольку F(x, y) можно представить как комбинацию аффинной функции и сильно-выпукло-сильно-вогнутой функции.
Для седловых задач с двусторонним условием градиентного доминирования может использоваться вариация градиентного метода — метод градиентного спуска-подъема. Этот подход сейчас довольно популярен (см. [62], [63], [66]), но был подробно проанализирован еще в малоизвестной статье Бакушинского–Поляка [67].
Далее, поговорим о поведении градиентного метода (сходимость и возможные правила ранней остановки) для класса достаточно гладких задач с условием градиентного доминирования, когда градиент целевой функции доступен с некоторой погрешностью. Б. Т. Поляк считал важными вопросы исследования влияния погрешностей доступной информации на гарантии сходимости численных методов, занимался ими и уделил им немало внимания в своей книге [2]. Так, этой тематике посвящена одна из его последних работ — [68], о которой мы немного расскажем.
Сфокусируемся на двух основных известных типах неточной информации о градиенте: абсолютной и относительной погрешностях. Типичными примерами областей, в которых возникает данная проблема неточного градиента, являются безградиентная оптимизация, в которой используется приближенно вычисляемый градиент (см. [69]–[71]), а также оптимизация в бесконечномерных пространствах, связанная с обратными задачами (см. [72], [73]).
Начнем с вопроса влияния на качество выдаваемого решения абсолютной погрешности в градиенте. Будем рассматривать задачу минимизации функции f, удовлетворяющей PL-условию (32), а также условию Липшица градиента (34). Считаем, что методу доступно не точное, а приближенное значение градиента в любой запрашиваемой точке x:
при некотором фиксированном ∆ > 0. Тогда (32) означает, что
, (39)
откуда
.
Заметим, что вопросы исследования влияния погрешностей градиента на оценки скорости сходимости методов первого порядка уже достаточно давно привлекают многих исследователей (см., например, [2], [74]–[77]). Однако мы сфокусируемся именно на выделенном классе, вообще говоря, невыпуклых задач. Невыпуклость целевой функции задачи, а также использование на итерациях неточно заданного градиента могут приводить к разным проблемам. В частности, при отсутствии каких-либо правил ранней остановки возможно достаточно большое удаление траектории градиентного метода от начальной точки. Это может быть проблемным, если начальное положение метода уже обладает определенными хорошими свойствами. С другой стороны, неограниченное удаление траектории градиентного метода в случае градиентного метода с помехами может привести к удалению от искомого точного решения. Опишем некоторые ситуации такого типа.
В качестве простого примера не сильно выпуклой функции, удовлетворяющей условию градиентного доминирования, можно рассмотреть
, (40)
где A = diag(L, µ, 0) — диагональная матрица 3-го порядка с ровно двумя положительными элементами L > µ > 0. Если для задачи минимизации функции (40) допустить наличие погрешности градиента v(x) = (0,0,∆) при ∆ > 0, то при x0 = (0,0,0) и hk > 0 последовательность стремится к бесконечности при неограниченном увеличении k. Далее, можно рассмотреть функцию Розенброка двух переменных x = (x(1), x(2))
.
При x0 = (1,1) = x* на каждом шаге градиентного метода возможна такая погрешность градиента v(xk), что и без остановки траектория может уходить весьма далеко от точного решения x*. Аналогично траектория градиентного метода может уходить к бесконечности для целевой функции двух переменных f(x) = (x(2) − (x(1))2)2.
Немного расскажем об одной из последних работ, подготовленных Б. Т. Поляком с соавторами (см. [68]). В этой статье поставлена цель исследовать оценку расстояния ||xN − x0||2 для выдаваемых градиентным методом точек xN и предложить правило ранней остановки, которое гарантирует некоторый компромисс между стремлением достичь приемлемого качества выдаваемого методом решения задачи по функции и не столь существенным удалением траектории от выбранной начальной точки метода. Отметим, что правила ранней остановки в итеративных процедурах активно исследуются для самых разных типов задач. По-видимому, впервые идеология раннего прерывания итераций была предложена в статье [78], посвященной методике приближенного решения возникающих при регуляризации некорректных или плохо обусловленных задач (в упомянутой работе рассматривалась задача решения линейного уравнения). Ранняя остановка в этом случае нацелена на преодоление проблемы потенциального накопления погрешностей регуляризации исходной задачи. К данной тематике примыкают известные подходы, связанные с ранней остановкой методов первого порядка в случае использования на итерациях неточной информации о градиенте (см. [2], гл. 6, параграф 1, а также, к примеру, недавний препринт [77]). Однако известные прежде результаты для выпуклых (не сильно выпуклых) задач отличаются по сравнению с полученным в рассматриваемой работе тем, что обычно гарантируется достижение худшего уровня по функции (если сравнить с комментарием после теоремы 2 параграфа 1 гл. 6 из [2]) или оценки вида без исследования ||xN − x0||2, где — образуемая методом последовательность, x* — ближайшее к точке старта метода x0 точное решение задачи минимизации f.
В предположении доступности значений параметров L > 0 и ∆ > 0 применим к задаче минимизации f градиентный метод вида
. (41)
Тогда ввиду (34) для метода (41) имеем следующие соотношения:
т.е.
. (42)
Суммирование неравенств (42) приводит нас к оценке
, (43)
что указывает на потенциальную возможность расходимости градиентного метода с абсолютной погрешностью задания градиента. Конкретные примеры таких ситуаций описаны выше.
С учетом (32) тогда получаем, что
,
откуда
т. е.
. (44)
Оценки (43) и (44), вообще говоря, неулучшаемы. К примеру, известны нижние оценки уровня точности по функции O(∆2 / (2µ)) для градиентного метода с абсолютной погрешностью задания градиента (см., например, разд. 2.11.1 пособия [37], а также имеющиеся там ссылки) даже на классе сильно выпуклых функций.
В [68] для градиентного метода с постоянным шагом при достаточно малом значении возмущенного градиента получена теорема, в которой указан уровень точности по функции, который возможно гарантировать после выполнения предложенного правила ранней остановки. Данный результат можно применять ко всяким L -гладким невыпуклым задачам. Далее, с использованием PL-условия получено уточнение этого результата — достаточное количество итераций градиентного метода для достижения желаемого качества точки выхода по функции .
Теперь перейдем к ситуации относительной неточности градиента. Будем рассматривать поведения методов градиентного типа для выделенного класса достаточно гладких задач с условием Поляка–Лоясиевича в предположении доступности для метода в каждой текущей точке градиента с относительной погрешностью, т. е.
, (45)
где под , как и ранее, мы понимаем неточный градиент, а α ∈ [0, 1) — некоторая константа, указывающая на величину относительной погрешности градиента. Данное условие на неточный градиент было введено и изучено в [2], [79].
Из (45) можно получить вариант условия градиентного доминирования (32) для относительно неточного градиента
.
Описанную задачу предлагается также решать методом градиентного типа вида
. (46)
Оказывается, что можно подобрать так параметры шагов hk, чтобы гарантировать сохранение результата о сходимости метода со скоростью геометрической прогрессии в случае относительной неточности градиента (хоть и с большим знаменателем).
Если при реализации метода (46) градиент доступен с известной относительной погрешностью α ∈ [0, 1) и известен параметр L > 0, то выбор шага приводит к следующим результатам (см. параграф 1 из пособия [80] и имеющиеся там ссылки):
После подстановки hk (которое, заметим, минимизирует выражение в скобках в последнем выражении) получаем
. (47)
Пользуясь условием Поляка–Лоясиевича (32), имеем следующую оценку на скорость сходимости по функции:
,
т.е.
.
Если вместо PL-условия (32) предполагать выполнение условия сильной выпуклости, то приведенную оценку можно уточнить (см. [80]):
.
В работе [82] предлагается адаптивный алгоритм для случая относительной погрешности градиента. По сути, предлагается критерий выхода из итерации, содержащий норму неточного градиента . Это обстоятельство затрудняет использование подхода с оценками типа (47) для нормы точного градиента. Поэтому рассматривается альтернативный вариант выбора шага для метода (46) с относительной погрешностью задания градиента, который позволит получить приемлемый аналог оценки (47) для квадрата нормы неточного градиента. Аналогично ранее рассмотренным случаям, пользуясь L -липшицевостью градиента и условием (45), можно вывести следующее неравенство (см. [82]):
(48)
Таким образом, при α ∈ [0; 0,5) для адаптивного варианта градиентного метода (46) c
(49)
и критерием выхода из итерации (до его выполнения Lk+1 увеличивается в 2 раза)
(50)
неравенство (48) гарантирует выход из итерации при Lk+1 ≥ L. Тогда оценка скорости сходимости метода (46) c шагом (49) имеет вид
. (51)
Если L0 ≥ 2L, то последнее неравенство означает сходимость рассматриваемого метода со скоростью геометрической прогрессии
Отметим, что оценка (51) может быть применима в случае неизвестного значения L. Кроме того, даже в случае известной оценки на L потенциально возможно улучшение качества точки выхода метода при условии Lk+1 < L.
3.2. Метод условного градиента (Франк–Вульфа–Левитина–Поляка)
В этом пункте мы вспомним о направлении научных исследований Б. Т. Поляка, связанном с методами условного градиента. К примеру, таким методам посвящена достаточно известная работа [10]. Несмотря на то что методы условного градиента по числу итераций проигрывают оптимальным на классе выпуклых гладких задач ускоренным методам (см. п. 3.3) для решения задач со структурой (например, на единичном симплексе или прямом произведении таких симплексов), по времени работы эти методы могут быть существенно эффективнее ускоренных из-за возможной дешевизны итерации (см. [83]–[86]). На данный момент методы условного градиента достаточно хорошо разработаны (см., например, обзорную статью [87] и монографию [88]). В частности, среди последних достижений можно отметить безградиентные варианты метода условного градиента для задач стохастической оптимизации (см. [89]), а также вариант метода условного градиента для децентрализованных оптимизационных задач на меняющихся графах (см. [90]).
Рассмотрим задачу выпуклой оптимизации (f(x) — выпуклая функция, Q — ограниченное выпуклое множество):
. (52)
Обозначим решение задачи (52) через x* (если решение не единственно, то x* — какое-то из решений).
Algorithm 3. Метод условного градиента (см. [10], [88])
Require: f — выпуклая, непрерывно дифференцируемая функция; Q — допустимое множество, выпуклое и компактное; x1 — начальная точка; N — количество итераций.
Ensure: точка xN
1: for do
2:
3:
4:
5: end for
6: return xN
Теорема 7 (см. [10], [88]). Пусть ∇f(x) удовлетворяет на Q условию Липшица с константой L по отношению к некоторой норме ||·||: для всех x, y ∈ Q выполняется
, , для k ≥ 1. Тогда для любого N ≥ 2 выполняется
. (53)
Доказательство. Из условия Липшица на градиент f(x) и выпуклости f(x) имеем оценку
для всех x, y ∈ Q. Получаем цепочку неравенств
Введем обозначение . Тогда неравенство можно переписать в виде
.
Начиная с неравенства
,
применением индукции по k получаем желаемый результат. Теорема 7 доказана.
Как видим из предыдущего результата, при получении оценки скорости сходимости метода условного градиента не важен выбор конкретной нормы. Важно, чтобы параметры L и R оценивались относительно согласованных норм ||·|| и ||·||*.
Следуя [2], покажем, что оценка (53) не может быть улучшена (с точностью до числового множителя). Для этого выберем , . Тогда x* = (0, 0)T. При этом yk = (1, 0)T при и yk = (–1, 0)T при . Несложно показать, что для этого примера . Причем эта ситуация типична для случая, когда Q — многогранник, а минимум достигается в одной из его вершин, поскольку в качестве yk могут выступать лишь вершины Q.
Отметим также, что в рассматриваемой работе Левитина–Поляка [10] впервые для метода условного градиента появилась идея использовать параметр шага, зависящий от константы Липшица градиента целевой функции L. В современных работах [87], [88], [91] такой шаг обычно применяют в виде
, (54)
где L — константа Липшица ∇f. Размер соответствующего шага может рассматриваться как результат минимизации квадратичной модели mk(·; L), переоценивающей f вдоль прямой ,
(55)
где последнее неравенство следует из стандартной леммы о спуске. Интерес такого выбора шага для метода Франк–Вульфа заключается, в частности, в возможности предложить достаточные условия убывания на итерации невязки по функции не менее, чем в 2 раза. Точнее говоря, согласно лемме 2 из [87] для всякой выпуклой функции f в случае, если на k -й итерации в (55) верно γk = 1, то верно неравенство
. (56)
При введении дополнительного условия на функцию, например, градиентного доминирования, для шага вида (54) можно получить и результаты о сходимости метода типа условного градиента со скоростью геометрической прогрессии. Например, известен такой результат для выпуклых функций с условием Поляка–Лоясиевича (см. [87]). При этом такие функции могут не быть сильно выпуклыми (например, целевая функция из задачи логистической регрессии не сильно выпукла, но удовлетворяет условию градиентного доминирования на всяком компакте, см. [58]).
Теорема 8. Пусть Q — компактное выпуклое множество диаметра R, а f — выпуклая функция, удовлетворяющая условию градиентного доминирования с константой µ > 0. Пусть также существует точка минимума f, и она лежит во внутренности множества Q (x* ∈ Int(Q)), т. е. существует r > 0 такой, что B(x*, r) ⊂ Q. Тогда при любых k ≥ 1 верно
,
где
и c2 = 1 / (2µ). Таким образом, имеет место сходимость по функции со скоростью геометрической прогрессии, знаменатель которой в худшем случае равен .
Отметим, что недавно в работе [91] доказан аналог теоремы 8 для варианта метода условного градиента с адаптивным подбором шага.
Что касается метода условного градиента, исследованного в самой работе Левитина–Поляка [10], то обратим внимание на две отмеченные там его особенности. Первая из них касается нижней оценки скорости сходимости такого метода. Точнее говоря, в замечании 1 на с. 805 [10] отмечено, что оценка O(1 / k) невязки по функции неулучшаема с точностью до константы на классе выпуклых гладких функций f. Для того времени рассуждения на тему нижних оценок были редки, поскольку направление исследований численных методов оптимизации, основанное на нижних оценках их эффективности для классов задач, зародилось несколько позднее в монографии [52]. Вторая особенность метода условного градиента, отмеченная впервые в [10], касается повышения скоростных гарантий не путем накладывания дополнительных условий на целевую функцию, а посредством сужения класса допустимых множеств задачи Q. Например, при добавлении требования, что множество Q является сильно выпуклым. Множество Q называется сильно выпуклым, если существует функция (γ > 0) такая, что для любых x, y ∈ Q и любого z: . Существуют эквивалентные определения сильной выпуклости множества. Например, как было показано в [92] (теорема 1 на стр. 190), множество является сильно выпуклым тогда и только тогда, когда оно представимо в виде пересечения шаров одного радиуса. Более подробно см. на с. 789 [10], а также в [92]–[94], метод сходится по аргументу со скоростью геометрической прогрессии при условии, что на Q.
Исследование разных вариантов метода условного градиента продолжается и в настоящее время (см. [87], [88], [91], [95]). В работе [95] имеется обзор результатов последних лет по оценкам сложности для метода Франк–Вульфа, предложен универсальный (адаптивный по параметру гладкости задачи) вариант метода для задач с равномерно выпуклой структурой. В [91] адаптивный вариант метода Франк–Вульфа с шагом (54) исследуется для выпуклых задач (вообще говоря, без равномерной структуры), причем детально проработан соответствующий аналог оценки (56).
3.3. Ускоренные методы выпуклой оптимизации
Для наглядности изложения рассмотрим задачу безусловной выпуклой оптимизации
, (57)
в которой выполняется условие L-липшицевости градиента в 2 -норме (см. (34)), а x — принадлежит гильбертову пространству. Также для наглядности будем опускать числовые множители в оценках скорости сходимости.
В кандидатской диссертации Б. Т. Поляка в 1963 г. (см. также [8]) было показано, что градиентный спуск на такой задаче
будет сходиться следующим образом:
,
где — расстояние от точки старта до ближайшего (в 2 -норме) к точке старта решения x* задачи (57) (не ограничивая общности, везде в п. 3.3 можно считать, что все константы, типа L и µ, определены на шаре с центром в точке x0 и радиусом 2R, см. [51], [80]). Оптимальная ли эта оценка? Оказывается, что, даже если выбирать шаг метода h = 1 / L как-то по-другому, улучшить такую оценку на рассматриваемом классе задач можно только на числовой множитель порядка 4 (см. [96]). Однако это совсем не означает, что если рассмотреть какой-то другой метод градиентного типа, то на нем также нельзя будет получить существенно лучшую оценку скорости сходимости. Действительно, как минимум на квадратичных задачах выпуклой оптимизации метод сопряженных градиентов (первая итерация совпадает с итерацией типа градиентного спуска, аналогично и для приводимых далее моментных методов)
, (58)
где
,
дает существенно лучшую оценку скорости сходимости (при дополнительных предположениях о распределении спектра матрицы квадратичной формы оценка может быть дополнительно улучшена, см. [97]):
. (59)
Наиболее тонкое исследование скорости сходимости метода сопряженных градиентов (58) (в том числе в условиях неточностей) имеется в [98]. Стоимость итерации такого метода (ввиду возможности решить задачу поиска αk и βk аналитически для квадратичных задач) будет по порядку такой же, как стоимость итерации градиентного метода. Аналогичные оценки можно написать и для µ-сильно выпуклых задач:
(60)
для градиентного спуска и
(61)
для метода сопряженных градиентов (58) на квадратичной задаче.
Заметим, что одна из форм записи метода сопряженных градиентов (58) в случае µ-сильно выпуклой целевой функции приводит к методу Чебышёва (см. [99]):
(62)
Метод тяжелого шарика Поляка (или импульсный / моментный метод Поляка) (см. [9]) при этом выглядит так:
. (63)
Этот метод получается в асимптотике k → ∞ из метода Чебышёва (62), поскольку
,
следовательно,
.
Приведенный вывод (с учетом оптимальности метода Чебышёва на квадратичных задачах) дает надежду, что метод тяжелого шарика (63) в некотором смысле асимптотически оптимальный. Оказывается, что “в среднем” так оно и есть (см. [100]).
Исходно метод тяжелого шарика (63) был получен с помощью первого метода Ляпунова (см. [2]), который сводит анализ скорости локальной сходимости метода на классе выпуклых задач к анализу скорости глобальной сходимости для квадратичных выпуклых задач. Б. Т. Поляк подбирал коэффициенты α и β постоянными. Подобранные коэффициенты гарантировали локальную скорость сходимости метода (63), аналогичную скорости сходимости метода сопряженных градиентов (61). Отметим, что при этом имеется некоторая физическая аналогия в полученном таким образом методе (63) с овражным методом Гельфанда–Цетлина (см. [101]). Однако, как показал последующий анализ метода тяжелого шарика (63), в общем случае нельзя гарантировать его глобальную сходимость (см. [102]). Ее можно добиться за счет некоторых дополнительных предположений (о гладкости), но скорость глобальной сходимости получалась уже не лучше, чем у обычного градиентного спуска (см. [103]), причем то, что лучше и не получится, удалось доказать (см. [104]). Также на примере тяжелого шарика (63) хорошо демонстрируется общая особенность ускоренных методов — немонотонное убывание целевой функции по ходу итерационного процесса и наличие циклов длин (после каждого цикла невязка по функции убывает в ∼2 раза). Изящное объяснение этому явлению можно найти в [105], [106].
Метод тяжелого шарика (63) сыграл очень важную роль в развитии ускоренных методов выпуклой оптимизации. Общее направление исследований тут можно описать как попытку сделать такую версию метода сопряженных градиентов, для которой бы удалось доказать глобальную оценку скорости сходимости, аналогичную приведенным выше, для обычного метода сопряженных градиентов на квадратичных задачах. Так родились, например, методы Флетчера–Ривса, Полака–Рибьера–Поляка (см. [12]). Точку здесь удалось поставить А. С. Немировскому в конце 70-х годов прошлого века (см. [52], [107]), попутно показав, что полученные оценки скорости сходимости (59) и (61) уже не могут быть дальше улучшены никакими другими методами, использующими градиент целевой функции (улучшить немного можно лишь числовой множитель). То есть получилось, что сложность класса гладких задач (сильно) выпуклой оптимизации с точностью до числовых множителей совпадает со сложностью аналогичных классов задач (сильно) выпуклой квадратичной оптимизации. Отметим, что для распределенной оптимизации (а точнее, федеративного обучения) недавно было обнаружено, что такая аналогия уже не имеет места (см. [108], [109]). Отметим также, что ускоренные методы А. С. Немировского (известно как минимум три таких метода) требовали на каждой итерации решение вспомогательной маломерной задачи оптимизации. Избавиться от этого удалось в кандидатской диссертации Ю. Е. Нестерова (научным руководителем был Б. Т. Поляк) в 1983 г. (см. [110]):
. (64)
Такой ускоренный (моментный) метод Нестерова будет сходиться аналогично (61) уже глобально на классе гладких µ-сильно выпуклых задач (аналогично можно предложить вариант метода и для выпуклых задач в (64)). Отметим, что недавно были предложены (см. обзор [99]) такие варианты ускоренного метода Нестерова (с аналогичными по порядку трудозатратами на каждой итерации), для которых удалось доказать, что их скорость сходимости в выпуклом и сильно выпуклых случаях оптимальны (без оговорки “с точностью до числового множителя”) на классе градиентных методов выпуклой оптимизации, использующих всевозможные линейные комбинации полученных на предыдущих итерациях градиентов (в том числе допускается вспомогательная минимизация на подпространствах, натянутых на полученные градиенты). Например, в µ -сильно выпуклом случае оптимальный алгоритм выглядит таким образом.
Algorithm 4. Ускоренный метод Тейлора–Дрори (см. [99])
Require: f — µ-сильно выпуклая функция с L-липшицевым градиентом, точка старта x0.
1: SET:
2: for do
3:
4: и
5:
6:
7:
8: end for
9: return zN
Как ни странно, в 1983 г. статья Ю. Е. Нестерова не вызвала какого-то большого ажиотажа. О ней вспомнили лишь спустя 20 лет уже в новом столетии, когда размеры новых задач, которые требовалось решать в анализе данных, позволяли использовать только градиентные методы (а не, скажем, методы внутренней точки) или их стохастические варианты. Во многом этому способствовало появление в 2004 г. первого издания лекций Ю. Е. Нестерова по выпуклой оптимизации (см. [51]), в которых центральную роль как раз и заняло современное (на тот момент) изложение ускоренных методов. Собственно, вот уже 20 лет идет настоящий бум ускоренных методов (см., например, [51], [111], [112]). Новые тонкие результаты о сходимости таких методов появляются и по сей день (см., например, [113]). Отметим, что ускоренные методы предложены для задач с ограничениями, с более общим понятием проектирования (неевклидова), для задач со структурой (в условиях модельной общности), в условиях неточности градиента и неточности проектирования (см. [75], [114]–[116] и цитированную тут литературу). Например, в малоизвестной работе Б. Т. Поляка [14] было показано, что при наличии малого (сколь угодно малого, но фиксированного по масштабу) аддитивного враждебного шума в градиенте (см. [2])
нельзя гарантировать сходимость градиентного спуска. Более того, можно привести пример, когда он будет расходиться. Однако за счет ранней остановки можно решить данную проблему (см. также работу [98], в которой обсуждается ранняя остановка для метода сопряженных градиентов в условиях неточной информации). В частности, аналогичный результат имеет место и для ускоренных методов. Грубо говоря, можно показать, что по аналогии с (59) имеет место
до тех пор (для таких N), пока первое слагаемое не станет меньше второго. В момент, когда это произойдет, нужно останавливать метод, иначе он может уже начать расходиться. При этом, если концепция шума относительная (см. [2]):
,
где α ∈ [0, 1), то, в отличие от неускоренных методов (см. п. 3.1), для ускоренных возможность сохранения порядка скорости сходимости остается только при достаточно малых α для сильно выпуклых задач и должным образом убывающих на итерациях αk для выпуклых задач (см. [116], [117]).
Сложно переоценить роль ускорения в современной оптимизации. Практически все современные методы решения задач больших размерностей (в том числе для многих невыпуклых задач) используют ускорение. Ускорение можно дополнительно структурировать. Например, задачу вида
,
в случае когда f(x) — есть µf-сильно выпуклая и Lf-гладкая, а g(x) — есть µg-сильно выпуклая и Lg-гладкая, можно решить с относительной точностью ε за вычислений ∇f и вычислений ∇g (см. [111], [118]). Если использовать стандартное ускорение (не учитывая структуру задачи), то согласно (61) удалось бы получить только такой результат: вычислений ∇f и ∇g, что, очевидно, может быть хуже. Задачу вида
,
в случае когда f(x, y) — выпуклая функция по совокупности аргументов, µx-сильно выпуклая и Lx -гладкая по x, а также µy-сильно выпуклая и Ly-гладкая по y, можно решить с относительной точностью ε за вычислений ∇xf и вычислений ∇yf (см. [119]). Если использовать стандартное ускорение (не учитывая структуру задачи), то (при некоторых дополнительных оговорках) согласно (61) удалось бы получить только такой результат: вычислений ∇xf и ∇yf, что также может быть хуже.
Более того, недавно были получены нетривиальные варианты ускоренных методов для седловых задач со структурой (см. [120]). Например, если рассматривается задача
,
где p(x), q(y) — выпуклые и Lp, Lq-гладкие функции, а F(x, y) — LF -гладкая, µx -сильно выпуклая и µy -сильно вогнутая, то существует такой ускоренный метод, который решит задачу с относительной точностью ε по зазору двойственности (см. [121]) за
вычислений ∇p(x), ∇q(y) и
вычислений ∇F(x, y).
Начиная с пионерской работы Ю. Е. Нестерова и Б. Т. Поляка 2006 г. [7] в нескольких ведущих мировых центрах по оптимизации стали активно разрабатываться тензорные методы (методы, использующие старшие производные). В частности, в [122] было показано, что при естественных условиях тензорные методы второго и третьего порядка (использующие производные второго и третьего порядка) могут быть реализованы практически с той же стоимостью итерации, как у метода Ньютона. Оптимальные (с точностью до числовых множителей) ускоренные тензорные методы были предложены в работах [51], [123]–[127]. Например, оптимальный тензорный метод, использующий производные порядка r ≥ 2, при условии, что целевая функция µ -сильно выпуклая и тензор r -х производных Mr-липшицев, для достижения относительной точности ε требует
итераций (вычислений старших производных). При этом при r = 2, 3 трудозатратность каждой итерации оптимальных методов практически такая же, как и у метода Ньютона. Отметим, что итерационная (оракульная) сложность (необходимое число итераций) во втором слагаемом отвечает локальной итерационной сложности метода Ньютона. Проблема с методом Ньютона только в том, что нужно оказаться в окрестности квадратичной скорости сходимости. Первое слагаемое в приведенной оценке как раз отвечает за время попадания в эту окрестность. Обратим внимание, что, даже если доступны старшие производные высокого порядка (r — большое) и целевая функция достаточно гладкая, то второе слагаемое остается по порядку неизменным. Это означает, что локальная скорость сходимости метода Ньютона по порядку оптимальна в классе всевозможных численных методов оптимизации (см. [52]).
Из написанного выше может создаться впечатление, что ускорение возможно заточить под структуру любой гладкой задачи. В п. 3.1 отмечалось, что если вместо (сильной) выпуклости имеет место условие Поляка–Лоясиевича, то в общем случае ускорение невозможно. Кажется, что если ограничиться только (сильно) выпуклыми постановками, то ускорение всегда можно сделать. Как правило, так оно и есть. Но имеются такие постановки выпуклых задач, в которых доказано, что ускорение в общем случае также невозможно. К таким примерам относится задача получения для гладких выпуклых задач оптимальных (по числу коммуникаций и оракульных вызовов — вычислений градиентов) децентрализованных ускоренных методов на меняющихся графах. Децентрализованная оптимизация (см. [128], [129]) является частью распределенной оптимизации. Отметим, что одна из первых работ по распределенной оптимизации была у аспиранта Б. Т. Поляка в конце 70-х годов прошлого века (см. [130]). Бурно развивающийся подраздел распределенной оптимизации — децентрализованная оптимизация на меняющихся со временем графах (см. [131]). Оказывается (см. [132]), что в оценке числа коммуникаций невозможно в общем случае ускорение, потому как входит худшее (на итерациях) число обусловленности коммуникационного графа (если бы граф не менялся, ускорение было бы возможно за счет ускоренного консенсуса — чебышёвское ускорение). Несмотря на приведенный пример, все же во всех известных современных постановках выпуклых гладких задач (с различной структурой), как правило, удается добиться ускорения, учитывающего данную структуру. Причем основные продвижения здесь были получены буквально в последние десять–пятнадцать лет.
Также может показаться, что уже не осталось открытых вопросов, и на все вопросы для задач гладкой выпуклой оптимизации получены ответы. На самом деле это не так. Например, в упомянутой ранее седловой задаче со структурой открытым остается вопрос о возможности дополнительного разделения оракульных сложностей по числу вызовов ∇p(x) и ∇q(x). Но можно не опускаться в такие частности и заметить, что даже для самой обычной задачи гладкой сильно выпуклой оптимизации до сих пор не предложен ускоренный метод, адаптивный по всем параметрам µ, L. При этом в классе неускоренных методов наискорейший спуск решает данную проблему (см. также [133]). К сожалению, адаптивный метод сопряженных градиентов в форме (58), как уже отмечалось, не обязан сходиться с желаемой скоростью на классе (сильно) выпуклых гладких задач. И хотя сейчас есть кандидаты (адаптивные ускоренные методы), которые, возможно, обладают желаемыми свойствами (см. [134]), однако пока это не удалось строго доказать.
МЕТОДЫ СТОХАСТИЧЕСКОЙ ОПТИМИЗАЦИИ
Задачей стохастической оптимизации называется задача вида
, (65)
в которой можно в любой точке x вызвать оракул (подпрограмму), выдающий ∇f(x,ξ) с новой независимой реализацией ξ (допускается вызов оракула в одной точке x многократно — см. далее батчирование). При этом . Целью является найти ε -приближенное решение задачи (65) (по функции f(x)) за наименьшее число вызовов оракула. Без преувеличения можно сказать, что современный анализ данных в алгоритмической своей части — это решение соответствующих задач стохастической оптимизации (см. [135]).
4.1. Стохастический градиентный спуск
По аналогии с градиентным спуском для решения (65) естественно рассматривать так называемые стохастические градиентные спуски (SGD) (см. [136], [137]):
, (66)
где πQ — обычное (евклидово) проектирование на множество Q, а ξk выбирается независимо от ξ0,..., ξk−1.
Если f(x) — выпуклая, то, выбирая , можно получить
,
где (если x* не единственное, то в этой формуле можно выбирать ближайшее по 2-норме к x0), при x ∈ Q (можно сузить на пересечение Q с некоторым шаром с центром в x0 и радиусом порядка 2R, см. [138], — аналогичное замечание можно делать и относительно всех остальных констант, вводимых далее), . Если f(x) — µ-сильно выпуклая функция, то, выбирая , можно получить
. (67)
Приведенные оценки в общем случае (без дополнительных предположений) не могут быть улучшены (см. [52]). То есть не существует другого способа агрегирования выборки , который давал бы оценки лучше (с точностью до числового множителя) приведенных. Для невыпуклой f(x) гарантировать сходимость к глобальному минимуму уже нельзя. Тем не менее, на практике (66) и его вариации активно применяются и для невыпуклых задач, например, для обучения нейронных сетей.
Отметим, что для , видоизменив сам метод (66), при некоторых дополнительных условиях результат (67) можно уточнить следующим образом (см. [139], приведенная оценка также будет неулучшаемой):
, (68)
где . Собственно, в этом месте остановимся, чтобы поподробнее рассказать о вкладе Б. Т. Поляка в получение такого рода результатов. В 70-е годы прошлого века Б. Т. Поляк совместно с Я. З. Цыпкиным исследовал следующие псевдоградиентные процедуры стохастического агрегирования (т. е. алгоритмы решения задачи (4)):
,
в которых за счет выбора вектор-функции Φ(z) хотелось получить как можно лучшую скорость сходимости. Базируясь на результатах [140], в работе [13] при аддитивном шуме удалось показать, что оптимальным будет такой выбор: , где pξ(z) — функция плотности распределения случайного вектора ξ, а информационная матрица Фишера считается по формуле . Под оптимальностью понимается следующее: при N → ∞ имеет место центральная предельная теорема (ЦПТ) в форме
,
и при указанном выше способе выбора Φ(z) ковариационная матрица наименьшая (в смысле полуопределенного отношения частичного порядка).
Однако во многих реальных приложениях плотность распределения pξ(z) неизвестна. Поэтому использовать ее при выборе Φ(z) нежелательно. Это приводит к корректировке оптимальной процедуры и корректировке основного результата (ЦПТ): при N → ∞
. (69)
Здесь использовалось, что ∇f(x*) = 0. Отметим, что аддитивность шума ξ при этом не требуется. Этот результат также будет оптимальный в классе методов без доступа к pξ(z) . Однако даже в такой формулировке результат едва ли можно назвать практичным, поскольку для задания Φ(z) требуется знать ∇2f(x*), что возможно, в основном, только для задач квадратичной стохастической оптимизации. Ключевое наблюдение, позволяющее решить отмеченную проблему, пришло в голову Борису Теодоровичу в конце 80-х годов во сне, и оказалось удивительным по простоте (см. [5], [6]): Φ(z) = z, γk ∼ k−η, η ∈ (1 / 2, 1), и в качестве выхода алгоритма предлагается использовать не xN, а . В этом случае (69) (с заменой xN на ) останется верным. Таким образом, было показано, как избавиться от типично недоступного предобуславливателя [∇2f(x*)]–1. Аналогичное можно проделать и для стохастических вариационных неравенств (см. [141]). Асимптотический вариант (68) очевидным образом получается из (69). Получение неасимптотического варианта требует больших усилий (на появление первых таких результатов ушло еще более 20 лет, см. [142]).
Отметим, что близкая идея (однако реализованная в существенно меньшей общности) использования вместо xN независимо была приблизительно в то же время предложена и на западе Д. Руппертом (см. [143]).
Для ряда постановок задач, например, когда множество Q является симплексом, выгоднее (с точки зрения того, как в итоговую оценку будет входить размерность n посредством M и R) использовать неевклидово проектирование (в частности, для симплекса лучше использовать проектирование согласно дивергенции Кульбака–Ляйблера, которое приводит к экспоненциальному взвешиванию компонент стохастического градиента). Соответствующие обобщения SGD принято называть стохастическим методом зеркального спуска (stochastic mirror descent — SMD) (см. [52], [144]). Проблему неадаптивного выбора шага γk (требуется заранее знать N) в выпуклом случае решает вариация SMD — стохастический метод двойственных усреднений (stochastic dual averaging method) (см. [145]). Однако более изящно проблема выбора шага решается в AdaGrad версии SGD (см. [146]), в которой
.
При таком выборе шага не требуется и знание глобальной константы M. В современных работах избавляются также и от зависимости R в шаге (класс Parameter-free SGD, к которому относятся, например, DoG [147] и конструкция Mechanic [148]). К сожалению, в общем сильно выпуклом случае пока неизвестно, как можно было бы избавиться от необходимости знания µ (продвижения имеются лишь в частных случаях, например, когда f(x*) известно). Напомним, что аналогичная проблема была и для ускоренных детерминированных методов (см. конец п. 3.3).
В случае, если дополнительно известно, что функция f(x) — гладкая (имеет липшицев градиент), то SGD можно существенно ускорить за счет батч-параллелизации (замены стохастического градиента на выборочное среднее стохастических градиентов на независимых реализациях):
,
где ξi — независимые одинаково распределенные, как ξ, а b ≥ 1 — размер батча, который можно вычислять параллельно. Действительно, рассмотрим, следуя Б. Т. Поляку [2], более точную оценку скорости сходимости SGD в гладком случае (в [2] используется глобальная оценка дисперсии Σ2, однако несложно показать, что достаточно использовать введенную далее дисперсию в решении Σ*2, см., например, [149]):
, (70)
где , , . Несложно также показать, что при выборе за счет батчирования () можно выравнять оба слагаемых в правой части (70) и получить такую версию (60) (тут N — число вычислений ∇f(x, ξ)):
.
При этом для ожидаемой невязки по функции можно получить оценку
. (71)
Отметим, что в последнее время в связи с обучением нейронных сетей огромных размеров возникает потребность в изучении роли перепараметризации, что можно сформулировать как малость дисперсии . Современное состояние развития этого направления для неускоренных стохастических градиентных методов описано, например, в [150]. Малость означает линейную скорость сходимости в небольшую окрестность решения. Такую картину, наверняка, многие наблюдали на практике, решая задачи обучения. А именно, если выбирать шаг γ (learning rate) достаточно большим, то в ряде случаев можно наблюдать линейную скорость сходимости SGD. Но чем больше шаг γ, тем больше окрестность, внутри которой метод перестает сходиться. Для дальнейшего продвижения требуется уменьшение шага или батчирование.
Многое из того, что написано выше, без каких-то существенных изменений переносится и на стохастические вариационные неравенства (седловые задачи) (см., например, обзор [121], написание которого было инициировано Б. Т. Поляком летом 2022 г.). Насколько нам известно, этот обзор, по-видимому, является последней научной работой Бориса Теодоровича.
4.2. Ускоренные версии стохастического градиентного спуска
Прежде всего заметим, что (71) в форме
,
где
,
справедливо при более слабом предположении о липшицевости градиента
.
В таких же условиях можно улучшить (ускорить) оценку (71), если за основу брать ускоренный детерминированный метод и заменять в нем градиент на должным образом пробатченный стохастический градиент (см., например, [26], [111], [151], простое изложение имеется в [80], [152]) (следует сравнить с (61)):
. (72)
Аналогично для выпуклого случая (следует сравнить с (59))
. (73)
Если дополнительно известно, что
,
то приведенные оценки можно уточнить следующим образом (см. [153], [154]) (здесь, как и раньше, b — размер батча, только сейчас мы явно его прописываем, поскольку батчированию тут поддаются слагаемые, не только содержащие ):
Причем все приведенные выше оценки в п. 4.2 имеют место и для задач с ограничениями простой структуры, и для неевклидова проектирования. Более того, все эти оценки оптимальны, т. е. не могут быть в общем случае улучшены (с точностью до числовых множителей, в том числе в показателе экспоненты).
Также, как и для обычного SGD, на практике большую роль играет адаптивность метода. Добавление различных вариантов моментного ускорения к адаптивным методам (типа AdaGrad), упомянутым в п. 4.1, порождает популярную линейку современных методов типа Adam, AdamW, RMSProp, AdaDelta и т. д., активно использующихся для обучения нейронных сетей. Для выпуклых постановок задач имеется и теоретическое обоснование (см. [155], [156]). Однако вопрос о создании полностью адаптивного ускоренного метода для решения задач выпуклой стохастической оптимизации, насколько нам известно, пока окончательно еще не решен.
В предположении отметим концепцию мультипликативных помех, развиваемую в работах Б. Т. Поляка в 70—80-е годы прошлого века (см. [2], [3]). На современный манер условие, которому удовлетворяют введенные помехи, можно было бы называть условием сильного роста (strong growth):
. (74)
Такому условию в гладком случае, например, удовлетворяют координатные методы (см. [157]), где рандомизация в стохастическом градиенте возникает за счет случайного выбора координаты, по которой считается частная производная вместо вычисления полного градиента, при этом можно выбирать сразу несколько координат (батч) и сэмплировать не обязательно равномерно, а исходя из свойств производных по направлению (см. [158], [159]). Также под неравенство (74) подходят градиенты, к которым применяется оператор сжатия (см. [160]). Такого рода рандомизация используется в распределенной оптимизации для передачи меньшего числа информации. К примерам операторов сжатия относятся и уже упомянутый выше случайный выбор координат, различные рандомизированные квантизации и округления (см. [161]).
Для неускоренных методов, использующих стохастический градиент вида (74), начало построения теории было заложено в уже упомянутых работах [2], [3]. В связи с активным развитием машинного обучения стохастические методы оптимизации стали широко исследоваться в сообществе, в частности, было переоткрыто и предположение сильного роста (см. [162]). На данный момент для неускоренных методов, например для классического SGD вида (66), имеется хорошо разработанная теория сходимости (см., например, обзорную работу [150]). В частности, для L-гладкой выпуклой целевой функции f справедлива следующая оценка скорости сходимости после N итераций SGD:
,
где . Если функция является не просто выпуклой, а µ-сильно выпуклой, то можно улучшить оценку и получить, что
.
Для ускоренных вариантов теория немного беднее, но основные результаты уже были получены (см. [163]). Отметим, что классический ускоренный метод (см. [110]) не подходит для такой постановки (74) и необходимо использовать дополнительный моментный член (momentum term) (см. [157], [163]). Тогда в предположении о L-гладкости и выпуклости функции f можно получить следующую оценку скорости сходимости:
,
а для µ-сильно выпуклой функции
.
Отметим, что приведенные результаты удалось с некоторыми оговорками и ослаблением перенести на марковский шум (см. [164]).
Между тем легко заметить, что предположение (74) можно релаксировать до условия слабого роста (weak growth):
. (75)
Если выполнено (74), то для выпуклой и L-гладкой функции ρwg = 2ρsg и σwg = σsg. Условие (75) является не менее распространенным. В частности, одним из популярных примеров применимости (75) является гладкость в среднем, а именно, нам необходимо предположить, что для любой реализации ξ функция f(·, ξ) является L(ξ)-гладкой и выпуклой, и отсюда получить
(76)
где . Отметим, что константа может быть значительно хуже, чем L — константа гладкости (липшицевости градиента) f. Выкладка (76) является самым популярным в литературе примером предположения (75). В частности, оно появляется в работе [165], где авторы прежде всего мотивируются классической задачей наименьших квадратов. В дальнейшем исследование предположений (75) и (76) было обобщено на неравномерную рандомизацию, которая учитывает свойства батчей. В [166] предлагается довольно исчерпывающая теория для рандомизации вида (76) с разбором большого числа частных случаев. А именно, классический SGD (66) для выпуклой целевой функции f имеет следующие гарантии сходимости:
.
Если функция является дополнительно µ -сильно выпуклой, то можно получить, что
.
Говоря о предположениях (74) и (75), важно заметить, что для многих частных случаев σsg и σwg равны 0, а это может значительно улучшить гарантии сходимости. Здесь можно отметить популярные и довольно часто встречающиеся примеры перепараметризации (∇f(x, ξ) = 0 для всех ξ) (см. [163]) и интерполяции (∇f(x, ξ) ≥ 0 и ∇f(x, ξ) = 0 для всех x и ξ) (см. [167]). Также для упомянутых выше координатных методов справедливо, что σsg = 0. Но для самых простых методов со сжатием σsg ≠ 0. Это мотивировало сообщество создать более продвинутые методы, использующие компрессию (см. [168]). Но стохастический градиент в данных подходах не получается описать с помощью (74) и (75). Можно ввести более сложное предположение (см. [169]):
С помощью него можно унифицировано анализировать не только многие современные методы со сжатием, но и популярные алгоритмы, использующие технику редукции дисперсии (см. [170]–[172]), а также продвинутые координатные методы (см. [173]). Важной деталью данного предположения является наличие вспомогательной последовательности , которая является уникальной для каждого метода. Эта последовательность обладает важным свойством сходимости, которое и позволяет рассмотреть функцию Ляпунова, состоящую из двух частей: классической вида или f(xk) – f(x*) и дополнительной, завязанной на . Например, для µ-сильно выпуклой функции метод SGD (66) с постоянным шагом γk = γ таким, что
может гарантировать следующую оценку сходимости (см. [169]):
,
где
.
Похожие результаты имеются и для выпуклой целевой функции f (см. [174]), а также для стохастических вариационных неравенств и седловых задач (см. [175], [176]). Насколько нам известно, на данный момент в условиях слабого роста не известно, можно ли добиться ускорения, и если можно, то каким образом.
Наряду с предположениями (74) и (75) можно рассмотреть и похожее условие вида
.
Касательно него можно выделить работы [132], [164], [177], [178].
Все приведенные выше результаты формулировались в терминах сходимости по математическому ожиданию. Для такой сходимости было достаточно ограниченности второго момента стохастического градиента. В действительности за счет клиппирования на базе описанных методов можно строить робастные версии, которые гарантированно сходятся с такой же скоростью, но уже в терминах вероятностей больших отклонений, причем имеет место почти субгауссовская концентрация (см. [138], [179], [180]). Заметим, что идея клиппирования (нормализации градиента), как способ борьбы с тяжелыми хвостами, в скалярном случае n = 1, по-видимому, впервые появилась в 1973 г. в работе Б. Т. Поляка и Я. З. Цыпкина [181] как частный случай того, как можно выбирать функцию в псевдоградиентной процедуре из п. 4.1. Отметим, что результаты Поляка–Цыпкина, кратко описанные в п. 4.1, недавно были перенесены как раз на постановки задач, в которых аддитивный шум ξ имеет тяжелые хвосты распределения, в том числе не предполагающие наличие конечной дисперсии у шума (см. [182]).
В заключение отметим, что недавно ускоренные версии тензорных методов типа Нестерова–Поляка были распространены на достаточно гладкие задачи стохастической оптимизации. В частности, для методов второго порядка полученные результаты оптимальны по числу вызовов стохастических градиентов и числу вызовов стохастических гессианов (см. [183]).
4.3. Безградиентные методы
Частным случаем стохастики ξ в ∇f(x, ξ) может быть рандомизация, которая не “дана извне”, а привнесена нами самими. Введение в метод рандомизации может иметь разные причины. Например, ярко об этом написано в статье Ю. Е. Нестерова про покомпонентные методы [157] или в фундаментальной статье А. С. Немировского и др. [144] в части рандомизации умножения матрицы на вектор из единичного симплекса. Но, пожалуй, самый известный пример рандомизации в стохастической оптимизации — это рандомизация суммы: для целевого функционала вида взвешенной суммы в качестве стохастического градиента используется случайно выбранное слагаемое (см., например, [80]). Однако в этом пункте будут описаны так называемые безградиентные (поисковые) методы или методы нулевого порядка, в которых рандомизация — это вынужденная мера, связанная с отсутствием необходимой информации. Такие методы периодически встречались в работах Бориса Теодоровича (см., например, [2], [184]) и одна из предложенных им конструкций, которая в последнее время вызывает определенный интерес, будет далее изложена.
Прежде всего рассмотрим выпуклую задачу оптимизации
, (77)
которая существенно отличается от предыдущих постановок задач, в частности от (65), тем, что оракул может выдать только значение целевой функции f(x) в запрошенной точке x. Такой оракул часто упоминается в литературе как оракул нулевого порядка или безградиентный оракул (см. [185]). Из-за невозможности получить информацию о l-й производной функции (например, градиент функции f) для решения задачи (77) зачастую прибегают к помощи численных методов нулевого порядка, которые основываются на методах первого порядка, заменяя истинный градиент на различные модели аппроксимации градиента (см. [186]). Например, когда функция f(x) является не просто гладкой, а имеет повышенную гладкость, т. е. функция имеет непрерывные частные производные до l-го порядка включительно и для всех x, z ∈ Q удовлетворяет условию Гёльдера:
,
где l < β, Lβ > 0, n = (n1,..., nd) — мультииндекс, ni > 0 — целые, n! = (n1!···nd!), |n| = n1 + ··· + nd, и , а также , то при создании безградиентного алгоритма важно подобрать такую аппроксимацию градиента, которая будет использовать преимущества повышенной гладкости функции (β > 2, где β — порядок гладкости функции f). Такую оценку производной по направлению предложили в 1990 г. Б. Т. Поляк и А. Б. Цыбаков (см. [4]), которая в дальнейшем стала называться “ядерная” аппроксимация и активно использоваться (см. [142], [187]–[189]):
, (78)
где τ > 0, e — равномерно распределенный на , r — равномерно распределенный на отрезке [–1, 1], e и r независимы, — фиксированная функция (ядро), которая удовлетворяет следующим условиям:
.
Одним из основных достоинств этой аппроксимации градиента является тот факт, что ядерная аппроксимация (78) требует всего два вычисления значения (реализации) функции на итерации, поскольку информация о повышенной гладкости учитывается в “ядре”. Этот факт существенно улучшает оракульную сложность алгоритма, который использует конечно-разностную схему более высокого порядка в качестве оценки градиента (см. [190]), поскольку данная аппроксимация требует большего числа вызовов безградиентного оракула на каждой итерации. К 2020 г. появились интересные результаты о скорости сходимости для безградиентного алгоритма (см. [4], [142], [191], [192]): стохастический метод проекции градиента нулевого порядка, описание которого можно найти в алгоритме 5.
Algorithm 5. Стохастический метод проекции градиента нулевого порядка
1: Requires: Ядро , размер шага ηk, сглаживающий параметр τk.
2: Initialization: Сгенерировать скалярный числа r1, ..., rN, равномерно распределенные на отрезке [–1, 1], и вектора e1, ..., eN, равномерно распределенные на единичной Евклидовой сфере .
3: for k = 1, ..., N do
4:
5:
6:
7: end for
8: return .
Как видно из строчки 4 алгоритма 5, fξ выступает в роли безградиентного оракула, где ξ ≠ ξ′ — стохастический шум, который характеризует конкретную реализацию (т. е. fξ — это значение целевой функции на реализации ξ). Именно поэтому строчку 5 называют аппроксимацией градиента с одноточечной обратной связью. Данная концепция стохастического шума (см. [191]–[194]) формально определяется следующим образом: и , , а случайные величины ξ и ξ′ не зависят от e и r. Более того, эта концепция шума не требует предположения о нулевом среднем ξ и ξ′, поскольку достаточно того, что и . В табл. 1 представлены результаты работ [142], [191], [192] через зависимости N(ε) для различных предположений о выпуклости функции (выпуклая/сильно выпуклая функция), где N — число последовательных итераций, совпадающее (с точностью до константы) с общим числом обращений к оракулу нулевого порядка T = 2N. Все оценки табл. 1 соответствуют случаю, когда не мало.
Таблица 1. Зависимость числа итераций N от желаемой точности задачи ε, размерности d, константы сильной выпуклости µ и порядка гладкости функции β
Сильно выпуклый случай | Выпуклый случай | |
Новицкий и др. (2020) [192] | ||
Akhavan et al. (2020) [191] | ||
Bach et al. (2016) [142] |
После некоторой “паузы” в 2023 г. авторам работы [189] удалось улучшить верхнюю оценку для сильно выпуклого случая за счет более качественного анализа оценки смещения ядерной аппроксимации (78), учитывая, что :
,
а также оценки второго момента ядерной аппроксимации (78) с :
.
Основное преимущество данных оценок состоит в том, что смещение больше не зависит от размерности d асимптотически. Благодаря этому в работе [189] предоставили следующую верхнюю оценку итерационной сложности (совпадает с оракульной сложностью) для сильно выпуклого случая, размерность в которой не зависит от порядка гладкости:
Нетрудно заметить, что в этих работах идет “борьба” за оптимальную оракульную сложность T = 2N. Однако, рассматривая безградиентный алгоритм, в последнее время авторы уделяют внимание и другим критериям оптимальности (см. [187]) — оракульной сложности T, числу последовательных итераций N и максимально допустимому уровню враждебного шума, при котором все еще удается достичь желаемой точности ε. Один из способов улучшения оценок числа последовательных итераций для безградиентного алгоритма — это взять за базу ускоренный алгоритм первого порядка (см., например, [26], [151]) и применить технику батчирования (где B — размер батча), тем самым достигнув оптимальной оценки в итерационной сложности при B ≥ 4κd (см. [195]): и, получив (“конкурирующие” результаты с табл. 0) общее число обращений к оракулу, в выпуклом случае для любого размера батча B с :
.
Кроме того, исследование вопроса о максимально допустимом уровне враждебного шума, возвращаемого безградиентным оракулом со значением целевой функции, является не менее важным, поскольку в некоторых приложениях (см., например, [196]) чем больше уровень враждебного шума ∆, тем дешевле вызов безградиентного оракула; безградиентный оракул или оракул нулевого порядка в такой концепции шума принимает следующий вид: , , т. е. оракул возвращает значение целевой функции с некоторым ограниченным шумом. Например, в случае повышенной гладкости функции при выполнении условия Поляка–Лоясиевича (32) в работе [188] рассматриваются различные концепции с враждебным шумом, а также демонстрируется показательный результат преимущества рандомизированного алгоритма и эффективность использования ядерной аппроксимации (78). А в случае, когда функция не является гладкой, но гарантируется M-липшицевость функции f(x), такой, что для всех x, y ∈ Q:
,
существуют работы [152], [197]–[199], авторы которых предоставили оценки на максимально допустимый уровень шума ∆ в различных настройках задачи, совпадающий с верхними границами, полученными в работе [200] для класса выпуклых M-липшицевых задач оптимизации.
Обзор современного состояния развития безградиентных методов для (сильно) выпуклых задач в условиях шума представлен, например, в [187]. Выше был описан лишь один важный, но все же частный сюжет.
Настоящая статья представляет пополненную расшифровку записи лекции 12 июля 2023 г. А. В. Гасникова на Традиционной школе им. Б. Т. Поляка по оптимизации (https://ssopt.org/).
About the authors
S. S. Ablaev
Moscow Institute of Physics and Technology; Crimean Federal University
Email: gasnikov@yandex.ru
Russian Federation, Dolgoprudny; Simferopol
A. N. Beznosikov
Moscow Institute of Physics and Technology; Institute for Information Transmission Problems, Russian Academy of Sciences
Email: gasnikov@yandex.ru
Russian Federation, Dolgoprudny; Moscow
A. V. Gasnikov
Moscow Institute of Physics and Technology; Institute for Information Transmission Problems, Russian Academy of Sciences; Institute for System Programming, Russian Academy of Sciences
Author for correspondence.
Email: gasnikov@yandex.ru
Russian Federation, Dolgoprudny; Moscow; Moscow
D. M. Dvinskikh
Moscow Institute of Physics and Technology; Institute for Information Transmission Problems, Russian Academy of Sciences; Institute for System Programming, Russian Academy of Sciences
Email: gasnikov@yandex.ru
Russian Federation, Dolgoprudny; Moscow; Moscow
A. V. Lobanov
Moscow Institute of Physics and Technology; Institute for System Programming, Russian Academy of Sciences
Email: gasnikov@yandex.ru
Russian Federation, Dolgoprudny; Moscow
S. M. Puchinin
Moscow Institute of Physics and Technology
Email: gasnikov@yandex.ru
Russian Federation, Dolgoprudny
F. S. Stonyakin
Moscow Institute of Physics and Technology; Crimean Federal University
Email: gasnikov@yandex.ru
Russian Federation, Dolgoprudny; Simferopol
References
- Поляк Б. Т. Градиентные методы минимизации функционалов // Ж. вычисл. матем. и матем. физ. 1963. Т. 3. № 4. С. 643—653.
- Поляк Б. Т. Введение в оптимизацию. М.: Наука, 1983.
- Немировский А.С., Поляк Б. Т., Цыпкин Я. З. Оптимальные алгоритмы стохастической оптимизации при мультипликативных помехах // Докл. АН СССР. 1985. Т. 284. С. 564—567.
- Поляк Б.Т., Цыбаков А. Б. Оптимальные порядки точности поисковых алгоритмов стохастической оптимизации // Пробл. передачи информ. 1990. Т. 26. № 2. С. 45—53.
- Поляк Б. Т. Новый метод типа стохастической аппроксимации // Автоматика и телемехан. 1990. № 7. С. 98—107.
- Polyak B.T., Juditsky A. B. Acceleration of stochastic approximation by averaging // SIAM J. Control and Optimizat. 1992. V. 30. № 4. P. 838—855.
- Nesterov Y., Polyak B. T. Cubic regularization of Newton method and its global performance // Math. Program. 2006. V. 108. № 1. P. 177—205.
- Поляк Б. Т. Градиентные методы решения уравнений и неравенств // Ж. вычисл. матем. и матем. физ. 1964. Т. 4. № 6. С. 995—1005.
- Поляк Б.Т. О некоторых способах ускорения сходимости итерационных методов // Ж. вычисл. матем. и матем. физ. 1964. Т. 4. № 5. С. 791—803.
- Левитин Е.С., Поляк Б. Т. Методы минимизации при наличии ограничений // Ж. вычисл. матем. и матем. физ. 1966. Т. 6. № 5. С. 787—823.
- Поляк Б. Т. Минимизация негладких функционалов // Ж. вычисл. матем. и матем. физ. 1969. Т. 9. № 3. С. 509—521.
- Поляк Б. Т. Метод сопряженных градиентов в задачах на экстремум // Ж. вычисл. матем. и матем. физ. 1969. Т. 9. № 4. С. 807—821.
- Поляк Б.Т., Цыпкин Я. З. Оптимальные псевдоградиентные алгоритмы адаптации // Автоматика и телемехан. 1980. № 8. С. 74—84.
- Poljak B. Iterative algorithms for singular minimization problems // Nonlin. Program. Elsevier, 1981. P. 147—166.
- Poljak B. T. Sharp minimum // “Generalized Lagrangians and applications”. 1982.
- Гасников А. В. Научный путь Бориса Теодоровича Поляка. Оптимизация // Компьют. исслед. и моделирование. 2023. Т. 15. № 2. С. 235—243.
- Fradkov A.L., Granichin O. N. Boris Teodorovich Polyak // Cybernet. and Phys. 2023. V. 12(1).
- Polyak B. T. Subgradient methods: a survey of Soviet research // Nonsmooth Optimizat. 1978. V. 3. P. 5—29.
- Shor N. Z. Minimization methods for non-differentiable functions. V. 3. Springer Science & Business Media, 2012.
- Шор Н. З. Методы минимизации недифференцируемых функций и их применения. Киев: Наук. думка, 1979.
- Drori Y., Teboulle M. An optimal variants of Kelley’s cutting-plane method // Math. Program. 2016. V. 160. № 1. P. 321—351.
- Stochastic Polyak step-size for sgd: An adaptive learning rate for fast convergence / N. Loizou [et al.] // Inter. Conf. on Artific. Intelligence and Statist. PMLR. 2021. P. 1306—1314.
- Wang X., Johansson M., Zhang T. Generalized Polyak step size for first order optimization with momentum // arXiv preprint arXiv:2305.12939; 2023.
- Hazan E., Kakade S. Revisiting the Polyak step size // arXiv preprint arXiv:1905.00313; 2019.
- Nesterov Y. Universal gradient methods for convex optimization problems // Math. Program. 2015. V. 152. № 1. P. 381—404.
- Гасников А.В., Нестеров Ю. Е. Универсальный метод для задач стохастической композитной оптимизации // Ж. вычисл. матем. и матем. физ. 2018. Т. 58. № 1. С. 51—68.
- Jiang X., Stich S. U. Adaptive SGD with Polyak stepsize and Line-search: Robust Convergence and Variance Reduction // arXiv preprint arXiv:2308.06058v; 2023.
- Поляк Б. Т. Один общий метод решения экстремальных задач // Докл. АН СССР. 1967. Т. 174. № 1. С. 33—36.
- Huang Y., Lin Q. Single-Loop Switching Subgradient Methods for Non-Smooth Weakly Convex Optimization with Non-Smooth Convex Constraints // arXiv preprint. 2023.
- Mirror descent and convex optimization problems with non-smooth inequality constraints / A. Bayandina [et al.] // Lect. Not. in Math. 2018. V. 2227. P. 181—213.
- Lagae S. New efficient techniques to solve sparse structured linear systems, with applications to truss topology optimization. 2017.
- Nesterov Y. Subgradient methods for huge-scale optimization problems // Math. Program. 2014. V. 146. № 1/2. P. 275—297.
- Адаптивные алгоритмы зеркального спуска в задачах выпуклого программирования с липшицевыми ограничениями / Ф. С. Стонякин [и др.] // Тр. ИММ УрО РАН. 2018. Т. 24. № 2. С. 266—279.
- Mirror descent for constrained optimization problems with large subgradient values of functional constraints / F. S. Stonyakin [et al.] // Comput. Res. and Model. 2020. V. 12. № 2. P. 301—317.
- Адаптивные субградиентные методы для задач математического программирования с квазивыпуклыми функциями / С. С. Аблаев [и др.] // Тр. Ин-та матем. и мех. УрО РАН. 2023. Т. 29. № 3. С. 7—25.
- Tiapkin D., Gasnikov A. Primal-dual stochastic mirror descent for MDPs // Inter. Conf. Artific. Intelligence and Statist. PMLR. 2022. P. 9723—9740.
- Выпуклая оптимизация: учебное пособие / Е. А. Воронцова [и др.]. М.: МФТИ, 2021.
- A Parameter-free and Projection-free Restarting Level Set Method for Adaptive Constrained Conver Optimization Under the Error Bound Condition / Q. Lin [et al.] // arXiv preprint. 2022.
- Subgradient methods for sharp weakly convex functions / D. Davis [и др.] // J. of Optimizat. Theory and Appl. 2018. V. 179. P. 962—982.
- Duchi J.C., Ruan F. Solving (most) of a set of quadratic equalities: Composite optimization for robust phase retrieval // Informat. and Inference: J. of the IMA. 2019. V. 8. № 3. P. 471—529.
- Eldar Y.C., Mendelson S. Phase retrieval: stability and recovery guarantees // Appl. Comput. Harmon. Anal. 2014. V. 36. № 3. P. 473—494.
- Li X. Nonconvex Robust Low-rank Matrix Recovery // arXiv preprint. 2018.
- Дудов С.И., Осипцев М. А. Характеризация решения задач сильно-слабо выпуклого программирования // Матем. сб. 2021. Т. 212. № 6. С. 43—72.
- Incremental Methods for Weakly Convex Optimization / X. Li [et al.] // OPT2020: 12th Ann. Workshop on Optimizat. for Mach. Learn. 2020.
- Davis D., Drusvyatskiy D., Paquette C. The nonsmooth landscape of phase retrieval // IMA J. Numer. Analys. 2020. V. 40. № 4. P. 2652—2695.
- Davis D., Drusvyatskiy D., Kellie M. Stochastic model-based minimization under high-order growth // arXiv preprint. 2018.
- Субградиентные методы для слабо выпуклых и относительно слабо выпуклых задач с острым минимумом / Ф. С. Стонякин [и др.] // Компьют. исслед. и моделирование. 2023. Т. 15. № 2. С. 393—412.
- Li Y., Sun Y., Chi Y. Low-Rank Positive Semidefinite Matrix Recovery from Corrupted Rank-One Measurements // IEEE Transact. Signal Proces. 2017. V. 65. P. 397—408.
- Robust Principal Component Analysis / E. Candes [et al.] // J. of the ACM. 2011.
- A Theory on the Absence of Spurious Solutions for Nonconvex and Nonsmooth Optimization / C. Josz [et al.] // NeurIPS. 2018. P. 2441—2449.
- Lectures on convex optimization. V. 137 / Y. Nesterov [et al.]. Springer, 2018.
- Немировский А.С., Юдин Д. Б. Сложность задач и эффективность методов оптимизации. Наука, 1979.
- Евтушенко Ю. Г. Методы решения экстремальных задач и их применение в системах оптимизации. 1982.
- Su W., Boyd S., Candes E. A differential equation for modeling Nesterov’s accelerated gradient method: theory and insights // Adv. Neural Informat. Proces. System. 2014. V. 27.
- Wilson A.C., Recht B., Jordan M. I. A Lyapunov analysis of accelerated methods in optimization // J. Machine Learn. Res. 2021. V. 22. № 1. P. 5040—5073.
- Lojasiewicz S. Une propri´et´e topologique des sous-ensembles analytiques réels // Les ´equations aux d´erivées partielles. 1963. V. 117. P. 87—89.
- Leżański T. Ü. Ber das Minimumproblem für Funktionale in Banachschen r¨aumen // Mathematische Annalen. 1963. V. 152. № 4. P. 271—274.
- Karimi H., Nutini J., Schmidt M. Linear convergence of gradient and proximal-gradient methods under the Polyak-Lojasiewiсz condition // Machine Learning and Knowledge Discovery in Databases: Europ. Conf., ECML PKDD 2016, Riva del Garda, Italy, September 19—23, 2016, Proceed., Part I 16. Springer, 2016. P. 795—811.
- Liu C., Zhu L., Belkin M. Toward a theory of optimization for over-parameterized systems of non-linear equations: the lessons of deep learning // arXiv preprint arXiv:2003.00307; 2020. V. 7.
- Fatkhullin I., Polyak B. Optimizing static linear feedback: Gradient method // SIAM J. Control and Optimizat. 2021. V. 59. № 5. P. 3887—3911.
- Yue P., Fang C., Lin Z. On the lower bound of minimizing Polyak-Lojasiewiсz functions // The Thirty Sixth Annual Conference on Learning Theory. PMLR. 2023. P. 2948—2968.
- Yang J., Kiyavash N., He N. Global convergence and variance-reduced optimization for a class of nonconvex-nonconcave minimax problems // arXiv preprint arXiv:2002.09621; 2020.
- Garg K., Baranwal M. Fixed-Time Convergence for a Class of Nonconvex-Nonconcave Min-Max Problems // 2022 Eighth Indian Control Conference (ICC). IEEE. 2022. P. 19—24.
- Solving a class of non-convex min-max games using iterative first order methods / M. Nouiehed [и др.] // Adv. Neural Inform. Proces. System. 2019. V. 32.
- El Ghaoui L., Lebret H. Robust solutions to least-squares problems with uncertain data // SIAM J. Matrix Analys. and Appl. 1997. V. 18. № 4. P. 1035—1064.
- Муратиди А.Я., Стонякин Ф. С. Правила остановки градиентного метода для седловых задач с двусторонним условием Поляка–Лоясиевича // arXiv preprint arXiv:2307.09921; 2023.
- Бакушинский А.Б., Поляк Б. Т. О решении вариационных неравенств // Докл. АН СССР. 1974. Т. 219. С. 1038—1041.
- Stonyakin F., Kuruzov I., Polyak B. Stopping rules for gradient methods for non-convex problems with additive noise in gradient // J. Optimizat. Theory and Appl. 2023. P. 1—21.
- A theoretical and empirical comparison of gradient approximations in derivative-free optimization / A. S. Berahas [et al.] // Foundat. Comput. Math. 2022. V. 22. № 2. P. 507—560.
- Conn A.R., Scheinberg K., Vicente L. N. Introduction to derivative-free optimization. SIAM, 2009.
- Risteski A., Li Y. Algorithms and matching lower bounds for approximately-convex optimization // Adv. Neural Inform. Proces. System. 2016. V. 29.
- Convex optimization in hilbert space with applications to inverse problems / A. Gasnikov [et al.] // arXiv preprint arXiv:1703.00267; 2017.
- Kabanikhin S. I. Inverse and ill-posed problems: theory and applications. de Gruyter, 2011.
- Devolder O., Glineur F., Nesterov Y. First-order methods of smooth convex optimization with inexact oracle // Math. Program. 2014. V. 146. P. 37—75.
- Devolder O. Exactness, inexactness and stochasticity in first-order methods for large- scale convex optimization: дис… канд. / Devolder Olivier. CORE UCLouvain Louvain-la-Neuve, Belgium, 2013.
- d’Aspremont A. Smooth optimization with approximate gradient // SIAM J. Optimizat. 2008. V. 19. № 3. P. 1171—1183.
- Vasin A., Gasnikov A., Spokoiny V. Stopping rules for accelerated gradient methods with additive noise in gradient: тех. отч. / Berlin: Weierstraß-Institut fu¨r Angewandte Analysis und Stochastik, 2021.
- Емелин И.В., Красносельский М. А. Правило останова в итерационных процедурах решения некорректных задач // Автоматика и телемехан. 1978. № 12. P. 59—63.
- Carter R. G. On the global convergence of trust region algorithms using inexact gradient information // SIAM J. on Numer. Analys. 1991. V. 28. № 1. P. 251—265.
- Гасников А. В. Современные численные методы оптимизации. Метод универсального градиентного спуска. М.: МЦНМО, 2021.
- De Klerk E., Glineur F., Taylor A. B. On the worst-case complexity of the gradient method with exact line search for smooth strongly convex functions // Optimizat. Lett. 2017. V. 11. P. 1185—1199.
- Puchinin S., Stonyakin F. Gradient-Type Method for Optimization Problems with Polyak-Lojasiewicz Condition: Relative Inexactness in Gradient and Adaptive Parameters Setting // arXiv preprint arXiv:2307.14101; 2023.
- Convex optimization: Algorithms and complexity / S. Bubeck [et al.] // Foundat. and Trend. in Mach. Learn. 2015. V. 8. № 3/4. P. 231—357.
- Cox B., Juditsky A., Nemirovski A. Decomposition techniques for bilinear saddle point problems and variational inequalities with affine monotone operators // J. Optimizat. Theory and Appl. 2017. V. 172. P. 402—435.
- Гасников А., Гасникова Е. Модели равновесного распределения транспортных потоков в больших сетях. 2023.
- Efficient numerical methods to solve sparse linear equations with application to pagerank / A. Anikin [и др.] // Optimizat. Method. and Software. 2022. V. 37. № 3. P. 907—935.
- Bomze I. M., Rinaldi F., Zeffiro D. Frank–Wolfe and friends: a journey into projection-free first-order optimization methods // 4OR. 2021. V. 19. P. 313—345.
- Conditional gradient methods / G. Braun [и др.] // arXiv preprint arXiv:2211.14103; 2022.
- Zero-Order Stochastic Conditional Gradient Sliding Method for Non-smooth Convex Optimization / A. Lobanov [и др.] // arXiv preprint arXiv:2303.02778; 2023.
- Vedernikov R., Rogozin A., Gasnikov A. Decentralized conditional gradient method over time-varying graphs // arXiv preprint arXiv:2307.10978; 2023.
- Adaptive Variant of the Frank-Wolfe Algorithm for Convex Optimization Problems / G. Aivazian [et al.] // arXiv preprint arXiv:2307.16059; 2023.
- Vial J.-P. Strong convexity of sets and functions // J. of Math. Economic. 1982. V. 9. № 1/2. P. 187—205.
- Vial J.-P. Strong and weak convexity of sets and functions // Math. Operat. Res. 1983. V. 8. № 2. P. 231—259.
- Половинкин Е. С. Сильно выпуклый анализ // Матем. сб. 199٦. Т. 187. № 2. С. 103—130.
- Ito M., Lu Z., He C. A Parameter-Free Conditional Gradient Method for Composite Minimization under H¨older Condition // J. Machine Learn. Res. 2023. V. 24. P. 1—34.
- Taylor A.B., Hendrickx J. M., Glineur F. Smooth strongly convex interpolation and exact worst-case performance of first-order methods // Math. Program. 2017. V. 161. P. 307—345.
- Super-acceleration with cyclical step-sizes / B. Goujaud [et al.] // Inter. Conf. on Artificial Intelligence and Statist. PMLR. 2022. P. 3028—3065.
- Немировский А.С. О регуляризующих свойствах метода сопряженных градиентов на некорректных задачах // Ж. вычисл. матем. и матем. физ. 1986. Т. 26. № 3. С. 332—347.
- Acceleration methods / A. d’Aspremont, D. Scieur, A. Taylor [et al.] // Foundat. and Trends in Optimizat. 2021. V. 5. № 1/2. P. 1—245.
- Scieur D., Pedregosa F. Universal average-case optimality of Polyak momentum // Inter. Conf. on Machine Learn. PMLR. 2020. P. 8565—8572.
- Гельфанд И.М., Цетлин М. Л. Принцип нелокального поиска в системах автоматической оптимизации // Докл. АН СССР. 1961. Т. 137. С. 295—298.
- Lessard L., Recht B., Packard A. Analysis and design of optimization algorithms via integral quadratic constraints // SIAM J. on Optimizat. 2016. V. 26. № 1. P. 57—95.
- Ghadimi E., Feyzmahdavian H. R., Johansson M. Global convergence of the heavy-ball method for convex optimization // 2015 European control conference (ECC). IEEE. 2015. P. 310—315.
- Goujaud B., Taylor A., Dieuleveut A. Provable non-accelerations of the heavy-ball method // arXiv preprint arXiv:2307.11291; 2023.
- O’Donoghue B., Candes E. Adaptive restart for accelerated gradient schemes // Foundat. Comput. Math. 2015. V. 15. P. 715—732.
- Danilova M., Kulakova A., Polyak B. Non-monotone behavior of the heavy ball method // Difference Equations and Discrete Dynamical Systems with Applications: 24th ICDEA, Dresden, Germany, May 21—25, 2018 24. Springer, 2020. P. 213—230.
- Немировский А. Орт-метод гладкой выпуклой минимизации // Изв. АН СССР. Техн. кибернетика. 1982. № 2. P. 18—29.
- Is local SGD better than minibatch SGD? / B. Woodworth [et al.] // Inter. Conf. Machine Learn. PMLR. 2020. P. 10334—10343.
- The min-max complexity of distributed stochastic convex optimization with intermittent communication / B. E. Woodworth [et al.] // Conf. Learn. Theory. PMLR. 2021. P. 4386—4437.
- Нестеров Ю. Е. Метод решения задачи выпуклого программирования со скоростью сходимости O(1/k2) // Докл. АН СССР. 1983. Т. 269. С. 543—547.
- Lan G. First-order and stochastic optimization methods for machine learning. Vol. 1. Springer, 2020.
- Lin Z., Li H., Fang C. Accelerated optimization for machine learning // Nature Singapore: Springer, 2020.
- Peng W., Wang T. The Nesterov-Spokoiny Acceleration: o(1/kΘ2) Convergence without Proximal Operations // arXiv preprint arXiv:2308.14314; 2023.
- Inexact model: A framework for optimization and variational inequalities / F. Stonyakin [et al.] // Optimizat. Meth. and Software. 2021. V. 36. № 6. P. 1155—1201.
- Zhang Z., Lan G. Solving Convex Smooth Function Constrained Optimization Is As Almost Easy As Unconstrained Optimization // arXiv preprint arXiv:2210.05807; 2022.
- Accelerated gradient methods with absolute and relative noise in the gradient / A. Vasin [et al.] // Optimizat. Method. and Software. 2023. P. 1—50.
- Intermediate Gradient Methods with Relative Inexactness / N. Kornilov [et al.] // arXiv preprint arXiv:2310.00506; 2023.
- Optimal gradient sliding and its application to optimal distributed optimization under similarity / D. Kovalev [et al.] // Adv. in Neural Informat. Proces. System. 2022. V. 35. P. 33494—33507.
- Kovalev D., Gasnikov A., Malinovsky G. An Optimal Algorithm for Strongly Convex Min-min Optimization // arXiv preprint arXiv:2212.14439; 2022.
- Optimal Algorithm with Complexity Separation for Strongly Convex-Strongly Concave Composite Saddle Point Problems / E. Borodich [et al.] // arXiv preprint arXiv:2307.12946; 2023.
- Smooth monotone stochastic variational inequalities and saddle point problems: A survey / A. Beznosikov [et al.] // Europ. Math. Soc. Magazine. 2023. № 127. P. 15—28.
- Nesterov Y. Implementable tensor methods in unconstrained convex optimization // Math. Program. 2021. V. 186. P. 157—183.
- Monteiro R.D., Svaiter B. F. An accelerated hybrid proximal extragradient method for convex optimization and its implications to second-order methods // SIAM J. Optimizat. 2013. V. 23. № 2. P. 1092—1125.
- Near optimal methods for minimizing convex functions with Lipschitz p-th derivatives / A. Gasnikov [et al.] // Conf. Learn. Theory. PMLR. 2019. P. 1392—1393.
- Kovalev D., Gasnikov A. The first optimal acceleration of high-order methods in smooth convex optimization // Adv. Neural Inform. Proces. System. 2022. V. 35. P. 35339—35351.
- Optimal and Adaptive Monteiro-Svaiter Acceleration / Y. Carmon [et al.] // Adv.n Neural Inform. Proces. System. V. 35 / Ed. S. Koyejo [et al.]. Curran Associates, Inc., 2022. P. 20338—20350. URL: https://proceedings.neurips.cc/.
- Exploiting higher-order derivatives in convex optimization methods / D. Kamzolov [et al.] // arXiv preprint arXiv:2208.13190; 2022.
- Bertsekas D., Tsitsiklis J. Parallel and distributed computation: numerical methods. Athena Scientific, 2015.
- Recent theoretical advances in decentralized distributed convex optimization / E. Gorbunov [et al.] // High-Dimensional Optimization and Probability: With a View Towards Data Science. Springer, 2022. P. 253—325.
- Кибардин В. М. Декомпозиция по функциям в задаче минимизации // Автоматика и телемех. 1979. № 9. С. 66—79.
- Decentralized optimization over time-varying graphs: a survey / A. Rogozin [et al.] // arXiv preprint arXiv:2210.09719; 2022.
- Decentralized Optimization Over Slowly Time-Varying Graphs: Algorithms and Lower Bounds / D. Metelev [et al.] // arXiv preprint arXiv:2307.12562; 2023.
- Bao C., Chen L., Li J. The Global R-linear Convergence of Nesterov’s Accelerated Gradient Method with Unknown Strongly Convex Parameter // arXiv preprint arXiv:2308.14080; 2023.
- Guminov S., Gasnikov A., Kuruzov I. Accelerated methods for weakly-quasi-convex optimization problems // Comput. Management Sci. 2023. V. 20. № 1. P. 1—19.
- Algorithmic stochastic convex optimization / A. Beznosikov [и др.]. Springer, 2024.
- Robbins H., Monro S. A stochastic approximation method // Ann. Math. Statistic. 1951. P. 400—407.
- Ермольев Ю. Методы стохастического программирования. М.: Наука, 1976.
- High-probability bounds for stochastic optimization and variational inequalities: the case of unbounded variance / A. Sadiev [et al.] // ICML. 2023.
- Root-sgd: Sharp nonasymptotics and asymptotic efficiency in a single algorithm / C. J. Li [et al.] // Conf. Learn. Theory. PMLR. 2022. P. 909—981.
- Невельсон М., Хасьминский Р. Стохастическая аппроксимация и рекуррентное оценивание. М.: Наука, 1972.
- Fort G. Central limit theorems for stochastic approximation with controlled Markov chain dynamics // ESAIM: Probability and Statistic. 2015. V. 19. P. 60—80.
- Bach F., Perchet V. Highly-smooth zero-th order online optimization // Conf. Learn. Theory. PMLR. 2016. P. 257—283.
- Ruppert D. Efficient estimations from a slowly convergent Robbins-Monro process: тех. отч. / Cornell University Operations Research; Industrial Engineering. 1988.
- Robust stochastic approximation approach to stochastic programming / A. Nemirovski [и др.] // SIAM J. Optimizat. 2009. V. 19. № 4. P. 1574—1609.
- Nesterov Y. Primal-dual subgradient methods for convex problems // Math. Program. 2009. V. 120. № 1. P. 221—259.
- Duchi J., Hazan E., Singer Y. Adaptive subgradient methods for online learning and stochastic optimization. // J. Machine Learn. Res. 2011. V. 12. № 7.
- Ivgi M., Hinder O., Carmon Y. DoG is SGD’s Best Friend: A Parameter-Free Dynamic Step Size Schedule. 2023. arXiv: 2302.12022 [cs.LG].
- Cutkosky A., Defazio A., Mehta H. Mechanic: A Learning Rate Tuner // arXiv preprint arXiv:2306.00144; 2023.
- Stich S. U. Unified optimal analysis of the (stochastic) gradient method // arXiv preprint arXiv:1907.04232; 2019.
- Gorbunov E. Unified analysis of SGD-type methods // arXiv preprint arXiv:2303.16502; 2023.
- Lan G. An optimal method for stochastic composite optimization // Math. Program. 2012. V. 133. № 1/2. P. 365—397.
- The power of first-order smooth optimization for black-box non-smooth problems / A. Gasnikov [et al.] // Inter. Conf. Machine Learn. PMLR. 2022. P. 7241—7265.
- Woodworth B.E., Srebro N. An even more optimal stochastic optimization algorithm: minibatching and interpolation learning // Adv. Neural Inform. Proces. System. 2021. V. 34. P. 7333—7345.
- Accelerated stochastic approximation with state-dependent noise / S. Ilandarideva [и др.] // arXiv preprint arXiv:2307.01497; 2023.
- Unixgrad: A universal, adaptive algorithm with optimal guarantees for constrained optimization / A. Kavis [et al.] // Adv. Neural Inform. Proces. System. 2019. V. 32.
- Ene A., Nguyen H. L., Vladu A. Adaptive gradient methods for constrained convex optimization and variational inequalities // Proceed. of the AAAI Conf. Artificial Intelligence. 2021. V. 35. P. 7314—7321.
- Nesterov Y. Efficiency of coordinate descent methods on huge-scale optimization problems // SIAM J. Optimizat. 2012. V. 22. № 2. P. 341—362.
- Richtárik P., Takač M. On optimal probabilities in stochastic coordinate descent methods // Optimizat. Lett. 2016. V. 10. P. 1233—1243.
- Qu Z., Richtárik P. Coordinate descent with arbitrary sampling I: Algorithms and complexity // Optimizat. Meth. and Software. 2016. V. 31. № 5. P. 829—857.
- QSGD: Communication-efficient SGD via gradient quantization and encoding / D. Alistarh [et al.] // Adv. Neural Inform. Proces. System. 2017. V. 30.
- On biased compression for distributed learning / A. Beznosikov [et al.] // arXiv preprint arXiv:2002.12410; 2020.
- Schmidt M., Roux N. L. Fast convergence of stochastic gradient descent under a strong growth condition // arXiv preprint arXiv:1308.6370; 2013.
- Vaswani S., Bach F., Schmidt M. Fast and faster convergence of sgd for over-parameterized models and an accelerated perceptron // 22nd Inter. Conf. on Artificial Intelligence and Statistic. PMLR. 2019. P. 1195—1204.
- First Order Methods with Markovian Noise: from Acceleration to Variational Inequalities / A. Beznosikov [et al.] // arXiv preprint arXiv:2305.15938; 2023.
- Moulines E., Bach F. Non-Asymptotic Analysis of Stochastic Approximation Algorithms for Machine Learning // Adv. Neural Inform. Proces. System. V. 24 / Ed. J. Shawe-Taylor [et al.]. Curran Associates, Inc., 2011. URL: https:// proceedings.neurips.cc/paper_files/paper/2011/file/40008b9a5380fcacce3976bf7c08af5b-.
- SGD: General analysis and improved rates / R. M. Gower [et al.] // Inter. Conf. Machine Learn. PMLR. 2019. P. 5200—5209.
- Ma S., Bassily R., Belkin M. The power of interpolation: Understanding the effectiveness of SGD in modern over-parametrized learning // Inter. Conf. Machine Learn. PMLR. 2018. P. 3325—3334.
- Distributed learning with compressed gradient differences / K. Mishchenko [et al.] // arXiv preprint arXiv:1901.09269; 2019.
- Gorbunov E., Hanzely F., Richtárik P. A unified theory of SGD: Variance reduction, sampling, quantization and coordinate descent // Inter. Conf. Artificial Intelligence and Statistic. PMLR. 2020. P. 680—690.
- Defazio A., Bach F., Lacoste-Julien S. SAGA: A fast incremental gradient method with support for non-strongly convex composite objectives // Adv. Neural Inform. Proces. System. 2014. V. 27.
- Johnson R., Zhang T. Accelerating stochastic gradient descent using predictive variance reduction // Adv. Neural Inform. Proces. System. 2013. V. 26.
- Kovalev D., Horváth S., Richtárik P. Don’t jump through hoops and remove those loops: SVRG and Katyusha are better without the outer loop // Algorithm. Learn. Theory. PMLR. 2020. P. 451—467.
- Hanzely F., Mishchenko K., Richt´arik P. SEGA: Variance reduction via gradient sketching // Adv. Neural Inform. Proces. System. 2018. V. 31.
- Unified analysis of stochastic gradient methods for composite convex and smooth optimization / A. Khaled [и др.] // J. Optimizat. Theory and Appl. 2023. P. 1—42.
- Stochastic gradient descent-ascent: Unified theory and new efficient methods / A. Beznosikov [et al.] // Inter. Conf. Artificial Intelligence and Statistic. PMLR. 2023. P. 172—235.
- Maslovskii A.Y. A unified analysis of variational inequality methods: variance reduction, sampling, quantization, and coordinate descent // Comput. Math. and Math. Phys. 2023. V. 63. № 2. P. 147—174.
- Explore aggressively, update conservatively: Stochastic extragradient methods with variable stepsize scaling / Y.-G. Hsieh [et al.] // Adv. Neural Inform. Proces. System. 2020. V. 33. P. 16223—16234.
- Stochastic extragradient: General analysis and improved rates / E. Gorbunov [и др.] // Inter. Conf. Artificial Intelligence and Statistic. PMLR. 2022. P. 7865—7901.
- Алгоритмы робастной стохастической оптимизации на основе метода зеркального спуска / А. В. Назин [и др.] // Автоматика и телемех. 2019. № 9. С. 64—90.
- High-Probability Convergence for Composite and Distributed Stochastic Minimization and Variational Inequalities with Heavy-Tailed Noise / E. Gorbunov [и др.]. 2023. arXiv: 2310.01860 [math.OC].
- Поляк Б.Т., Цыпкин Я. З. Псевдоградиентные алгоритмы адаптации и обучения. Автоматика и телемеханика // Автоматика и телемех. 1973. № 3. С. 45—68.
- Nonlinear gradient mappings and stochastic optimization: A general framework with applications to heavy-tail noise / D. Jakoveti´c [et al.] // SIAM J. Optimizat. 2023. V. 33. № 2. P. 394—423.
- Advancing the lower bounds: An accelerated, stochastic, second-order method with optimal adaptation to inexactness / A. Agafonov [et al.]. 2023. arXiv: 2309.01570 [math.OC].
- Граничин О.Н., Поляк Б. Т. Рандомизированные алгоритмы оценивания и оптимизации при почти произвольных помехах. М.: Наука, 2003.
- rock H. An automatic method for finding the greatest or least value of a function // Comput. J. 1960. V. 3. № 3. P. 175—184.
- Kiefer J., Wolfowitz J. Stochastic estimation of the maximum of a regression function // Ann. Math. Statistic. 1952. P. 462—466.
- Randomized gradient-free methods in convex optimization / A. Gasnikov [et al.] // arXiv preprint arXiv:2211.13566; 2022.
- Lobanov A., Gasnikov A., Stonyakin F. Highly Smoothness Zero-Order Methods for Solving Optimization Problems under PL Condition // Ж. вычисл. матем. и матем. физ. 2023.
- Gradient-free optimization of highly smooth functions: improved analysis and a new algorithm / A. Akhavan [et al.] // arXiv preprint arXiv:2306.02159; 2023.
- A theoretical and empirical comparison of gradient approximations in derivative-free optimization / A. S. Berahas [et al.] // Foundat. Comput. Math. 2022. V. 22. № 2. P. 507—560.
- Akhavan A., Pontil M., Tsybakov A. Exploiting higher order smoothness in derivative-free optimization and continuous bandits // Adv. Neural Inform. Proces. System. 2020. V. 33. P. 9017—9027.
- Novitskii V., Gasnikov A. Improved exploiting higher order smoothness in derivative-free optimization and continuous bandit // arXiv preprint arXiv:2101.03821; 2021.
- Гасников А., Двуреченский П., Нестеров Ю. Стохастические градиентные методы с неточным оракулом // Тр. Московск. физ.-тех. ин-та. 2016. Т. 8. № 1 (29). С. 41—91.
- Граничин О.Н., Иванский Ю. В., Копылова К. Д. Метод Б. Т. Поляка на основе стохастической функции Ляпунова для обоснования состоятельности оценок поискового алгоритма стохастической аппроксимации при неизвестных, но ограниченных помехах // Ж. вычисл. матем. и матем. физ. 2023.
- Lobanov A., Bashirov N., Gasnikov A. The Black-Box Optimization Problem: Zero-Order Accelerated Stochastic Method via Kernel Approximation. 2023. arXiv: 2310.02371 [math.OC].
- Learning supervised pagerank with gradient-based and gradient-free optimization methods / L. Bogolubsky [et al.] // Adv. Neural Inform. Proces. System. 2016. V. 29.
- Noisy zeroth-order optimization for non-smooth saddle point problems / D. Dvinskikh [et al.] // Inter. Conf. Math. Optimizat. Theory and Operat. Res. Springer. 2022. P. 18—33.
- Gradient-Free Federated Learning Methods with l_1 and l_2-Randomization for Non-Smooth Convex Stochastic Optimization Problems / A. Lobanov [et al.] // arXiv preprint arXiv:2211.10783; 2022.
- Accelerated Zeroth-order Method for Non-Smooth Stochastic Convex Optimization Problem with Infinite Variance / N. Kornilov [et al.]. 2022.
- Risteski A., Li Y. Algorithms and matching lower bounds for approximately-convex optimization // Adv. Neural Inform. Proces. System. 2016. V. 29.
Supplementary files
