Об избыточности невырожденности Гессиана для геометрической скорости сходимости метода Ньютона при минимизации выпуклых функций
- Авторы: Евтушенко Ю.Г.1,2, Третьяков А.А.1,3
-
Учреждения:
- ФИЦ ИУ РАН
- МФТИ
- Университет Седльце
- Выпуск: Том 64, № 4 (2024)
- Страницы: 637-643
- Раздел: ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ
- URL: https://journals.rcsi.science/0044-4669/article/view/269968
- DOI: https://doi.org/10.31857/S0044466924040045
- EDN: https://elibrary.ru/ZKJRII
- ID: 269968
Цитировать
Полный текст
Аннотация
В статье устанавливается новое свойство выпуклых функций, позволяющее добиться геометрической скорости сходимости метода Ньютона в процессе минимизации. А именно, установлено, что даже в случае вырождения гессиана в решении, ньютоновская система разрешима в окрестности точки минимума, т. е. градиент целевой функции принадлежит образу матрицы вторых производных и поэтому можно применять аналоги метода Ньютона.
Ключевые слова
Полный текст
В задаче поиска безусловного минимума рассматриваются функции f(.), определенные и достаточно гладкие в окрестности U(x*) точки минимума функции n вещественных переменных. Всюду далее множество точек минимума функции f обозначается как и предполагается непустым. Необходимое условие минимума функции f в точке x* задается равенством fʹ(x*) = 0, при этом матрица вторых производных функции в точке минимума является положительно полуопределенной. Следует отметить, что исследованиям по методу Ньютона посвящено значительное число научных работ, среди которых укажем [1—7]. Со многими работами можно ознакомиться в обзорной статье [8]. В данной работе показывается, что несмотря на возможную вырожденность матрицы Гессе в точке x*, в окрестности этой точки градиент целевой функции принадлежит образу ее второй производной и, следовательно, ньютоновская система относительно направления спуска разрешима в точках этой окрестности. Это топологическое свойство выпуклости и экстремальности позволяет по-новому взглянуть на численные методы ньютоновского типа и обосновать скорость сходимости этих методов без обременительного предположения относительно невырожденности матрицы Гессе в точке x*. Для задачи безусловной оптимизации получены свойства, уточняющие неравенство Лоясевича (см. [9—10]). Именно, неравенство обобщено для всего спектра производных до определенного порядка. В работе рассматриваются функции, производные которой равномерны по аргументу и в совокупности по порядку ограничены в некоторой окрестности U(x*) точки x*, т. е. для данной окрестности существует положительная константа M такая, что значения ее производных любого порядка не превосходят по абсолютному значению эту константу. Кроме того, объектом рассмотрения в работе будут достаточно гладкие в окрестности точки минимума функции, т. е. функции, имеющие неограниченное число порядков производных. Всюду далее без ограничения общности считаем f(x*) = 0 и обозначаем f(0)(x) = f(x). Для функции одной переменной справедлива
Лемма 1. Если x*-точка изолированного локального минимума достаточно гладкой в U(x*) функции f: R → R, производные которой равномерно по аргументу и в совокупности по порядку ограничены в некоторой окрестности U(x*), то существует четная степень , для которой справедливы неравенства
,
при всех x ∈Ů(x*), где положительные константы , k = 0, 1, 2, ..., 2p − 1, не зависят от x.
Доказательство. Поскольку x* — точка локального минимума функции f, то fʹ(x*) = 0. Сначала покажем, что в условиях леммы невозможна ситуация, когда производные f(k)(x*) = 0 при любом порядке k, k = 1, 2, .... Действительно в этом случае для фиксированной точки x = x* + t ∈U(x*) в силу ограниченности производных в окрестности x* из формулы Тэйлора при нулевых производных до любого фиксированного порядка k следует неравенство , где M ‒ обозначенная выше верхняя грань для множества значений производных функции f в указанной окрестности и θ ∈(0, 1). Отсюда и из условия изолированности локального минимума x* значение
При достаточно больших k это означает противоречие с возможным предположением fʹ(x) ≠ 0, x ≠ x* что противоречит изолированности локального минимума x*. Следовательно, существует конечное
.
При этом порядок k может быть только четным: и f(2p)(x*) > 0 поскольку x* — точка локального минимума функции f. Теперь для завершения доказательства достаточно обозначить через C0 значение , тогда из формулы Тэйлора и ограниченности производной порядка 2p + 1 в окрестности U(x*) будет вытекать первое неравенство леммы. Разложение в окрестности x* по формуле Тэйлора производной f(k)(x) дает остальные неравенства леммы при любом k = 1, 2, ..., 2p ‒ 1, если через Ck обозначить .
Следствие 1. При выполнении условий леммы 1 функция f локально выпукла.
Действительно, если f(2)(x*) > 0 то в малой окрестности x* вторая производная будет оставаться положительной, что означает локальную выпуклость f(x). Если же f(2)(x*) = 0 то, как показано в лемме 1, f(2p)(x*) > 0 для некоторого и при этом f(k)(x*) > 0, k = 1, 2, ..., 2p ‒ 1. Тогда для любого x ∈U(x*), положительная константа C2 определена ранее в лемме 1. Последнее неравенство также означает локальную выпуклость f.
Для функции n переменных производную k-го порядка по направлению h в точке x будем обозначать как .
Следствие 2. Если достаточно гладкая функция f: Rn → R производные которой равномерно по аргументу и в совокупности по порядку ограничены в некоторой окрестности U(x*) изолированной точки минимума x*, то для каждого h ∈Rn: ||h|| = 1, существует четная степень , для которой справедливы неравенства
,
где при всех t ∈ (0, δh] положительные константы Ck = Ck,h,f, не зависят от t, x* + δh ∈U(x*) при этом сама функция локально выпукла вдоль направления h.
Здесь элемент определяется направлением h, ||h|| = 1 и не зависит от малых t, для которых x* + δh ∈U(x*), но значение δh > 0 зависит от h и в общем случае эта величина может быть бесконечно малой относительно h. Далее в лемме 2 будет показано, что для случая выпуклой функции f можно гарантировать существование верхней границы для величины и положительной нижней границы для δh на множестве векторов h: ||h|| = 1.
Из леммы 1 вытекает, что в точках достаточно малой выколотой окрестности решения корректно определен оператор Ньютона . Для случая произвольной размерности пространства Rn лемма 1 означает выпуклость функции f вдоль любой прямой, проходящей через точку x*, при условии достаточной гладкости функции на пересечении прямой и окрестности U(x*)). Кроме того, для любой прямой, проходящей через точку x* вдоль вектора h, справедливо неравенство для некоторой степени 2p, , и некоторой константы C2 = C2,h > 0. Неравенство Лоясевича гарантирует выполнимость данного неравенства в случае аналитичности в окрестности U(x*) функции при некоторых p, C2, не зависящих от h. Выпуклость в указанной окрестности функции позволяет требовать лишь достаточную гладкость функции и получить свойство “устойчивости” неравенства Лоясевича, что расширяет область применения метода Ньютона. Имеет место
Лемма 2. Если выпуклая достаточно гладкая функция f: Rn = R, производные которой равномерно по аргументу и в совокупности по порядку ограничены в некоторой окрестности U(x*) изолированной точки минимума x*, то существует четная степень , константа C = Cf > 0 и величина δ = δf > 0 для которых
при всех h: ||h|| = 1, t ∈ (0, δ].
Доказательство. Докажем существование такого , обладающего свойством: если , то p'(h) ≤ p. Предположим противное, тогда для некоторых последовательностей имеет место неравенство , где Ck > 0 — элементы некоторой ограниченной, а — возрастающей последовательностей. Без ограничения общности можно считать, что hk → h, Ck → C, k → ∞. Обозначим через Vk. В случае dimVk < n указанный набор векторов изменяется путем прибавления к n ‒ dimVk векторам линейно независимых приращений длины порядка Ckt2p, Ck → 0, k → ∞ после чего можно считать dimVk = n. Пусть далее . Из выпуклости и непрерывности f следует . С другой стороны, из леммы 1 следует, что для некоторого существует степень , для которой производная для некоторого C2 > 0. Поскольку hk'' → h, k → ∞, то при достаточно больших номерах k будут выполняться неравенства , что противоречит предположению.
Следствие 3. Из доказательства леммы 2 следует существование степени 2p, , а также констант , для которых
,
при этом p' = p'(h) ≤ p при всех h: ||h|| = 1.
Для точки , определим базис пространства Rn и соответствующий индекс q = q(h) следующим образом. Рассмотрим матрицы
.
Тогда в точке x = x* + th для достаточно гладкой функции f справедливы соотношения
. (1)
Далее определим номер k1 ≥ 2 как минимальный среди тех номеров k, для которых одномерное пространство . Прямую L1 переобозначим через L1, вектор g1 определим как и далее номер k2 ≥ k1 определим как минимальный номер k, для которого Lin{akh} не содержится в L1. Тогда , одномерное подпространство L2 определяется как , вектор g2 определяется как нормированный вектор . При этом . Далее пространство L2 определим . Далее для каждого аналогично определяются прямые , и соответствующие единичные векторы gj, j = 1, 2, ..., q. Номер , прямая сумма обозначается как Lj и является подпространством в Rn размерности j. На конечном этапе построено подпространство Lq размерности q = q(h) ≤ n. Обозначим ортогональное дополнение подпространства Lq через в случае q < n и H = {0} при q = n. Определим базис G(h) пространства Rn как набор построенных единичных взаимно ортогональных векторов g1, g2, ..., gq, направленных вдоль построенных ортогональных прямых Ll , l = 1, 2, ..., q, и произвольного ортогонального базиса gq+1, gq+2, ..., gn подпространства H.
Справедлива
Теорема 1. Если для достаточно гладкой функции f:: Rn → R производные равномерно по аргументу и в совокупности по порядку ограничены в некоторой окрестности U(x*) изолированной точки минимума x*, то для любого фиксированного h: ||h|| = 1, система
(2)
разрешима относительно s при достаточно малых t.
Доказательство. Решение системы s в базисе G при любом фиксированном векторе h определим покоординатно следующим образом. Положим PrHS = 0 далее координата sq в соответствии с (1) определяется из условия . При этом . Подстановка координаты sq в систему (2) позволяет получить координату . Далее последовательно определяются координаты . Решение системы (2) вообще говоря, не единственно, но из (1) следует, что координаты любого решения s в базисе G = G(h) имеют вид
. (3)
Замечание 1. Для получения единственного решения системы (2) определим задачу
, (4)
решение которой существует при каждом фиксированном h при всех достаточно малых t, при условиях, указанных в теореме 1. При этом длина интервала для t, в пределах которого решение существует, зависит от h.
Пример 1. Для невыпуклой функции вывод теоремы 1 нарушается для точек параболы . Таким образом, длина интервала, для которого имеет место теорема 1, стремится к нулю, по мере приближения вектора h к (1, 0).
Далее будет показано, что в случае выпуклой функции можно указать общий для всех векторов единичной сферы радиус окрестности переменной t, в пределах которой задача (4) разрешима. Из вида целевой функции задачи (4) следует, что ее решение , где (.)+ означает псевдообратный оператор на своем образе. Координаты решения этой задачи в базисе G удовлетворяют условию PrHS = 0.
Теорема 2. При выполнении условий леммы 2 при всех x достаточно близких к x* задача (4) разрешима и ее решение удовлетворяет условиям
, (5)
где степень 2p определена в лемме 2, константы не зависят от x.
Доказательство. Из леммы 2 и (1) следует, что при всяком h: ||h|| = 1 номера kj, определяющие базис G удовлетворяют условию: существует индекс , для которого , степень 2p определена в лемме 2 и от h не зависит, константа C > 0 также не зависит от h и определяется в следствии к лемме 2. Последнее неравенство эквивалентно условию при малых t. Обозначая через M1, получим неравенство в утверждении теоремы. Аналогично из следствия к лемме 2 получается и второе неравенство.
Следствие 4. При выполнении условий леммы 2 для выпуклой функции f при всех x достаточно близких к x* имеет место разрешимость относительно s системы
, (6)
что равносильно справедливости включения
(7)
независимо от величины ранга матрицы f2(x).
Далее будем обозначать множество как , диаметр множества A как diamA. Справедлива
Теорема 3. При выполнении условий леммы 2 существует натуральное p и константа , для которых справедливо неравенство
. (8)
Замечание 2. Указанные ранее свойства справедливы в предположении, что множество точек минимума функции f(x) представляет изолированную точку. Если отказаться от данного предположения, то при выполнении остальных предположений теоремы 1 справедливо представление
, (9)
где L — собственное подпространство Rn, которое определяется условием для всякого натурального
Из теорем 1, 2 не следует положительная определенность матрицы f2(x) в окрестности точки минимума x*. Тем не менее они гарантируют применимость метода Ньютона для поиска точки минимума гладкой функции при условии подходящей начальной точки, поскольку задача (1) позволяет получить вектор перехода в итерационной схеме без предположения выпуклости целевой функции. Кроме того, в данном случае удается получить монотонность по аргументу метода Ньютона, а при более сильных предположениях — линейную скорость сходимости. В случае же выпуклости целевой функции полученное свойство справедливо без дополнительных предположений.
Рассмотрим сначала применение результата теоремы 1 для доказательства монотонности по аргументу схемы метода Ньютона. Именно, определим оператор Ньютона , где — решение задачи (4). Из процесса построения решения s в теореме 1, и замечания к теореме следует, что для любого фиксированного h: ||h|| = 1 при достаточно малых значениях t данный оператор корректно определен без предположения выпуклости функции f. Для получения оценки скорости сходимости дополнительно к предположениям теоремы 1 естественно определяется следующее свойство.
Определение 1. Функция f слабо регулярна в точке x*, если существует константа d = df > 0, для которой для всякого h, ||h|| = 1. Здесь, как и ранее — координата вектора h с номером j базисе G.
Теорема 4. Если функция f слабо регулярна в точке x*, то при выполнении условий теоремы 1 существует λ ∈ (0, 1) для которого при всех достаточно малых t.
Доказательство. Для любого решения системы (1) в силу предположения слабой регулярности в точке x* существует номер j, для которого . Отсюда
Замечание 3. Полученное неравенство не означает линейной сходимости метода Ньютона, поскольку знаменатель λ который участвует в оценке, вообще говоря, зависит от h. В случае выпуклой функции полученный результат справедлив в более сильном виде: при всех из достаточно малой окрестности x*, поскольку для выпуклых функций справедливо следущее свойство.
Определение 2. Функция f равномерно регулярна в точке x*, если существуют номер и константа d = df > 0, для которых найдется индекс j ≤ q: kj ≤ m, такой что .
Имеет место
Теорема 5. Если функция f равномерно регулярна в точке x*, то при выполнении условий теоремы 1 существует λ ∈ (0, 1), для которого при всех x из достаточно малой окрестности x*.
Доказательство. Из теоремы 4 следует, что полученный знаменатель λ = λ(h) ограничен сверху равномерно по h, , где j, kj ≤ m . Такой номер j существует, как показано в теореме 1. Кроме того, из условия равномерной регулярности следует, что для некоторого d > 0, не зависящего от h, где hA — проекция вектора h на подпространство A. Отсюда следует оценка для знаменателя λ, не зависящая от h.
Замечание 4. Из леммы 2 следует, выпуклая функция равномерно регулярна в точке x*: . Условие равномерной регулярности является необходимым и достаточным условием линейной скорости сходимости метода Ньютона при выполнении условий теоремы 1 без предположения о выпуклости функции f. Итерационная схема метода Ньютона имеет вид
,
а оценка скорости сходимости метода будет линейная:
,
при начальном приближении достаточно близком к решению x* в случае равномерно регулярной в точке минимума функции f.
Следствие 5. При выполнении условий теоремы 2 для выпуклой функции скорость сходимости итерационной схемы метода Ньютона является линейной при любом выборе начальной точки x из достаточно малой окрестности решения. Действительно, из теоремы 2 следует, что выпуклая функция является равномерно регулярной в решении x* откуда вытекает линейная оценка скорости сходимости.
Для получения сходимости метода Ньютона с более высокой скоростью, чем линейная, рассмотрим модифицированный оператор ψ1(x, s) покоординатная запись которого в базисе G представляет собой , где вектор-функция . Оператор ψ1(x, s)H позволяет определить модифицированную схему Ньютона . Из теоремы 1 следует
Теорема 6. Модифицированная схема Ньютона гарантирует сверхлинейную оценку скорости сходимости при хорошем начальном приближении в том и только том случае, когда функция g(x, h) удовлетворяет условию .
Об авторах
Ю. Г. Евтушенко
ФИЦ ИУ РАН; МФТИ
Автор, ответственный за переписку.
Email: yuri-evtushenko@yandex.ru
Россия, Москва; Долгопрудный
А. А. Третьяков
ФИЦ ИУ РАН; Университет Седльце
Email: prof.tretyakov@gmail.com
Россия, Москва; Седльце, Польша
Список литературы
- Бомадио Б., Лебедев К. А. Метод Ньютона для нахождения экстремумов сильно выпуклых функций // Международный научно-исследовательский журнал. 2015. Выпуск 6—2 (37). С. 11—14.
- Заботин В. И., Черняев Ю. А. Метод Ньютона для задачи минимизации выпуклой дважды гладкой функции на предвыпуклом множестве //Ж. вычисл. матем. и матем. физ. 2018. Т. 58. № 3. С. 340—345. doi: 10.7868/S0044466918030031.
- Budzko D., Cordero A., Torregrosa J. R. Modification of Newton’s Method to extend the convergence domain // SeMA Journal. 2014. Т. 66. № 1. С. 43—53. doi: 10.1007/s40324-014-0020-y.
- Nesterov Y. Accelerating the cubic regularization of Newton’s method on convex problems //Mathematical Programming. 2008. Т. 112. № 1. С. 159—181. doi: 10.1007/s10107—006—0089-x.
- Polyak B., Tremba A. New versions of Newton method: step-size choice, convergence domain and under-determined equations //Optimization Methods and Software. 2019. С. 1272—1303. doi: 10.1080/10556788.2019.1669154.
- Nesterov Y., Polyak B. T. Cubic regularization of Newton method and its global performance //Mathematical Programming. 2006. Т. 108. № 1. С. 177—205.
- Поляк Б. Т. Градиентные методы минимизации функционалов //Ж. вычисл. матем. и матем. физ. 1963. Т. 3. № 4. С. 643—653.
- Поляк Б. Т. Метод Ньютона и его роль в оптимизации и вычислительной математике //Труды Института системного анализа Российской академии наук. 2006. Т. 28. С. 44—62.
- Colding T. H., Minicozzi W. P. Lojasiewicz inequalities and applications //arXiv:1402.5087. 2014.
- Lojasiewicz S. Division d’une distribution par une fonction analytique de variables reelles //C. R. Acad. Sci. 1958. Т. 246. № 5. С. 683—686.
Дополнительные файлы
