Об избыточности невырожденности Гессиана для геометрической скорости сходимости метода Ньютона при минимизации выпуклых функций

Обложка

Цитировать

Полный текст

Аннотация

В статье устанавливается новое свойство выпуклых функций, позволяющее добиться геометрической скорости сходимости метода Ньютона в процессе минимизации. А именно, установлено, что даже в случае вырождения гессиана в решении, ньютоновская система разрешима в окрестности точки минимума, т. е. градиент целевой функции принадлежит образу матрицы вторых производных и поэтому можно применять аналоги метода Ньютона.

Полный текст

В задаче поиска безусловного минимума рассматриваются функции f(.), определенные и достаточно гладкие в окрестности U(x*) точки минимума функции n вещественных переменных. Всюду далее множество точек минимума функции f обозначается как X*=Argminf и предполагается непустым. Необходимое условие минимума функции f в точке x* задается равенством (x*) = 0, при этом матрица вторых производных функции в точке минимума является положительно полуопределенной. Следует отметить, что исследованиям по методу Ньютона посвящено значительное число научных работ, среди которых укажем [1—7]. Со многими работами можно ознакомиться в обзорной статье [8]. В данной работе показывается, что несмотря на возможную вырожденность матрицы Гессе в точке x*, в окрестности этой точки градиент целевой функции принадлежит образу ее второй производной и, следовательно, ньютоновская система относительно направления спуска разрешима в точках этой окрестности. Это топологическое свойство выпуклости и экстремальности позволяет по-новому взглянуть на численные методы ньютоновского типа и обосновать скорость сходимости этих методов без обременительного предположения относительно невырожденности матрицы Гессе в точке x*. Для задачи безусловной оптимизации получены свойства, уточняющие неравенство Лоясевича (см. [9—10]). Именно, неравенство обобщено для всего спектра производных до определенного порядка. В работе рассматриваются функции, производные которой равномерны по аргументу и в совокупности по порядку ограничены в некоторой окрестности U(x*) точки x*, т. е. для данной окрестности существует положительная константа M такая, что значения ее производных любого порядка не превосходят по абсолютному значению эту константу. Кроме того, объектом рассмотрения в работе будут достаточно гладкие в окрестности точки минимума функции, т. е. функции, имеющие неограниченное число порядков производных. Всюду далее без ограничения общности считаем f(x*) = 0 и обозначаем f(0)(x) = f(x). Для функции одной переменной справедлива

Лемма 1. Если x*-точка изолированного локального минимума достаточно гладкой в U(x*) функции f: R → R, производные которой равномерно по аргументу и в совокупности по порядку ограничены в некоторой окрестности U(x*), то существует четная степень 2p,p=pf, для которой справедливы неравенства

f2px*>0, fkx*=0, fkx(xx*)2pkCk, k=0,1,2,, 2p1,

при всех x Ů(x*), где положительные константы , k = 0, 1, 2, ..., 2p − 1, не зависят от x.

Доказательство. Поскольку x* — точка локального минимума функции f, то (x*) = 0. Сначала покажем, что в условиях леммы невозможна ситуация, когда производные f(k)(x*) = 0 при любом порядке k, k = 1, 2, .... Действительно в этом случае для фиксированной точки x = x* + tU(x*) в силу ограниченности производных в окрестности x* из формулы Тэйлора при нулевых производных до любого фиксированного порядка k следует неравенство f'x*+θtMθtkk!, где M обозначенная выше верхняя грань для множества значений производных функции f в указанной окрестности и θ ∈(0, 1). Отсюда и из условия изолированности локального минимума x* значение

fx*+t=01f'x*+θtdθM/k+1!

При достаточно больших k это означает противоречие с возможным предположением (x) ≠ 0, xx* что противоречит изолированности локального минимума x*. Следовательно, существует конечное

k>1:fkx*0, flx*=0, l=1, 2, , k1.

При этом порядок k может быть только четным: k=2p, p и f(2p)(x*) > 0 поскольку x* — точка локального минимума функции f. Теперь для завершения доказательства достаточно обозначить через C0 значение 12p+1!f2px*, тогда из формулы Тэйлора и ограниченности производной порядка 2p + 1 в окрестности U(x*) будет вытекать первое неравенство леммы. Разложение в окрестности x* по формуле Тэйлора производной  f(k)(x) дает остальные неравенства леммы при любом k = 1, 2, ..., 2p ‒ 1, если через Ck обозначить 12p+1k!f2px*.

Следствие 1. При выполнении условий леммы 1 функция f локально выпукла.

Действительно, если f(2)(x*) > 0 то в малой окрестности x* вторая производная будет оставаться положительной, что означает локальную выпуклость f(x). Если же f(2)(x*) = 0 то, как показано в лемме 1, f(2p)(x*) > 0 для некоторого p=p=pf, p>1 и при этом f(k)(x*) > 0, k = 1, 2, ..., 2p ‒ 1. Тогда f2xC2(xx*)2p2 для любого x U(x*), положительная константа C2 определена ранее в лемме 1. Последнее неравенство также означает локальную выпуклость f.

Для функции n переменных производную k-го порядка по направлению h в точке x будем обозначать как fhkx.

Следствие 2. Если достаточно гладкая функция f: Rn → R производные которой равномерно по аргументу и в совокупности по порядку ограничены в некоторой окрестности U(x*) изолированной точки минимума x*, то для каждого h Rn: ||h|| = 1, существует четная степень 2ph,f,ph,f, для которой справедливы неравенства

f2ph,fx*>0, fkx*=0, fkx*+tht2ph,fkCk,

где k=0, 1, 2, , 2ph,f1 при всех t ∈ (0, δh] положительные константы Ck = Ck,h,f, k=0, 1, 2, , 2ph,f1 не зависят от t, x* + δhU(x*) при этом сама функция локально выпукла вдоль направления h.

Здесь элемент p=ph,f определяется направлением h, ||h|| = 1 и не зависит от малых t, для которых x* + δhU(x*), но значение δh > 0 зависит от h и в общем случае эта величина может быть бесконечно малой относительно h. Далее в лемме 2 будет показано, что для случая выпуклой функции f можно гарантировать существование верхней границы для величины ph,f и положительной нижней границы для δh на множестве векторов h: ||h|| = 1.

Из леммы 1 вытекает, что в точках достаточно малой выколотой окрестности решения корректно определен оператор Ньютона ψx=xf2(x)1f'x. Для случая произвольной размерности пространства Rn лемма 1 означает выпуклость функции f вдоль любой прямой, проходящей через точку x*, при условии достаточной гладкости функции на пересечении прямой и окрестности U(x*)). Кроме того, для любой прямой, проходящей через точку x* вдоль вектора h, справедливо неравенство fh2mx*C2 для некоторой степени 2p, p=ph, и некоторой константы C2 = C2,h > 0. Неравенство Лоясевича гарантирует выполнимость данного неравенства в случае аналитичности в окрестности U(x*) функции при некоторых p, C2, не зависящих от h. Выпуклость в указанной окрестности функции позволяет требовать лишь достаточную гладкость функции и получить свойство “устойчивости” неравенства Лоясевича, что расширяет область применения метода Ньютона. Имеет место

Лемма 2. Если выпуклая достаточно гладкая функция f: Rn = R, производные которой равномерно по аргументу и в совокупности по порядку ограничены в некоторой окрестности U(x*) изолированной точки минимума x*, то существует четная степень 2p,p=pf, константа C = Cf > 0 и величина δ = δf > 0 для которых

fx*+thCt2p

при всех h: ||h|| = 1, t ∈ (0, δ].

Доказательство. Докажем существование такого p=pf, обладающего свойством: если fhix*=0, i=0, 1, 2, , 2p'h1, fh2p'hx*>0, то p'(h) ≤ p. Предположим противное, тогда для некоторых последовательностей hk:hk=1, tk:tk+0 имеет место неравенство fx*+tkhk<Cktmk, где Ck > 0 — элементы некоторой ограниченной, а mk — возрастающей последовательностей. Без ограничения общности можно считать, что hk h, Ck C, k → ∞. Обозначим convhk, hk+1, hk+2,,hk+n через Vk. В случае dimVk < n указанный набор векторов изменяется путем прибавления к n ‒ dimVk векторам линейно независимых приращений длины порядка Ckt2p, Ck → 0, k → ∞ после чего можно считать dimVk = n. Пусть далее hk'intVk, hk''=h+αkhk'h, αk0,1, αk=inf{α>0:h+αhk'hVk}. Из выпуклости и непрерывности f следует fx*+tkhk''2Ctmk. С другой стороны, из леммы 1 следует, что для некоторого p=ph существует степень k, kp, для которой производная fh2kx*C2>0 для некоторого C2 > 0. Поскольку hk'' h, k → ∞, то при достаточно больших номерах k будут выполняться неравенства fx*+tkhk''C2t2k, что противоречит предположению.

Следствие 3. Из доказательства леммы 2 следует существование степени 2p, p=pf, а также констант Ck=Ck,f, k=1, 2, , 2p'1, для которых

fh2p'x*>0, fhkx*=0, k=0,1,,2p'1, fhkx*+thCkt2pk,  0<tδ,

при этом p' = p'(h) ≤ p при всех h: ||h|| = 1.

Для точки x=x*+thUx*, h=1, определим базис G=Gh=g1,g2,,gn пространства Rn и соответствующий индекс q = q(h) следующим образом. Рассмотрим матрицы

ak=1k1!fkx*[h]k2, k=2, 3, .

Тогда в точке x = x* + th для достаточно гладкой функции f справедливы соотношения

f2xth=k2k1akhtk1, f'x=k2akhtk1, fx=k2ak[h]2tkk. (1)

Далее определим номер k1 ≥ 2 как минимальный среди тех номеров k, для которых одномерное пространство L1=Lk1=Linakh0. Прямую L1 переобозначим через L1, вектор g1 определим как ak1hak1h и далее номер k2k1 определим как минимальный номер k, для которого Lin{akh} не содержится в L1. Тогда Lk2=Linak2h, dimLk2L1=2, одномерное подпространство L2 определяется как Pr(L1)Lk2, вектор g2 определяется как нормированный вектор PrL2ak2h. При этом PrL2ak2hPrL2Imak2. Далее пространство L2 определим L1L2. Далее для каждого j=3, 4, , q=qh аналогично определяются прямые Lj=Pr(Lj1)Lkj, j=3, 4, , q, и соответствующие единичные векторы gj, j = 1, 2, ..., q. Номер q=qh=dimLina1h,a2h,n, прямая сумма Lj1Lj обозначается как Lj и является подпространством в Rn размерности j. На конечном этапе построено подпространство Lq размерности q = q(h) ≤ n. Обозначим ортогональное дополнение подпространства Lq через H:H=(Lq) в случае q < n и H = {0} при q = n. Определим базис G(h) пространства Rn как набор построенных единичных взаимно ортогональных векторов g1, g2, ..., gq, направленных вдоль построенных ортогональных прямых Ll , l = 1, 2, ..., q, и произвольного ортогонального базиса gq+1, gq+2, ..., gn подпространства H.

Справедлива

Теорема 1. Если для достаточно гладкой функции f:: Rn → R производные равномерно по аргументу и в совокупности по порядку ограничены в некоторой окрестности U(x*) изолированной точки минимума x*, то для любого фиксированного h: ||h|| = 1, система

f2x*+ths=f'x*+th (2)

разрешима относительно s при достаточно малых t.

Доказательство. Решение системы s в базисе G при любом фиксированном векторе h определим покоординатно следующим образом. Положим PrHS = 0 далее координата sq в соответствии с (1) определяется из условия PrLqkq1akqtkq2s=PrLqf'x=PrLqkkqakhtk1. При этом sq=PrLqht/kq1+ot. Подстановка координаты sq в систему (2) позволяет получить координату sq1=PrLq1ht/kq11+ot. Далее последовательно определяются координаты sl, l=q2, q3, , 1. Решение системы (2) вообще говоря, не единственно, но из (1) следует, что координаты любого решения s в базисе G = G(h) имеют вид

sj=PrLjhtkj1+ot,  j=1, 2, , q. (3)

Замечание 1. Для получения единственного решения системы (2) определим задачу

s2mins, f2xs=f'x, (4)

решение которой существует при каждом фиксированном h при всех достаточно малых t, при условиях, указанных в теореме 1. При этом длина интервала для t, в пределах которого решение существует, зависит от h.

Пример 1. Для невыпуклой функции fx=x14+(x2x12)2 вывод теоремы 1 нарушается для точек параболы x2=4x12. Таким образом, длина интервала, для которого имеет место теорема 1, стремится к нулю, по мере приближения вектора h к (1, 0).

Далее будет показано, что в случае выпуклой функции можно указать общий для всех векторов единичной сферы радиус окрестности переменной t, в пределах которой задача (4) разрешима. Из вида целевой функции задачи (4) следует, что ее решение s=f2(x)+f'x, где (.)+ означает псевдообратный оператор на своем образе. Координаты решения этой задачи в базисе G удовлетворяют условию PrHS = 0.

Теорема 2. При выполнении условий леммы 2 при всех x достаточно близких к x* задача (4) разрешима и ее решение удовлетворяет условиям

f'x,sM1xx*2p, f''xs,sM2xx*2p, (5)

где степень 2p определена в лемме 2, константы M1=M1,f, M2=M2,f>0 не зависят от x.

Доказательство. Из леммы 2 и (1) следует, что при всяком h: ||h|| = 1 номера kj, определяющие базис G удовлетворяют условию: существует индекс l1k1, k1+1, , 2p, для которого al1[h]2C>0, степень 2p определена в лемме 2 и от h не зависит, константа C > 0 также не зависит от h и определяется в следствии к лемме 2. Последнее неравенство эквивалентно условию al1[h]2l11C1t2p при малых t. Обозначая C2p1 через M1, получим неравенство в утверждении теоремы. Аналогично из следствия к лемме 2 получается и второе неравенство.

Следствие 4. При выполнении условий леммы 2 для выпуклой функции f при всех x достаточно близких к x* имеет место разрешимость относительно s системы

f2xs=f'x, (6)

что равносильно справедливости включения

f'xImf2x (7)

независимо от величины ранга матрицы f2(x).

Далее будем обозначать множество xRn:fxfx*+ε как Xε*, диаметр множества A как diamA. Справедлива

Теорема 3. При выполнении условий леммы 2 существует натуральное p и константа C¯<, для которых справедливо неравенство

diamXε*<C¯ε12p. (8)

Замечание 2. Указанные ранее свойства справедливы в предположении, что множество точек минимума функции f(x) представляет изолированную точку. Если отказаться от данного предположения, то при выполнении остальных предположений теоремы 1 справедливо представление

Argminf=x*+L, (9)

где L — собственное подпространство Rn, которое определяется условием fkx*[h]k=0 для всякого натурального

Из теорем 1, 2 не следует положительная определенность матрицы f2(x) в окрестности точки минимума x*. Тем не менее они гарантируют применимость метода Ньютона для поиска точки минимума гладкой функции при условии подходящей начальной точки, поскольку задача (1) позволяет получить вектор перехода в итерационной схеме без предположения выпуклости целевой функции. Кроме того, в данном случае удается получить монотонность по аргументу метода Ньютона, а при более сильных предположениях — линейную скорость сходимости. В случае же выпуклости целевой функции полученное свойство справедливо без дополнительных предположений.

Рассмотрим сначала применение результата теоремы 1 для доказательства монотонности по аргументу схемы метода Ньютона. Именно, определим оператор Ньютона ψx,s=xf2(x)+f'x, где f2(x)+f'x=s — решение задачи (4). Из процесса построения решения s в теореме 1, и замечания к теореме следует, что для любого фиксированного h: ||h|| = 1 при достаточно малых значениях t данный оператор корректно определен без предположения выпуклости функции f. Для получения оценки скорости сходимости дополнительно к предположениям теоремы 1 естественно определяется следующее свойство.

Определение 1. Функция f слабо регулярна в точке x*, если существует константа d = df > 0, для которой maxjqhjd для всякого h, ||h|| = 1. Здесь, как и ранее q=qh=dimLina2h, a3h, , hj — координата вектора h с номером j базисе G.

Теорема 4. Если функция f слабо регулярна в точке x*, то при выполнении условий теоремы 1 существует λ ∈ (0, 1) для которого ψx*+th,sx*λt при всех достаточно малых t.

Доказательство. Для любого решения системы (1) в силу предположения слабой регулярности в точке x* существует номер j, для которого PrLkjh>d. Отсюда

thstl=1,lkjqPrLlhPrLls+tPrHh+tPrLkjhPrLkjst1α+tα11kj1t1dkj1=λt,λ=λh=1dkj10,1, α=αhd.

Замечание 3. Полученное неравенство не означает линейной сходимости метода Ньютона, поскольку знаменатель λ который участвует в оценке, вообще говоря, зависит от h. В случае выпуклой функции полученный результат справедлив в более сильном виде: ψx,sx*λxx* при всех  из достаточно малой окрестности x*, поскольку для выпуклых функций справедливо следущее свойство.

Определение 2. Функция f равномерно регулярна в точке x*, если существуют номер m=mf и константа d = df > 0, для которых найдется индекс jq: kjm, такой что PrLjhd.

Имеет место

Теорема 5. Если функция f равномерно регулярна в точке x*, то при выполнении условий теоремы 1 существует λ ∈ (0, 1), для которого ψx,sx*λxx* при всех x из достаточно малой окрестности x*.

Доказательство. Из теоремы 4 следует, что полученный знаменатель λ = λ(h) ограничен сверху равномерно по h, h=1:λh=1dkj1λ'<1, где jkjm . Такой номер j существует, как показано в теореме 1. Кроме того, из условия равномерной регулярности следует, что hH>d для некоторого d > 0, не зависящего от h, где hA проекция вектора h на подпространство A. Отсюда следует оценка для знаменателя λ, не зависящая от h.

Замечание 4. Из леммы 2 следует, выпуклая функция равномерно регулярна в точке x*: kj=kjhm=2p,h=1. Условие равномерной регулярности является необходимым и достаточным условием линейной скорости сходимости метода Ньютона при выполнении условий теоремы 1 без предположения о выпуклости функции f. Итерационная схема метода Ньютона имеет вид

xk+1=xkf2(xk)+f'xk,

а оценка скорости сходимости метода будет линейная:

xk+1x*λxkx*, λ0,1, k=0, 1, 2, ,

при начальном приближении достаточно близком к решению x* в случае равномерно регулярной в точке минимума функции f.

Следствие 5. При выполнении условий теоремы 2 для выпуклой функции скорость сходимости итерационной схемы метода Ньютона является линейной при любом выборе начальной точки x из достаточно малой окрестности решения. Действительно, из теоремы 2 следует, что выпуклая функция является равномерно регулярной в решении x* откуда вытекает линейная оценка скорости сходимости.

Для получения сходимости метода Ньютона с более высокой скоростью, чем линейная, рассмотрим модифицированный оператор ψ1(x, s) покоординатная запись которого в базисе G представляет собой ψ1(x,s)j=xkj1sj, j=1, 2, , q; ψ1(x,s)H=xHgx,h, где вектор-функция gx,h:HH, s=f2(x)+f'x. Оператор ψ1(x, s)H позволяет определить модифицированную схему Ньютона xk+1=ψ1xk, sk. Из теоремы 1 следует

Теорема 6. Модифицированная схема Ньютона гарантирует сверхлинейную оценку скорости сходимости при хорошем начальном приближении в том и только том случае, когда функция g(x, h) удовлетворяет условию gx,hhH=ot.

×

Об авторах

Ю. Г. Евтушенко

ФИЦ ИУ РАН; МФТИ

Автор, ответственный за переписку.
Email: yuri-evtushenko@yandex.ru
Россия, Москва; Долгопрудный

А. А. Третьяков

ФИЦ ИУ РАН; Университет Седльце

Email: prof.tretyakov@gmail.com
Россия, Москва; Седльце, Польша

Список литературы

  1. Бомадио Б., Лебедев К. А. Метод Ньютона для нахождения экстремумов сильно выпуклых функций // Международный научно-исследовательский журнал. 2015. Выпуск 6—2 (37). С. 11—14.
  2. Заботин В. И., Черняев Ю. А. Метод Ньютона для задачи минимизации выпуклой дважды гладкой функции на предвыпуклом множестве //Ж. вычисл. матем. и матем. физ. 2018. Т. 58. № 3. С. 340—345. doi: 10.7868/S0044466918030031.
  3. Budzko D., Cordero A., Torregrosa J. R. Modification of Newton’s Method to extend the convergence domain // SeMA Journal. 2014. Т. 66. № 1. С. 43—53. doi: 10.1007/s40324-014-0020-y.
  4. Nesterov Y. Accelerating the cubic regularization of Newton’s method on convex problems //Mathematical Programming. 2008. Т. 112. № 1. С. 159—181. doi: 10.1007/s10107—006—0089-x.
  5. Polyak B., Tremba A. New versions of Newton method: step-size choice, convergence domain and under-determined equations //Optimization Methods and Software. 2019. С. 1272—1303. doi: 10.1080/10556788.2019.1669154.
  6. Nesterov Y., Polyak B. T. Cubic regularization of Newton method and its global performance //Mathematical Programming. 2006. Т. 108. № 1. С. 177—205.
  7. Поляк Б. Т. Градиентные методы минимизации функционалов //Ж. вычисл. матем. и матем. физ. 1963. Т. 3. № 4. С. 643—653.
  8. Поляк Б. Т. Метод Ньютона и его роль в оптимизации и вычислительной математике //Труды Института системного анализа Российской академии наук. 2006. Т. 28. С. 44—62.
  9. Colding T. H., Minicozzi W. P. Lojasiewicz inequalities and applications //arXiv:1402.5087. 2014.
  10. Lojasiewicz S. Division d’une distribution par une fonction analytique de variables reelles //C. R. Acad. Sci. 1958. Т. 246. № 5. С. 683—686.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Российская академия наук, 2024

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).