Ускорение сходимости ньютоновских методов
- Авторы: Измаилов А.Ф.1, Усков Е.И.2
-
Учреждения:
- ФГБОУ ВО «Московский государственный университет им. М. В. Ломоносова»
- ФГБОУ ВО «Тамбовский государственный университет им. Г. Р. Державина»
- Выпуск: Том 29, № 148 (2024)
- Страницы: 401-424
- Раздел: Статьи
- URL: https://journals.rcsi.science/2686-9667/article/view/277508
- DOI: https://doi.org/10.20310/2686-9667-2024-29-148-401-424
- ID: 277508
Цитировать
Полный текст
Аннотация
Рассматривается простейшая процедура экстраполяции, а именно, удвоение шага, для ускорения сходимости ньютоновских методов к особым решениям гладких нелинейных уравнений. Демонстрируется, что ускоряющий эффект этой процедуры для разных ньютоновских методов может быть разным. Для линейно-квадратичных уравнений приводятся теоретические результаты, дающие количественные оценки потенциального эффекта от экстраполяции для методов Ньютона, Левенберга–Марквардта, а также недавно предложенного ньютоновского метода с подзадачами линейного программирования, в определенном смысле объясняющие наблюдаемую разницу. Теоретически анализ основан на интерпретации этих методов как возмущенного метода Ньютона с соответствующими оценками на возмущения, а также на тонких результатах, количественно характеризующих шаг такого возмущенного метода и его локальную сходимость с линейной скоростью к особым решениям, в которых выполняется условие 2-регулярности по направлению из ядра первой производной. Также проводятся численные эксперименты для глобализаций указанных алгоритмов, снабженных выбором параметра длины шага, на двух тестовых наборах. Экспериментальные наблюдения подтверждают теоретические результаты, а также демонстрируют, что в случаях, когда уравнение содержит нелинейные и неквадратичные члены, эффект от экстраполяции выравнивается.
Полный текст
Введение
Известным средством ускорения сходимости ньютоновских методов к особым решениям нелинейных уравнений является экстраполяция [1, 2]. Однако, как демонстрируется в этой статье, ускоряющий эффект этой процедуры для разных ньютоновских методов может быть разным, и целью работы является теоретическое объяснение этой разницы для линейно-квадратичных уравнений, а также численный анализ эффекта от экстраполяции для глобализованных одномерным поиском методов Ньютона, Левенберга–Марквардта, а также ньютоновского метода с подзадачами линейного программирования (соответствующие ссылки на литературу приводятся ниже).
Используемые в статье обозначения вполне традиционны. Через обозначается ортогональное дополнение линейного подпространства L. Если не указано иное, будем считать, что — евклидова норма; в некоторых случаях будет также использоваться -норма, которая для определяется как Для заданных и определим множество
Через I обозначается единичная матрица, a через и — образ (множество значений) и ядро (множество нулей) матрицы (линейного оператора) A. Для симметричного билинейного отображения и для заданного через обозначается матрица линейного оператора Наконец, запись используется для произведения вида с матрицей в случаях, когда другая специфика этой матрицы не имеет значения.
1. Постановка задачи и ньютоновские методы
Рассматриваются ньютоновские методы для решения нелинейного уравнения
(1.1)
с достаточно гладким отображением Такие методы по имеющемуся приближению генерируют следующее приближение как где есть решение подзадачи, характеризующей конкретный метод. Например:
- подзадача метода Ньютона (NM; см., например, [3, разд. 2.1.1]) — это линеаризованное уравнение (1.1), т. е.
(1.2)
- подзадача метода Левенберга–Марквардта (LM; происходит из работ [4, 5]; см. также, например, [6, разд. 10.2], а также обзор современных теорий сходимости в [7]) имеет вид
(1.3)
с функцией определяющей значения параметра регуляризации, что равносильно линейному уравнению
(1.4)
- подзадача ньютоновского метода с подзадачами линейного программирования (LPN; [8]) имеет вид
(5)
относительно с и если используется -норма, то это задача линейного программирования, что и дает название методу.
Как обсуждается ниже, все перечисленные методы могут интерпретироваться как возмущенный метод Ньютона (pNM) с подзадачей
(6)
где отображения и характеризуют различные возмущения базового NM. Свойствах базового NM и pNM вблизи неособых решений излагаются в [3, разд. 2.1.1]. Здесь решение уравнения (1.1) называется неособым, если — невырожденная матрица, и особым в противном случае.
Данная работа посвящена именно случаю особого решения Ключевую роль при этом играет условие 2-регулярности отображения в точке по направлению [9, разд. 1.3.3], сводящееся в рассматриваемом здесь случае отображения из в к невырожденности линейного оператора где — оператор ортогонального проектирования на Важное свойство, которое легко проверить, состоит в том, что из 2-регулярности в точке по направлению v вытекает существование и таких, что для матрица невырождена, причем
(1.7)
при С использованием этого факта, следующий результат о локальной сходимости pNM с линейной скоростью был получен в [10, теорема 1] (см. также [11, теорема 3.1], где используются более слабые предположения гладкости), и является развитием результатов, полученных [1, 2] для базового NM. Для всякого введем однозначное разложение
Теорема 1.1. Пусть дважды дифференцируемо вблизи и его вторая производная липшицева относительно т. е.
при Пусть является решением уравнения (1.1) причем 2-регулярно в точке по направлению Пусть для и существует такое, что оценки
выполняются для при
Тогда для любых и найдутся и такие, что для всякой начальной точки существует единственная последовательность такая, что для каждого k выполняется где удовлетворяет (1.6), и для этой последовательности и для каждого k имеет место сходится к сходится к нулю монотонно,
при и
Характер сходимости в теореме 1.1 служит основой для техник ускорения сходимости ньютоновских методов к особым решениям [1, 2], одной из которых является экстраполяция, которая в своем простейшем варианте состоит в генерировании, параллельно с основной последовательностью вспомогательной последовательности посредством удвоения шага (p)NM:
(8)
Как показано в [2, Theorem 4.1], для базового NM можно ожидать линейной сходимости с асимптотическим общим частным 1/4 в то время как для основной итерационной последовательности оценки в теореме 1.1 гарантируют такое свойство только с 1/2. Заметим, что (1.8) не связано ни с какими дополнительными вычислительными затратами, кроме одного лишнего вычисления на каждой итерации, что требуется для оценки качества полученного приближения Кроме того, экстраполяция никак не влияет на основную последовательность и поэтому легко комбинируется с различными реализациями pNM, и в частности, с глобализациями сходимости методов этого класса, в том числе с рассматриваемыми в разд. 4. алгоритмами, использующими одномерный поиск для адаптивного выбора параметра длины шага. Однако, эффект от экстраполяции можно ожидать только при асимптотическом принятии полного ньютоновского шага, поскольку данная процедура основана на характере сходимости именно полношагового pNM; см. [12, 13].
Возвращаясь к базовому pNM, для метода LM, использующего с фиксированным на основе (7) в [10, разд. 3.1] показано, что при 2-регулярноcти в точке по направлению найдутся и такие, что для (1.4) записывается в виде (1.6) с и 1.
(9)
при В [14, разд. 3.2] предложена альтернативная интерпретация подзадачи (1.3) метода LM как подзадачи (1.6) pNM, с и соответствующей оценкой на В отличие от приведенной выше интерпретации, явно основанной на форме (1.4) итерационной подзадачи метода LM, альтернативная интерпретация применима и в случае уравнения с дополнительным ограничением, но получаемые при этом оценки несколько слабее и не подходят для использования в разд. 3 ниже.
Для метода LPN, снова с использованием (1.7), в [10, разд. 3.2] показано, что в тех же предположениях найдутся и такие, что для любое решение подзадачи (1.5) удовлетворяет (1.6) с и некоторым для которого
(10)
при где — оптимальное значение задачи (1.5).
2. Сравнительный эффект от экстраполяции
Начнем с простого примера, хорошо демонстрирующего эффекты, о которых идет речь в этом разделе.
Пример 2.1. Пусть Единственным решением уравнения (1.1) является оно является особым, и 2-регулярно в точке 0 по любому ненулевому направлению.
Итерационное уравнение (1.2) NM имеет вид и при его единственным решением является Поэтому т.е. NM с экстраполяцией за один шаг попадает в точное решение из любого начального приближения.
Далее, итерационное уравнение (1.4) метода LM имеет вид и при его единственным решением является Если то
что при дает оценки
что при превращается в оценку
Наконец, итерационная подзадача (1.5) метода LPN имеет вид
и, скажем, при единственным решением этой задачи линейного программирования является Тогда что дает оценки
Функция в примере 2.1 является квадратичной скалярной функцией одной переменной. Обратимся теперь к случаю общего линейно-квадратичного отображения пусть
(2.1)
где A — -матрица, а — симметричное билинейное отображение. Тогда и уравнение (1.1) имеет решение в котором и, соответственно, это решение является особым, если матрица A вырождена. Условие 2-регулярности в точке 0 по направлению при этом состоит в невырожденности линейного оператора где — оператор ортогонального проектирования на
Итерационная подзадача (1.2) NM принимает вид
(2.2)
Если то правую часть (2.2) можно заменить на и тогда уравнение (2.2) имеет решение причем это решение единственно в случае невырожденности При этом т. е. экстраполяция немедленно дает точное решение. В чисто квадратичном случае, когда условие выполняется автоматически, и значит, экстраполяция дает точное решение за один шаг из любого начального приближения в котором матрица невырождена.
Далее, итерационная подзадача (1.6) pNM принимает вид
(2.3)
и при правую часть можно заменить на Если матрица обратима, то единственным решением (2.3) является
(2.4)
При имеет место оценка и, предполагая 2-регулярность в точке 0 по направлению для метода LM с в силу (1.9), для при достаточно малых и имеем
(2.5)
и матрица обратима, причем, аналогично (1.7),
(2.6)
Тогда из (2.4) (и того, что ) получаем
(2.7)
при Поэтому экстраполяция дает приближение
(2.8)
и, в частности, при имеет место оценка
при
Для метода LPN аналогичным образом при из (10) выводится оценка
(2.9)
и в силу (2.4), (2.6) (и того, что )
и следовательно,
(2.10)
при
Тем самым доказано
Предложение 2.1. Пусть A — -матрица, а — симметричное билинейное отображение, и пусть для некоторого линейный оператор невырожден.
Тогда найдутся и такие, что для для уравнения (1.1) с линейно-квадратичным отображением из (11) справедливо следующее:
- NM с подзадачей (1.2) однозначно определяет направление и для него экстраполяция дает
- метод LM с подзадачей (1.3), использующей с фиксированным однозначно определяет направление v, и для него экстраполяция дает приближение для которого выполняется оценка (2.8);
- метод LPN с подзадачей (1.5) определяет некоторое направление v, и для всякого такого направления v, экстраполяция дает приближение для которого выполняется оценка (2.8).
В частности, при оценка (2.8) для метода LM лучше, чем оценка (2.10) для метода LPN, и это может служить объяснением большего эффекта экстраполяции для метода LM, чем для LPN.
В общем линейно-квадратичном случае (когда и, соответственно, выполнение не является автоматическим), и даже просто в случае общего достаточно гладкого согласно [15, теорема 6.1] (см. также [13, лемма 7]), за один шаг NM «приближенно» попадает в из асимптотически плотного звездного множества начальных точек а именно, попадает в с соответствующим при любых наперед заданных и (Точного попадания в может не быть даже для NM, даже в линейно-квадратичном случае, что демонстрируется примером 2.2 ниже, в котором аналогичный эффект при наблюдается в тесте Misc 10 в разд. 4.) Однако, как указано в комментариях в конце [10, разд. 2], гарантировать указанное свойство для общего pNM не удается, если только не накладывать жесткие предположения на глобальное (не только вблизи ядра) поведение и а именно, и для u из рассматриваемого звездного множества начальных приближений. Для метода LM эти предположения сводятся к оценке что можно гарантировать только при Для метода LPN гарантировать требуемое можно при выполнении оценки а эта оценка ниоткуда не следует. Тем не менее, на практике попадание LM и LPN в с достаточно малыми и обычно наблюдается, если не за одну, то за небольшое количество начальных итераций.
Рис. 1. Пример 1: области попадания одного шага NM в с
Пример 2.2. Пусть Единственным решением уравнения (1.1) является оно является особым, натянуто на и 2-регулярно в точке 0 по направлению v.
На рис. 1 показана линия, задаваемая равенством а также области начальных точек, один шаг рассматриваемых методов из которых приводит в с при двух разных значениях Эти области уменьшаются при уменьшении но, по-видимому, остаются асимптотически плотными в точке 0.
В соответствии со сказанным выше, далее будем рассматривать случай, когда По-прежнему будем использовать разложение всякого в сумму где в линейно-квадратичном случае
Согласно [11, лемма 3.1] для общего (не обязательно линейно-квадратично) случая, и даже всего лишь при сильной полугладкости в решении для при малых и направление v NM однозначно определяется и удовлетворяет оценкам
(2.11)
(2.12)
при При этом с некоторым фиксированным и, поскольку
(2.13)
т. е. Далее, согласно [11, теорема 3.1], если и достаточно малы, то для любого последовательность с шагами NM однозначно определяется, сходится к 0, причем для любого k, откуда и из оценки (2.13) следует, что при Тогда, снова привлекая (2.11),
т. е. имеет место оценка
(2.14)
при которая согласуется с [2, теорема 2.1, (iii)], где эта оценка приведена без доказательства.
Для pNM, согласно [11, лемма 3.1], оценки (2.11), (2.12) заменяются на
(2.15)
(2.16)
при Для метода LM, согласно (2.5), поскольку в этом случае эти оценки принимают вид
что при дает (2.11), (2.12). Для метода LPN, согласно (2.9), поскольку в этом случае оценки (2.15), (2.16) сразу принимают вид (2.11), (2.12). Значит, и для этих методов в указанных случаях проходят рассуждения, проведенные выше для NM, и приводящие к оценке (2.14).
Следующая лемма уточняет в линейно-квадратичном случае оценку (1.7).
Лемма 2.1. Пусть A — -матрица, а — симметричное билинейное отображение, и пусть для некоторого линейный оператор невырожден.
Тогда найдутся и такие, что для матрица невырождена, причем для справедлива оценка
(2.17)
при
Доказательство. Для заданных и умножая левую и правую части уравнения
(2.18)
на и получаем уравнения
(2.19)
Обозначим через сужение линейного оператора A на а через — сужение линейного оператора на Тогда
причем оператор обратим, откуда и, например, из [3, лемма A.6] следует, что для достаточно близких к 0 оператор тоже обратим, причем
при Тогда первое уравнение в (2.19) при любом имеет единственное решение
(2.20)
при и
Подставляя выражение из (2.20) во второе уравнение в (2.19), получаем
(2.21)
где линейный оператор в левой части имеет вид
Из невырожденности снова применяя [3, лемма A.6], получаем существование и таких, что для оператор невырожден, причем
при Отсюда следует, что (2.21), а значит, и второе уравнение в (2.19) имеет единственное решение
(2.22)
при и
Тем самым показано, что для уравнение (2.18) имеет единственное решение т. е. матрица невырождена, причем из (2.20) и (2.22) вытекает оценка (2.17).
Для NM, согласно (2.2),
и в предположениях леммы 2.1 для
при Поэтому, с учетом (2.14), если с достаточно малыми и то
при
Для метода LM, аналогично построениям выше, для выводится следующее обобщение оценки (2.7):
при откуда и из (2.14) вытекает оценка
при Тогда, согласно (2.14),
(2.23)
и, в частности, при
(2.24)
при как и для NM.
Наконец, для метода LPN аналогичным образом для выводится оценка
при а значит, согласно (2.14), и оценка
(2.25)
при
Предложение 2.2. В предположениях предложения 2.1 найдутся и такие, что для для уравнения (2.1) с линейно-квадратичным отображением из (2.1) справедливо следующее:
- NM с подзадачей (1.2) однозначно определяет последовательности шагов и приближений, и для соответствующих экстраполированных приближений выполняется оценка (2.24) при ;
- метод LM с подзадачей (1.3), использующей с фиксированным однозначно определяет последовательности шагов и приближений, и для соответствующих экстраполированных приближений выполняется оценка (2.23) при ;
- метод LPN с подзадачей (1.5) определяет последовательности шагов и приближений, и для любых таких последовательностей, для соответствующих экстраполированных приближений выполняется оценка (2.25) при
Полученные в этом разделе результаты существенно используют линейно-квадратичный характер отображения За пределами линейно-квадратичного случая оценка (2.24) для метода LM с и даже для NM, может нарушаться, в том числе и при и эффект от экстраполяции для MN и методов LM и LPN при этом может выравниваться, что будет продемонстрировано в следующем разделе.
3. Глобализованные алгоритмы и численные результаты
Алгоритм 1 ниже, глобализующий сходимость NM, использует страховочные шаги градиентного метода для функции
(3.1)
градиент которой имеет вид
(3.2)
Такие шаги используются в тех случаях, когда направление NM либо не удается определить, либо оно оказывается «слишком длинным» в смысле нарушения теста (38). Этот алгоритм был предложен в [12, алгоритм 3.1], где были установлены свойства его глобальной сходимости.
Алгоритм 1. Фиксируем параметры и Выбираем и полагаем
- Если стоп.
- Вычисляем как решение линейного уравнения (.12). Если не удается вычислить, или нарушает неравенство
(3.3)
переходим к шагу 4.
- Полагаем Если выполняется неравенство
(3.4)
полагаем и переходим к шагу 6. В противном случае заменяем a на и проверяем снова неравенство (3.4) до тех пор, пока оно не выполнится, после чего полагаем и переходим к шагу 6.
4. Полагаем где функция определена в (3.1) (см. (3.2)). Если стоп.
5. Полагаем Если выполняется неравенство Армихо
(3.5)
полагаем В противном случае заменяем a на и проверяем снова неравенство (3.5) до тех пор, пока оно не выполнится, после чего полагаем
6. Полагаем увеличиваем k на l и переходим к шагу 1.
В отличие от NM, метод LM может быть глобализован «чистым» образом, без каких-либо гибридных элементов и, в частности, без необходимости использования каких-либо страховочных шагов.
Алгоритм 2. Фиксируем параметры и Выбираем и полагаем
- Если стоп.
- Полагаем и вычисляем как решение линейного уравнения (4). Если стоп.
- Полагаем Если выполняется неравенство
(3.6)
где функция определена в (3.1), полагаем В противном случае заменяем a на и проверяем снова неравенство (3.6) до тех пор, пока оно не выполнится, после чего полагаем
- Полагаем увеличиваем k на l и переходим к шагу 1.
Алгоритм 2 (с ) и анализ его глобальной сходимости были предложены в [16]; см. также [7, алгоритм 6.2, теорема 6.2].
Метод LPN также допускает «чистую» глобализацию сходимости, разработанную в [17, алгоритм 1, теорема 3.1]. Алгоритм 3 ниже основан на одномерном поиске для функции
(3.7)
Алгоритм 3. Фиксируем параметры и Выбираем и полагаем
- Если стоп.
- Вычисляем как решение задачи линейного программирования (5), в которой используется -норма. Если для величины
где функция f определена в (3.7), выполняется стоп.
- Полагаем Если выполняется неравенство
(3.8)
полагаем В противном случае заменяем a на и проверяем снова неравенство (3.8) до тех пор, пока оно не выполнится, после чего полагаем
- Полагаем увеличиваем k на l и переходим к шагу 1.
В экспериментах, результаты которых представлены ниже, алгоритм 3 был также снабжен всеми предложенными в [17, разд. 5] модификациями, улучшающими его поведение, кроме немонотонного одномерного поиска. В процедурах одномерного поиска использовались параметры и В алгоритме 1 использовались и
Запуск завершался с успехом в случае выполнения для некоторого условия
либо условия
(3.9)
в случае использования экстраполяции. В остальных случаях запуск считался неудачным, как и при выполнении для некоторого k условия
для алгоритмов 1 и 2, и
для алгоритма 3, либо условия в процессе одномерного поиска на соответствующих шагах алгоритмов.
В алгоритме 2 правило выбора параметра регуляризации было модифицировано следующим образом, исключающим слишком большие значения этого параметра вдали от решений: причем использовалось значение
Эксперимент проводился на всех задачах из тестового набора MGH [18], для которых известны точные решения, за исключением трех задач с линейными отображениями Некоторые из выбранных таким образом задач имеют больше уравнений, чем переменных, и в таких случаях лишние уравнения удалялись (всегда линейные, за исключением теста Beale, в котором выбор уравнения для удаления не влияет существенным образом на поведение алгоритмов). Информация о полученном в результате тестовом наборе содержится в [12, таблица 1]. Далее, выбранные задачи трансформировались посредством техники из [19] таким образом, чтобы известное решение оставалось решением модифицированного уравнения, но при этом выполнялось (за исключением трех задач Powell singular, Extended Powell singular, и Variably dimensioned, которые имеют известные особые решения в своей оригинальной форме). Задачи Variably dimensioned и Brown almost-linear использовались в двух версиях: с и с
Запуски сравниваемых алгоритмов осуществлялись из 100 одинаковых случайных начальных точек, равномерно распределенных в -шаре (гиперкубе) радиуса l с центром в решении.
Рис. 2. Сравнение на наборе MGH
Рис. 3. Сравнение на наборе Misc
Результаты представлены в форме так называемых performance profiles, изначально предложенных в [20], и адаптированных в [21] на случай многократных запусков для каждой тестовой задачи, с использованием средних характеристик эффективности и процентов успешных запусков. На рис. 2 для каждого алгоритма показан график функции, значение которой в по существу соответствует доле задач в наборе, для которых средний показатель эффективности для данного алгоритма был хуже наилучшего не более, чем в t раз. При этом считается, что результат любого неудачного запуска в бесконечное число раз хуже любого другого. Значения функции на правом конце (при больших t) соответствует доле успешных запусков алгоритма, а на левом — доле задач, для которых его средний показатель эффективности был наилучшим. В данном сравнении в роли показателей эффективности использовались количество итераций и время запуска.
Представленные результаты демонстрируют, что эффект от экстраполяции для метода LM слабее, чем для NM, а для метода LPN слабее, чем для LM.
Эксперимент на тестовом наборе MGH был дополнен аналогичным экспериментом на наборе Misc(ellaneous), состоящим из небольших систем нелинейных уравнений с особыми решениями, собранных из различных источников (первые 11 тестов взяты из [22, разд. 5]). А именно, набор состоит из следующих задач.
Misc 1. Это уравнение (1.1) из примера 2.1, с изолированное особое решение
Misc 2. Уравнение (1.1) с изолированное особое решение
Misc 3. Уравнение (1.1) с изолированное особое решение
Misc 4. Уравнение (1.1) с изолированное особое решение
Misc 5. Уравнение (1.1) с изолированное особое решение
Misc 6. Уравнение (1.1) с изолированное особое решение
Misc 7. Уравнение (1.1) с изолированное особое решение (имеются также неособые решения ).
Misc 8. Уравнение (1.1) с изолированное особое решение (имеется также неособое решение ).
Misc 9. Уравнение (1.1) с изолированное особое решение (имеется также другое особое решение ).
Misc 10. Уравнение (1.1) с изолированное особое решение
Misc 11. (дискретизованное H-уравнение Чандрасехара). Уравнение (1.1) с выбираемым значением p (в экспериментах использовалось ),
для приближенное изолированное особое решение
Misc 12. Уравнение (1.1) с с вещественным параметром a (в экспериментах использовалось ); изолированное особое решение
Misc 13. Это уравнение (1.1) из примера 2.2, с с вещественным параметром a (в экспериментах использовалось как и в примере 1); изолированное особое решение (имеется также неособое решение ).
Misc 14. Уравнение (1.1) с изолированное особое решение
Misc 15. Уравнение (1.1) с изолированное особое решение
Misc 16. Уравнение (1.1) с изолированное особое решение
Misc 17. Уравнение (1.1) с неизолированное решение
Misc 18. Уравнение (1.1) с числом переменных и с числом уравнений, равным 4, неизолированное решение Для этой задачи NM работает как метод Гаусса–Ньютона, использующий решение минимальной нормы итерационного уравнения (2).
Misc 19. Уравнение (1.1) с из [1, приложение] с параметрами k=1, m=1; изолированное особое решение
Misc 20. Уравнение (1.1) с p=2, неособое решение которое трансформировалось в особое посредством упомянутой выше в связи с набором MGH процедуры из [19] (у исходного уравнения имеется также другое неособое решение (1,1)).
Misc 21. Уравнение (1.1) с неособое решение которое трансформировалось в особое процедурой из [19].
Misc 22. Уравнение (1.1) с изолированное особое решение
Misc 23. Уравнение из Misc 22, к решению которого дополнительно применялась процедура из [19].
Misc 24. Уравнение (1.1) с неособое решение которое трансформировалось в особое процедурой из [19].
Misc 25. Уравнение (1.1) с неособое решение которое трансформировалось в особое процедурой из [?].
Результаты эксперимента на наборе Misc представлены на рис. 2, и выводы из них аналогичны выводам для MGH: эффект от экстраполяции для NM больше, чем для метода LM, а для метода LM больше, чем для метода LPN.
Рис. 4. Сравнение на задачах, не являющихся линейно-квадратичными
Дальнейший эксперимент был направлен на демонстрацию того, что за пределами линейно-квадратичного случая эффект от экстраполяции для NM и методов LM и LPN выравнивается, что согласуется с рассмотрениями в разд. 3. Для этого из наборов MGH и Misc были отобраны задачи, в которых отображение не является линейно-квадратичным, а именно, Freudenstein and Roth, Beale, Helical valley, Gulf research and development, Box three-dimensional, Biggs EXP6, Trigonometric, Brown almost-linear; Misc 7–9, = Misc 14, Misc 20, Misc 22–24. Результаты на рис. 4 показывают, что на данной выборке тестов сравниваемые алгоритмы имеют схожий эффект от экстраполяции, хотя для метода LPN эффект все же меньше, чем для других алгоритмов.
Рис. 5. Сравнение на полном тестовом наборе
На рис. 5 приведенные выше результаты дополнены сравнением трех алгоритмов 1, 2 и 3 между собой. Сравнение по времени здесь не приводится, поскольку метод LPN для рассматриваемых здесь уравнений без дополнительных ограничений неизбежно проигрывает по этому показателю, так как решение его подзадач (задач линейного программирования) является гораздо более затратным, чем решение подзадач NM и метода LM (систем линейных уравнений). Вместо этого приводится сравнение по другой важной характеристике, а именно, по количеству вычислений Важное наблюдение состоит в том, что по этой характеристике методы с экстраполяцией могут быть существенно менее эффективны, чем по количеству итераций, поскольку на каждой итерации требуют по крайней мере одного лишнего вычисления для проверки условия остановки (3.9).
Таблица 1. Процент среднего количества последних полных шагов
Тест | NM | LM | LPN |
Rosenbrock | 98.67 | 49.70 | 70.87 |
Freudenstein and Roth | 99.44 | 98.95 | 99.75 |
Brown badly scaled | 32.14 | NaN | 100.00 |
Beale | 99.08 | 100.00 | 99.93 |
Helical valley | 95.77 | 33.95 | 49.63 |
Gulf research and development | 24.05 | 13.64 | 17.39 |
Box three-dimensional | 90.71 | 28.46 | 44.85 |
Powell singular | 100.00 | 100.00 | 100.00 |
Wood | 99.23 | 94.97 | 98.16 |
Biggs EXP6 | 83.20 | 4.20 | 6.91 |
Extended Rosenbrock | 93.48 | 26.68 | 87.02 |
Extended Powell singular | 100.00 | 100.00 | 100.00 |
Variably dimensioned, | 100.00 | 100.00 | 99.82 |
Variably dimensioned, | 100.00 | 100.00 | 62.91 |
Trigonometric | NaN | 53.00 | NaN |
Brown almost-linear, | 98.24 | 100.00 | 95.34 |
Brown almost-linear, | 100.00 | 98.27 | 65.41 |
Misc 1 | 100.00 | 100.00 | 100.00 |
Misc 2 | 100.00 | 100.00 | 100.00 |
Misc 3 | 100.00 | 100.00 | 100.00 |
Misc 4 | 98.65 | 100.00 | 100.00 |
Misc 5 | 100.00 | 100.00 | 100.00 |
Misc 6 | 100.00 | 100.00 | 100.00 |
Misc 7 | 97.89 | 99.74 | 99.18 |
Misc 8 | 98.57 | 100.00 | 100.00 |
Misc 9 | 97.75 | 100.00 | 98.77 |
Misc 10 | 98.50 | 100.00 | 100.00 |
Misc 11 | 100.00 | 100.00 | 100.00 |
Misc 12 | 100.00 | 100.00 | 100.00 |
Misc 13 | 96.75 | 99.33 | 99.50 |
Misc 14 | 99.86 | 100.00 | 100.00 |
Misc 15 | 98.43 | 100.00 | 100.00 |
Misc 16 | 97.94 | 100.00 | 100.00 |
Misc 17 | 87.50 | 100.00 | 100.00 |
Misc 18 | 99.76 | 100.00 | 100.00 |
Misc 19 | 89.61 | 83.42 | 86.06 |
Misc 20 | 89.69 | 55.38 | 79.58 |
Misc 21 | 100.00 | NaN | 13.21 |
Misc 22 | 98.07 | 100.00 | 99.07 |
Misc 23 | 13.29 | 18.83 | 13.12 |
Misc 24 | 96.56 | 52.57 | 57.29 |
Misc 25 | 76.92 | 73.04 | 84.40 |
Для алгоритмов с одномерным поиском эффект от экстраполяции во многом определяется асимптотическим принятием полного шага, поскольку эта техника основана на характере сходимости к особым решениям именно полношаговых ньютоновских методов. В этих экспериментах единственный тест, на котором иногда наблюдались случаи неполного последнего шага (для всех трех алгоритмов), — это Misc 23, в котором но 2-регулярности не имеет места ни по какому направлению. Таблица 1 содержит информацию о проценте среднего количества последних полных шагов на один успешный запуск, от общего количества итераций.
Интересное наблюдение состоит в том, что по времени алгоритм 2 показывает лучший результат на примерно 70% задач (по указанным выше причинам эти результаты здесь не приводятся), а по количеству вычислений и особенно по количеству итераций такой процент гораздо ниже; см. рис. 5а, 5б. Возможное объяснение состоит в том, что по средним значениям принимаемых алгоритмами параметров длины шага алгоритм 2 также оказывается лучшим на сравнимой доле задач, как и по среднему количеству последних полных шагов; см. таблицу 1.
В заключение кратко опишем результаты эксперимента с методом LM, в котором в правиле для параметра регуляризации использовались разные значения a именно, наряду с l, рассматривались значения и На данных тестовых наборах версии метода LM с меньшими значениями (что в принципе позволяет алгоритму 2 вдали от решений генерировать и принимать более длинные шаги, оказываются несколько более эффективными, но при этом несколько менее робастными, однако разница невелика. Вместе с тем, выбор значительно проигрывает по времени рассматриваемым альтернативам.
Об авторах
Алексей Феридович Измаилов
ФГБОУ ВО «Московский государственный университет им. М. В. Ломоносова»
Автор, ответственный за переписку.
Email: izmaf@cs.msu.ru
ORCID iD: 0000-0001-9851-0524
доктор физико-математических наук, профессор кафедры исследования операций
Россия, 119991, ГСП-2, Москва, Ленинские горы, 1Евгений Иванович Усков
ФГБОУ ВО «Тамбовский государственный университет им. Г. Р. Державина»
Email: euskov@cs.msu.ru
ORCID iD: 0000-0002-3639-0317
кандидат физико-математических наук, научный сотрудник
Россия, 392000, Тамбов, ул. Интернациональная, 33Список литературы
- A. Griewank, Analysis and Modification of Newton’s Method at Singularities, PhD Thesis, Australian National University, Canberra, 1980.
- A. Griewank, “On solving nonlinear equations with simple singularities or nearly singular solutions”, SIAM Review, 27 (1985), 537–563.
- A. F. Izmailov, M. V. Solodov, Newton-Type Methods for Optimization and Variational Problems, Springer Series in Operations Research and Financial Engineering, Springer, Cham, 2014, 573 pp.
- K. Levenberg, “A method for the solution of certain non-linear problems in least squares”, Quarterly of Applied Mathematics, 2 (1944), 164–168.
- D. W. Marquardt, “An algorithm for least squares estimation of non-linear parameters”, SIAM J., 11 (1963), 431–441.
- Дж. Дэннис, Р. Шнабель, Численные методы безусловной оптимизации и решение нелинейных уравнений, Мир, М., 1988; англ. ориг.:J. E. Dennis, Jr., R. B. Schnabel, Numerical Methods for Unconstrained Optimization and Nonlinear Equations, Prentice-Hall, Inc., Englewood Cliffs, 1983.
- A. Fischer, A. F. Izmailov, M. V. Solodov, “The Levenberg–Marquardt method: an overview of modern convergence theories and more”, Computational Optimization and Applications, 89:1 (2024), 33–67.
- F. Facchinei, A. Fischer, M. Herrich, “An LP-Newton method: Nonsmooth equations, KKT systems, and nonisolated solutions”, Mathematical Programming, 146 (2014), 1–36.
- А. Ф. Измаилов, А. А. Третьяков, 2-регулярные решения нелинейных задач. Теория и чис¬ленные методы, Физматлит, М., 1999. [A. F. Izmailov, A. A. Tret’yakov, 2-Regular Solutions of Nonlinear Problems. Theorey and Numerical Methods, Fizmatlit Publ., Moscow, 1999 (In Russian)].
- A. F. Izmailov, A. S. Kurennoy, M. V. Solodov, “Critical solutions of nonlinear equations: local attraction for Newton-type methods”, Mathematical Programming, 167:2 (2018), 355–379.
- A. Fischer, A. F. Izmailov, M. Jelitte, “Behavior of Newton-type methods near critical solutions of nonlinear equations with semismooth derivatives”, Journal of Optimization Theory and
- Applications, 2023, New Trends in Optimization, Control, and Their Applications: A Special Issue Dedicated to Boris Sh. Mordukhovich.
- A. Fischer, A. F. Izmailov, M. V. Solodov, “Accelerating convergence of the globalized Newton method to critical solutions of nonlinear equations”, Computational Optimization and Applications, 78:1 (2021), 273–286.
- A. Fischer, A. F. Izmailov, M. V. Solodov, “Unit stepsize for the Newton method close to critical solutions”, Mathematical Programming, 187:1–2 (2021), 697–721.
- A. Fischer, A. F. Izmailov, M. Jelitte, “Newton-type methods near critical solutions of piecewise smooth nonlinear equations”, Computational Optimization and Applications, 80:2 (2021), 587– 615.
- A. Griewank, “Starlike domains of convergence for Newton’s method at singularities”, Numerische Mathematik, 35 (1980), 95–111.
- A. Fischer, P. K. Shukla, “A Levenberg–Marquardt algorithm for unconstrained multicriteria optimization”, Operations Research Letters, 36 (2008), 643–646.
- A. Fischer, M. Herrich, A. F. Izmailov, M. V. Solodov, “A globally convergent LP-Newton method”, SIAM J. on Optimization, 26 (2016), 2012–2033.
- J. J. Moré, B. S. Garbow, K. E. Hillstrom, “Testing unconstrained optimization software”, ACM Transactions of Mathematical Software, 7 (1981), 17–41.
- R. B. Schnabel, P. D. Frank, “Tensor methods for nonlinear equations”, SIAM J. on Numerical Analysis, 21 (1984), 815–843.
- E. D. Dolan, J. J. More, “Benchmarking optimization software with performance profiles”, Mathematical Programming, 91 (2002), 201–213.
- A. F. Izmailov, M. V. Solodov, E. I. Uskov, “Combining stabilized SQP with the augmented Lagrangian algorithm”, Computational Optimization and Applications, 62 (2015), 405–429.
- А. Ф. Измаилов, “О новых реализациях 2-фактор-метода”, Журнал вычислительной матемематики и математической физики, 55:6 (2015), 933–946; англ. пер.:A. F. Izmailov, “New implementations of the 2-factor method”, Computational Mathematics and Mathematical Physics, 55:6 (2015), 922–934.
Дополнительные файлы
