Как работает метод Левенберга-Марквардта

2019-10-04 в 19:28, admin, рубрики: trust-region, Алгоритмы, задача наименьших квадратов, математика, машинное обучение, метод доверительного региона, метод Левенберга-Марквардта, методы оптимизации

Алгоритм Левенберга-Марквардта прост. Алгоритм Левенберга-Марквардта эффективен.

А еще о нем говорят, что он где-то посередине между градиентным спуском и методом Ньютона, что бы это не значило. Ну, с методом Ньютоном и его связью с градиентным спуском вроде как разобрались. Но что имеют ввиду когда произносят эту глубокомысленную фразу? Попробуем слегка подразобраться.

В своих статьях товарищ Левенберг [Levenberg, K. A Method for the Solution of Certain Problems in Last Squares. Quart. Appl. Math. 1944. Vol. 2. P. 164—168.], а после него гражданин Марквардт [Marquardt, Donald (1963). «An Algorithm for Least-Squares Estimation of Nonlinear Parameters». SIAM Journal on Applied Mathematics. 11 (2): 431–441.] рассмотрели задачу наименьших квадратов, которая выглядит так:

$"sum_{i=1}^{N}left(f(x_{i},theta)-d_{i}right)^{2}rightarrowmin"$ ,

которую можно записать проще в векторной форме

$"parallel f(theta)-dparallel_{2}^{2}rightarrowmin"$ .

А можно еще проще, полностью забив на наименьшие квадраты. Это никак не повлияет на повествование.

Итак, рассматривается задача

$"dfrac{1}{2}parallel f(x)parallel_{2}^{2}=dfrac{1}{2}f^{T}(x)f(x)rightarrowmin"$ .

Такая задача возникает настолько часто, что важность нахождения эффективного метода ее решения сложно переоценить. Но мы начнем с другого. В предыдущей статье было показано, что широко известный метод градиентного спуска, и не только он, может быть получен из следующих соображений. Допустим, что мы пришли в некоторую точку Как работает метод Левенберга-Марквардта - 4 , в которой минимизируемая функция имеет значение . Определим в этой точке вспомогательную функцию , а также некоторую ее модель Как работает метод Левенберга-Марквардта - 7 . Для данной модели мы ставим вспомогательную задачу

$"\bar{g}(p)rightarrowmin \pinOmega"$

где Как работает метод Левенберга-Марквардта - 9 – некоторое наперед заданное множество допустимых значений, выбираемое так, чтобы задача имела простое решение и при этом функция Как работает метод Левенберга-Марквардта - 10 достаточно точно аппроксимировала на . Такую схему называют методом доверительного региона, а множество , на котором минимизируется значение модельной функции — доверительным регионом этой функции. Для градиентного спуска мы брали $"Omega=left{ pquad|parallel pparallel_{2}=Deltaright}"$ , для метода Ньютона $"Omega=left{ pquad|parallel pparallel_{H(x)}=Deltaright}"$ , а в качестве модели для Как работает метод Левенберга-Марквардта - 16 выступала линейная часть разложения в ряд Тейлора $"bar{g}=f(x)+bigtriangledown f^{T}(x)p"$ .

Посмотрим, что будет, если усложнить модель, взяв

$"bar{g}(p)=f(x)+bigtriangledown f^{T}(x)p+dfrac{1}{2}p^{T}H(x)p"$ .

Минимизируем эту модельную функцию на эллиптическом доверительном регионе $"dfrac{1}{2}parallel pparallel_{B}^{2}=Delta"$ (множитель добавлен для удобства вычислений). Применив метод множителей Лагранжа, получим задачу

$"bigtriangledown f^{T}(x)p+dfrac{1}{2}p^{T}H(x)p+dfrac{lambda}{2}p^{T}Bp-lambdaDeltarightarrowmin"$ ,

решение которой удовлетворяет равенству

Как работает метод Левенберга-Марквардта - 21

или

Как работает метод Левенберга-Марквардта - 22

Здесь, в отличие от того, что мы видели раньше при использовании линейной модели, направление p оказывается зависимым не только от метрики Как работает метод Левенберга-Марквардта - 23 , но и от выбора размера доверительного региона , а значит методика линейного поиска неприменима (по крайней мере обоснованно). Также оказывается проблемным определить в явном виде величину Как работает метод Левенберга-Марквардта - 25 , соответствующую величине . Однако вполне очевидно, что при увеличении длина будет уменьшаться. Если при этом мы еще наложим условие Как работает метод Левенберга-Марквардта - 29 , то длина шага будет не больше, чем та, которую дал бы метод Ньютона (всамделешный, без модификаций и условий).

Таким образом, мы можем вместо того, чтобы для заданного Как работает метод Левенберга-Марквардта - 30 искать подходящее значение , поступить с точностью до наоборот: найти такое , при котором выполняется условие . Это своего рода замена почившему в данном случае линейному поиску. Марквардт предложил следующую простую процедуру:

если для некотрого значения условие выполнено, то повторять до тех пор, пока
если же , то принять и повторить.

Здесь Как работает метод Левенберга-Марквардта - 40 и – константы, являющиеся параметрами метода. Умножение на соответствует расширению доверительного региона, а умножение на Как работает метод Левенберга-Марквардта - 43 – его сужению.

Указанная методика может быть применена к любой целевой функции. Заметьте, здесь уже не требуется положительная определенность гессиана в отличие от рассмотренного ранее случая, когда метод Ньютона представлялся частным случаем метода последовательного спуска. Не требуется даже его невырожденность, что в ряде случаев очень важно. Однако в этом случае увеличивается цена поиска направления, поскольку каждое изменение Как работает метод Левенберга-Марквардта - 44 приводит к необходимости решать линейную систему для определения .

Посмотрим что будет, если применить данный подход к задаче о наименьших квадратах.

Градиент функции $"bigtriangledownleft(dfrac{1}{2}f^{T}fright)=J^{T}f"$ , ее гессиан $"H=J^{T}J+G"$ , где $"J_{ij}=dfrac{partial f_{i}}{partial x_{j}}, G_{ij}=sum_{k=1}^{M}dfrac{partial^{2}f_{i}}{partial x_{j}partial x_{k}}f_{k}"$ . Подставляем и получаем следующую систему, определяющую направление поиска

$"left(J^{T}J+G+lambda Bright)p=-J^{T}f"$ .

Вполне приемлемо, но вычислять вторые производные вектор-функции может быть довольно накладно. Марквардт для обхода этой проблемы предложил использовать не саму функцию Как работает метод Левенберга-Марквардта - 50 , а ее линейную аппросимацию $"bar{f}(x)=f(x_{0})+J(x_{0})(x-x_{0})"$ , при которой матрица обращается в ноль. Если теперь в качестве взять единичную матрицу Как работает метод Левенберга-Марквардта - 54 , то получим стандартную форму метода Левенберга-Марквардта для решения задачи наименьших квадратов:

$"left(J^{T}J+lambda Iright)p=-J^{T}f"$ .

Для данного способа определения направления спуска Марквардтом же была доказана теорема о том, что при устремлении Как работает метод Левенберга-Марквардта - 56 к бесконечности направление стремится к антиградиенту. Строгое доказательство заинтересованный читатель сможет найти в базовой статье, но надеюсь, что само это утверждение стало достаточно очевидным из логики построения метода. Оно в определенной мере оправдывает вездесущую отсылку к тому, что при увеличении лямбды (которую по непонятной мне причине часто называют параметром регуляризации) мы получаем градиентный спуск. На самом деле ничего подобного — мы получили бы его только в пределе, в том самом, где длина шага стремится к нулю. Намного важнее то, что при достаточно большом значении лямбды направление, которое мы получаем, будет являться направлением спуска, а значит мы получаем глобальную сходимость метода. А вот вторая часть утверждения, что при устремлении лямбды к нулю мы получаем метод Ньютона, со всей очевидностью верна, но только если принять вместо Как работает метод Левенберга-Марквардта - 58 ее линейную аппроксимацию .

Казалось бы, всё. Минимизируем норму вектор-функции в эллиптической метрике – используем Левенберга-Марквардта. Имеем дело с функцией общего вида и имеем возможность вычислить матрицу вторых производных – велкам использовать метод доверительного региона общего вида. Но есть же извращенцы…

Иногда методом Левенберга-Марквардта для минимизации функции Как работает метод Левенберга-Марквардта - 60 называют выражение вот такого вида:

$"left(H^{T}H+lambda Iright)p=-H^{T}bigtriangledown f"$ .

Вроде все то же самое, но здесь Как работает метод Левенберга-Марквардта - 62 – матрица вторых! производных функции . Формально это имеет право на существование, но является извращением. И вот почему. Тот же Марквардт в своей статье предложил метод решения системы уравнений Как работает метод Левенберга-Марквардта - 64 путем минимизации функции $"parallel F(x)parallel_{2}^{2}"$ описанным методом. Если в качестве взять градиент целевой функции, то действительно получим приведенное выражение. А извращение это потому, что

решается задача минимизации, порождаемая системой нелинейных уравнений, порождаемых задачей минимизации.

Даблстрайк. Такое выражение, как минимум, не лучше первого уравнения сферического доверительного региона, а вообще намного хуже как с точки зрения производительности (лишние операции по умножению, а в нормальных реализациях — факторизации), так и с точки зрения устойчивости метода (умножение матрицы на себя ухудшает ее обусловленность). Здесь иногда возражают, что $"H^{T}H"$ гарантированно положительно определена, но в данном случае это не имеет никакого значения. Давайте посмотрим на метод Левенберга-Марквардта с позиций метода последовательного спуска. В этом случае мы, получается, хотим в качестве метрики использовать матрицу Как работает метод Левенберга-Марквардта - 68 , и чтобы она могла выступать в этом качестве, значение должно обеспечивать ее положительную определенность. Учитывая, что Как работает метод Левенберга-Марквардта - 70 положительно определена, нужное значение всегда может быть найдено — а значит никакой необходимости требовать от положительной определенности не наблюдается.

В качестве матрицы Как работает метод Левенберга-Марквардта - 73 не обязательно брать единичную, но для квадратичной модели целевой функции указать адекватный доверительный регион уже не так просто, как для линейной модели. Если брать эллиптический регион, индуцированный гессианом, то метод вырождается в метод Ньютона (ну, почти)

$"left(J^{T}J+lambda J^{T}Jright)p=left(1+lambdaright)J^{T}Jp=-J^{T}fapproxleft(1+lambdaright)Hp=-bigtriangledownleft(dfrac{1}{2}f^{T}fright)."$

Если, конечно, матрица Гессе положительно определена. Если нет — то как и раньше можно в качестве метрики использовать исправленный гессиан, либо некоторую матрицу, к нему в каком-либо смысле близкую. Встречается также рекомендация использовать в качестве метрики матрицу $"diag(J^{T}J)"$ , которая по построению гарантированно является положительно определенной. К сожалению, мне не известно хоть сколь-нибудь строгого обоснования данного выбора, но в качестве эмпирической рекомендации он упоминается довольно часто.

В качестве иллюстрации давайте посмотрим, как ведет себя метод на все той же функции Розенброка, причем мы будем рассматривать ее в двух ипостасях — как простую функцию, записанную в форме

$"f(x,y)=(1-x)^{2}+100(y-x^{2})^{2}rightarrowmin"$ ,

и как задачу наименьших квадратов

$"\f(x,y)=leftVert begin{array}{c}1-x\100(y-x^{2})end{array}rightVert _{2}^{2}rightarrowmin"$

Как работает метод Левенберга-Марквардта - 78
Так ведет себя метод со сферическим доверительным регионом.

Так тот же метод ведет себя в том случае, если форма доверительного региона задается матрицей, построенной по правилу Давидона-Флетчера-Пауэла. Влияние на сходимость имеется, но куда скромнее, чем в аналогичном случае при использовании линейной модели целевой функции.
Как работает метод Левенберга-Марквардта - 80
А это уже поведение метода, примененного к задаче наименьших квадратов. Сходится за 5 итераций. Только пожалуйста, не делайте из этого вывода, что вторая формулировка для функций такого вида всегда лучше первой. Это не так, просто в этом конкретном случае случае так вышло.

Заключение

Метод Левенберга-Марквардта является, на сколько мне известно, первым методом, основанным на идее доверительного региона. Он весьма неплохо показал себя на практике при решении задачи наименьших квадратов. Сходится метод в большинстве случаев (виденных мной) довольно быстро (о том, хорошо это или плохо я говорил в предыдущей статье). Однако при минимизации функций общего вида выбирать сферу в качестве доверительного региона — вряд ли наилучший из возможных вариантов. Кроме того, существенным недостатком метода (в его базовой формулировке, которая здесь и была описана) является то, что размер доверительного региона задается неявно. Недостаток проявляется в том, что зная значение Как работает метод Левенберга-Марквардта - 81 мы, конечно, можем в текущей точке посчитать просто вычислив длину шага . Однако когда мы перейдем в новую точку, этому же значению Как работает метод Левенберга-Марквардта - 84 будет уже соответствовать совсем другая величина доверительного региона. Таким образом, мы лишаемся возможности определения “характерной для задачи” величины доверительного региона и вынуждены в каждой новой точке определять его размер по-новому. Это может быть существенным, когда для сходимости требуется достаточно большое количество итераций, а вычисление значения функции обходится недешево. Подобные проблемы решаются в более продвинутых методах, основанных на идее доверительного региона.