Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, T. 514, № 2, стр. 99-108

МЕТОДЫ, ИСПОЛЬЗУЮЩИЕ ГРАДИЕНТНЫЙ КЛИППИНГ, ДЛЯ ЗАДАЧ СТОХАСТИЧЕСКОЙ ОПТИМИЗАЦИИ С ТЯЖЕЛЫМ ШУМОМ

М. Ю. Данилова 1*

1 Московский физико-технический институт
Москва, Россия

* E-mail: danilovamarina15@gmail.com

Поступила в редакцию 02.09.2023
После доработки 08.10.2023
Принята к публикации 15.10.2023

Полный текст (PDF)

Аннотация

Эта статья представляет собой обзор результатов ряда исследований [Gorbunov et al., 2020, 2021, 2022, Sadiev et al., 2023], в которых постепенно устранялись открытые вопросы, связанные с анализом сходимости с большой вероятностью стохастических методов оптимизации первого порядка при слабых предположениях о шуме. В начале мы представим концепцию градиентного клиппинга, которая играет ключевую роль в развитии стохастических методов для успешной работы в случае распределений с тяжелыми хвостами. Далее мы рассмотрим важность получения оценок сходимости методов в вероятностном контексте и их взаимосвязь с оценками сходимости по математическому ожиданию. Заключительные разделы статьи посвящены основным результатам в области задач минимизации и результатам численных экспериментов.

Ключевые слова: выпуклая оптимизация, стохастическая оптимизация, методы первого порядка

1. ВВЕДЕНИЕ

Одной из основных задач в области искусственного интеллекта на данный момент является объединение теории и практики машинного обучения. В теории методов оптимизации, которые являются важным звеном в машинном обучении, обеспечивая эффективную настройку моделей и обработку данных, образование данной связи проявляется в исследованиях при более слабых предположениях, чем стандартные. Эти исследования направлены на анализ методов в более широком классе задач и способствуют более эффективному применению методов машинного обучения. Также стоит отметить, что некоторые явления, возникающие при реализации методов, не могут быть объяснены с помощью классического рассмотрения сходимости по математическому ожиданию [Gorbunov et al., 2020], что вызывает возрастающий интерес к рассмотрению сходимости с большой вероятностью. Таким образом, исследования сходимости методов с большой вероятностью при менее строгих условиях на целевую функцию действительно являются важной областью исследования в области искусственного интеллекта. Несмотря на значительный интерес к данной теме [Nazin et al., 2019, Davis et al., 2021, Cutkosky and Mehta, 2021, Nguyen et al., 2023, Liu and Zhou, 2023, Liu et al., 2023], некоторые важные аспекты оставались неисследованными на протяжении продолжительного времени. Это продолжалось до появления серии работ [Gorbunov et al., 2020, 2021, 2022, Sadiev et al., 2023], в которых были предложены и подробно проанализированы методы, основанные на применении градиентного клиппинга, для решения задач минизации и вариационных неравенств в предположении, что градиентный/операторный шум имеет ограниченный центральный α-й момент для $\alpha \in (1,2]$.

2. ГРАДИЕНТНЫЙ КЛИППИНГ И ТЯЖЕЛЫЕ ХВОСТЫ РАСПРЕДЕЛЕНИЯ

В рассматриваемых далее методах одним из ключевых аспектов для достижения желаемых теоретических результатов является градиентный клиппинг. Этот оператор играет важную роль в случаях, когда стохастические градиенты содержат шум с распределением, имеющим тяжелые хвосты. В данной главе мы более подробно изучим оператор клиппинга и определим понятие тяжелых хвостов распределений.

В машинном обучении мы часто сталкиваемся с ситуацией, когда, решая задачу минимизации, у нас есть доступ только к стохастическому градиенту. В таком случае мы можем решать данную задачу, генерируя последовательность ${{\{ {{x}_{k}}\} }_{{k \geqslant 0}}}$ с помощью стохастического градиентного спуска SGD, который является одним из наиболее распространенных методов оптимизации, применяемых в случае стохастической оптимизации. Классический стохастический градиентный спуск выглядит следующим образом

(SGD)
${{x}^{{k + 1}}} = {{x}^{k}} - \gamma \cdot \nabla f({{x}^{k}},{{\xi }^{k}}),$
где $f(x)$ – целевая функция, γ – размер шага, $\nabla f({{x}^{k}},{{\xi }^{k}})$ – стохастический градиент, т.е. несмещенная оценка $\nabla f({{x}^{k}})$: ${{\mathbb{E}}_{{{{\xi }^{k}}}}}[\nabla f({{x}^{k}},{{\xi }^{k}})] = \nabla f({{x}^{k}})$.

Градиентный клиппинг

Путем взятия нелинейности от стохастического градиента мы можем получить новый метод с градиентным клиппингом, который применяется для контроля нормы градиента

(clipped-SGD)
${{x}^{{k + 1}}} = {{x}^{k}} - \gamma \cdot {\text{clip}}\left( {\nabla f({{x}^{k}},{{\xi }^{k}}),\lambda } \right),$
(1)
${\text{clip}}(x,\lambda ) = \left\{ \begin{gathered} \min \left\{ {1,\frac{\lambda }{{{\text{||}}x{\text{||}}}}} \right\}x,\,\,\,{\text{если}}\,\,x \ne 0, \hfill \\ 0,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,{\text{иначе}}{\text{.}} \hfill \\ \end{gathered} \right.$

Данная техника полезна в случаях, когда градиент может быть слишком большим и вызывать проблемы с обучением, такие как взрывной градиент. Градиентный клиппинг ограничивает норму градиента до определенного предела $\lambda > 0$, чтобы избежать таких проблем. Это позволяет контролировать скорость обновления параметров модели и повышает стабильность процесса обучения. Отметим, что оператор ${\text{clip}}(\nabla f({{x}^{k}},{{\xi }^{k}}),\lambda )$смещенная оценка $\nabla f({{x}^{k}})$: ${{\mathbb{E}}_{{{{\xi }^{k}}}}}[{\text{clip}}(\nabla f({{x}^{k}},{{\xi }^{k}}),\lambda )] \ne \nabla f({{x}^{k}})$, усложняющая анализ clipped-SGD. Клиппинг набрал популярность в области искусственного интеллекта и машинного обучения с момента публикации статьи [Pascanu et al., 2013] в 2013 г. В этой статье было предложено использовать градиентный клиппинг для решения проблемы взрывающихся градиентов при обучении рекуррентных нейронных сетей. В случае метода без клиппинга значения целевой функции сильно колеблются на разных итерациях обучения, что указывает на нестабильность процесса обучения. В то же время метод с клиппингом градиента проявляет более стабильную сходимость. Это свидетельствует о робастности и надежности сходимости метода с клиппингом градиента. Клиппинг градиента и подобные подходы широко применяются в различных задачах обработки естественного языка (NLP). В 2017 г. было предложено использование клиппинга в LSTM моделях [Merity et al., 2018], а затем в двунаправленной языковой модели [Peters et al., 2017]. В 2020 г. он был применен для тонкой настройки модели BERT [Mosbach et al., 2020]. Эти исследования и применения свидетельствуют о тенденции использования клиппинга или подобных подходов в задачах NLP. Это обусловлено необходимостью обеспечения стабильности и робастности обучения моделей, особенно в случаях с большими и сложными наборами данных, типичными для NLP задач.

В работе [Zhang et al., 2020] представлены результаты эксперимента, целью которого было исследование влияния градиентного клиппинга. Для модели ResNet50 на наборе данных ImageNet эффективно работает стандартный SGD с моментумом, что делает клиппинг необязательным. Но при обучении BERT на Wikipedia+Books градиенты имеют тяжелые хвосты, и метод ADAM, как адаптивный покомпонентный клиппинг, обеспечивает более эффективное обучение и сходимость. ADAM, адаптируя скорость обучения для каждого параметра индивидуально, позволяет более эффективно работать с тяжелыми хвостами распределений градиентов и обеспечивает более стабильное и быстрое обучение модели BERT. Правило обновления для ADAM согласно [Kingma and Ba, 2014] записывается в следующем виде

${{m}_{k}} = {{\beta }_{1}}{{m}_{{k - 1}}} + (1 - {{\beta }_{1}})\nabla f({{x}^{k}},{{\xi }^{k}}),$
${{V}_{k}} = {{\beta }_{2}}{{V}_{{k - 1}}} + (1 - {{\beta }_{2}})(\nabla f({{x}^{k}},{{\xi }^{k}}{{))}^{2}},$
${{x}^{{k + 1}}} = {{x}^{k}} - \frac{\gamma }{{\sqrt {{{V}_{k}} + \delta } }}{{m}^{k}},$
где все операции с векторами (возведение в квадрат, извлечение корня, деление на вектор) происходят покомпонентно $ \odot $. Когда ${{\beta }_{1}} = 0$ Adam(RMSprop) можно рассматривать как clipped-SGD c “адаптивным” и покомпонентным ${{\lambda }_{k}}$.

Тяжелые хвосты распределения

Далее давайте определим, в каком случае мы будем считать, что распределение имеет тяжелый хвост. Мы будем говорить, что случайный вектор $X$ имеет легкие (субгауссовские) хвосты распределения, если выполняет следующее неравенство:

(2)
$\mathbb{P}\left\{ {\left\| {X - \mathbb{E}[X]} \right\|\; \geqslant \;b} \right\}\;\leqslant \;2\exp \left( { - \frac{{{{b}^{2}}}}{{2{{\sigma }^{2}}}}} \right)\quad \forall b > 0,$
которое эквивалентно (с точностью до числового коэффициента в $\sigma $)

(3)
$\mathbb{E}\left[ {\exp \left( {\frac{{{{{\left\| {X - \mathbb{E}[X]} \right\|}}^{2}}}}{{{{\sigma }^{2}}}}} \right)} \right]\;\leqslant \;\exp (1).$

В общем случае мы говорим, что случайный вектор $X$ имеет тяжелые хвосты распределения, если не выполнено условие (2) и существует конечная дисперсия. Однако были получены результаты при более общем условии, что он имеет ограниченный центральный $\alpha $-й момент для некоторого $\alpha \in (1,2]$:

(4)
$\mathbb{E}\left[ {{{{\left\| {X - \mathbb{E}[X]} \right\|}}^{\alpha }}} \right]\;\leqslant \;{{\sigma }^{\alpha }}.$

Когда $\alpha = 2$, приведенное выше предположение восстанавливает стандартное предположение о равномерно ограниченной дисперсии. Однако предположение (4) допускает, чтобы дисперсия была неограниченной, когда $\alpha \in (1,2)$.

3. СХОДИМОСТЬ С БОЛЬШОЙ ВЕРОЯТНОСТЬЮ И СХОДИМОСТЬ ПО МАТЕМАТИЧЕСКОМУ ОЖИДАНИЮ

В этом обзоре мы рассматриваем исследования, в которых были получены результаты, основанные на сходимости с большой вероятностью. В данной главе мы обсудим важность обеспечения гарантий сходимости с большой вероятностью и недостатки оценок, связанных со сходимостью по математическому ожиданию.

Задача и ограничения

В первую очередь давайте формально определим рассматриваемую нами задачу и уточним предположения, с которыми мы работаем. Мы рассматриваем задачу безусловной стохастической оптимизации, где целевая функция представляет собой математическое ожидание относительно переменной $\xi $

(5)
$\mathop {\min }\limits_{x \in {{\mathbb{R}}^{n}}} \left\{ {f(x) = {{\mathbb{E}}_{\xi }}\left[ {f(x,\xi )} \right]} \right\},$
где $f\,:\,\,{{\mathbb{R}}^{n}}\, \to \,\mathbb{R}$ выпуклая и L-гладкая, т.е. $\forall x,y\, \in \,{{\mathbb{R}}^{n}}$

(6)
$f(x)\; \geqslant \;f(y) + \langle \nabla f(y),x - y\rangle ,$
(7)
$\left\| {\nabla f(x) - \nabla f(y)} \right\|\;\leqslant \;L\left\| {x - y} \right\|.$

Стохастический градиент $\nabla f(x,\xi )$ с ограниченным центральным $\alpha $-м моментом ($\alpha \in (1,2]$), т.е. $\forall x \in {{\mathbb{R}}^{n}}$

(8)
$\begin{gathered} {{\mathbb{E}}_{\xi }}\left[ {\nabla f(x,\xi )} \right] = \nabla f(x), \\ {{\mathbb{E}}_{\xi }}\left[ {{{{\left\| {\nabla f(x,\xi ) - \nabla f(x)} \right\|}}^{\alpha }}} \right]\;\leqslant \;{{\sigma }^{\alpha }}. \\ \end{gathered} $

Cходимость итеративного метода

Теперь давайте уточним, что мы понимаем под сходимостью итеративного метода. Какие гарантии на сходимость могут быть предоставлены? Мы будем рассматривать два подхода к анализу этих методов.

Сходимость в среднем. Сходимость в среднем (по математическому ожиданию) подразумевает определение числа итераций N (или вызовов оракула), необходимых для достижения такой точки ${{x}^{N}}$, при которой выполняется одно из следующих условий: $\mathbb{E}[{\text{||}}{{x}^{N}} - x{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}}]\;\leqslant \;\varepsilon $, $\mathbb{E}[f({{x}^{N}}) - f(x{\kern 1pt} *)]\;\leqslant \;\varepsilon $, $\mathbb{E}[{\text{||}}\nabla f({{x}^{N}}){\text{|}}{{{\text{|}}}^{2}}]\;\leqslant \;\varepsilon $. Обычно такие гарантии зависят только от определенных моментов стохастического градиента, таких как дисперсия.

Сходимость с большой вероятностью. Сходимость с большой вероятностью подразумевает определение числа итераций N (или вызовов оракула), необходимых для достижения такой точки ${{x}^{N}}$, при которой выполняется одно из следующих условий: $\mathbb{P}\{ {\text{||}}{{x}^{N}}\, - \,x{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}}\;\leqslant \;\varepsilon \} \; \geqslant \;1$ – β, $\mathbb{P}\{ f({{x}^{N}})\, - \,f(x{\kern 1pt} *)\,\leqslant \,\varepsilon \} $ $ \geqslant $ 1 – – β, $\mathbb{P}\{ {\text{||}}\nabla f({{x}^{N}}){\text{|}}{{{\text{|}}}^{2}}\;\leqslant \;\varepsilon \} \; \geqslant \;1$ – β. Такие гарантии чувствительны к распределению шума в стохастических градиентах.

Недостатки сходимости по математическому ожиданию

Для того, чтобы продемонстрировать, что гарантии, связанные с математическим ожиданием, нечувствительны к распределению шума, давайте рассмотрим простой пример. Возьмем следующую задачу минимизации и применим алгоритм SGD с постоянным шагом

(9)
$\mathop {\min }\limits_{x \in {{\mathbb{R}}^{n}}} \left\{ {f(x)\, = \,{{\mathbb{E}}_{\xi }}[f(x,\xi )]} \right\},\quad f(x,\xi )\, = \,\frac{1}{2}{\text{||}}x{\text{|}}{{{\text{|}}}^{2}} + \langle \xi ,x\rangle ,$
где $\mathbb{E}[\xi ] = 0$ и $\mathbb{E}[{\text{||}}\xi {\text{|}}{{{\text{|}}}^{2}}] = {{\sigma }^{2}}$. Нас интересует случай ограниченной дисперсии в (4) (α = 2), так как согласно примеру в работе [Zhang et al., 2020] в случае не субгауссовского распределения случайной величины $\xi $, SGD может не сходиться по математическому ожиданию, когда $\alpha < 2$. В данном примере рассмотрим 3 варианта распределения $\xi $: нормальное (гауссовское) распределение, распределение Вейбулла (не субгауссовское), распределение Бёрра XII (не субгауссовоское). Оказывается, что все три случая не будут отличимы для гарантий по математическому ожиданию, поскольку известные гарантии для алгоритма SGD [Ghadimi and Lan, 2013] не зависят от распределения шума

(10)
$\begin{gathered} \mathbb{E}[f({{x}^{k}}) - f(x{\kern 1pt} *)]\;\leqslant \\ \leqslant \;{{(1 - \gamma )}^{k}}(f({{x}^{0}}) - f(x{\kern 1pt} *)) + \frac{{\gamma {{\sigma }^{2}}}}{2}. \\ \end{gathered} $

В представленной оценке действительно нет явной информации о распределении. Однако как показано на рис. 1, на практике поведение метода может зависеть от распределения шума.

Рис. 1.

Траектории SGD и clipped-SGD, применяемые для решения задачи (9) c тремя различными распределениями случайной величиной $\xi $ (нормальным, Вейбулла и Бёрра XII) [Gorbunov et al., 2020].

Анализируя графики 1, мы приходим к выводу, что при запуске метода нам бы хотелось уже после первого запуска иметь гарантии с высокой вероятностью получить хорошее решение. В случае обычного SGD мы не можем гарантировать это без уменьшения шага для сдерживания всплесков, что приводит к потери скорости. Однако в случае clipped-SGD с правильным уровнем клиппинга, мы можем избежать необходимости уменьшения шага. Чтобы оценить эту разницу, мы будем рассматривать оценки сходимости с большой вероятностью.

Результаты о сходимости с большой вероятностью в предположении легких хвостов

Прежде чем приступить к обсуждению новейших результатов, давайте посмотрим, что было известно на момент начала обозреваемого цикла работ, т.е. к 2020 г. При предположении о легких хвостах распределения (3), а также при условии выпуклости и L-гладкости функции f, было известно следующее Devolder et al. [2011] показали, что алгоритм SGD достигает точки $\hat {x}$, для которой выполняется неравенство $f(\hat {x})\, - \,f(x{\kern 1pt} *)\,\leqslant \,\varepsilon $ с вероятностью не менее $1 - \beta $, используя

$\begin{gathered} \mathcal{O}\left( {\max \left\{ {\frac{{LR_{0}^{2}}}{\varepsilon },\frac{{{{\sigma }^{2}}R_{0}^{2}}}{{{{\varepsilon }^{2}}}}\mathop {\ln }\nolimits^2 \left( {\frac{1}{\beta }} \right)} \right\}} \right) \\ {\text{вызовов}}\;{\text{оракула}}{\text{.}} \\ \end{gathered} $
Ghadimi and Lan [2012] показали, что алгоритм SGD достигает точки $\hat {x}$, для которой выполняется неравенство $f(\hat {x}) - f(x{\kern 1pt} *)\;\leqslant \;\varepsilon $ с вероятностью не менее $1 - \beta $, используя

$\begin{gathered} \mathcal{O}\left( {\max \left\{ {\sqrt {\frac{{LR_{0}^{2}}}{\varepsilon }} ,\frac{{{{\sigma }^{2}}R_{0}^{2}}}{{{{\varepsilon }^{2}}}}\mathop {\ln }\nolimits^2 \left( {\frac{1}{\beta }} \right)} \right\}} \right) \\ {\text{вызовов}}\;{\text{оракула}}{\text{.}} \\ \end{gathered} $

Неравенство Маркова

На текущем этапе важно отметить, что нельзя просто применить неравенство Маркова и получить гарантии сходимости с большой вероятностью на основе сходимости по математическому ожиданию. Используя неравенство Маркова

(11)
$\mathbb{P}\{ f(\hat {x}) - f(x{\kern 1pt} *) > \varepsilon \} < \frac{{\mathbb{E}\left[ {f(\hat {x}) - f(x{\kern 1pt} *)} \right]}}{\varepsilon }$
и сделав достаточное количество шагов в алгоритме SGD, мы можем обеспечить гарантию $\mathbb{E}[f(\hat {x})\, - \,f(x{\kern 1pt} *)]\,\leqslant \,\varepsilon \beta $, что даст нам $\mathbb{P}\{ f(\hat {x})$f(x*) > > $\varepsilon \} \,\leqslant \,\beta $ или $\mathbb{P}\left\{ {f(\hat {x}) - f(x{\kern 1pt} *)\;\leqslant \;\varepsilon } \right\}\; \geqslant $ 1 – β. Для достижения точности $\mathbb{E}[f(\hat {x})\, - \,f(x{\kern 1pt} *)]\;\leqslant \;\varepsilon \beta $ методу SGD необходимо

$\mathcal{O}\left( {\max \left\{ {\frac{{LR_{0}^{2}}}{{\varepsilon \beta }},\frac{{{{\sigma }^{2}}R_{0}^{2}}}{{{{\varepsilon }^{2}}{{\beta }^{2}}}}} \right\}} \right)\quad {\text{вызовов}}\;{\text{оракула}}{\text{.}}$

К сожалению, зависимость от ${{\beta }^{{ - a}}},\;a > 0$ не подходит, так как необходимо получить логарифмическую зависимость от $\frac{1}{\beta }$, потому что $\beta $ должно быть маленьким. Поэтому неравенство Маркова не позволяет получить нужные гарантии о сходимости с большой вероятностью. Однако возникает вопрос: можно ли более точно проанализировать сходимость алгоритма SGD с большой вероятностью? Да, cледующая теорема содержит результаты о сходимости SGD в предположении тяжелых хвостов, но при этом подчеркивает необходимость модификации классического алгоритма SGD. Градиентный клиппинг, описанный в предыдущей главе, является подходящим решением этой задачи.

Теорема 3.1. Для любых $\varepsilon > 0$, $\beta \in (0,1)$ и алгоритма SGD параметризованного количеством шагов $K$ и длиной шага $\gamma $, существует $\mu $-сильно выпуклая $L$-гладкая задача $\mathop {\min }\limits_{x \in Q} f(x)$, а также стохастический оракул с шумом, имеющим ограниченный α-й момент с $\alpha = 2$, при условии $0 < \mu \;\leqslant \;L$ такие, что для алгоритма SGD с длиной шага $0\,\leqslant \,\gamma \,\leqslant \,\frac{1}{\mu }$ выполнено следующее

(12)
$\mathbb{P}\left\{ {{{{\left\| {{{x}^{K}} - x{\text{*}}} \right\|}}^{2}} \geqslant \varepsilon } \right\} \leqslant \beta \Rightarrow K = \Omega \left( {\frac{\sigma }{{\mu \sqrt {\beta \varepsilon } }}} \right).$

Результаты о сходимости с большой вероятностью в предположении тяжелых хвостов

Давайте рассмотрим известные результаты о гарантиях сходимости алгоритма SGD с большой вероятностью. В случае, когда распределение имеет тяжелые хвосты, т.е. не выполнено условие (2), и дисперсия равномерно ограничена (4) ($\alpha = 2$), первые результаты были получены в 2019 г. Nazin et al. [2019] предложили Robust Stochastic Mirror Descent (RSMD), напоминающий clipped-SGD, и доказали следующую оценку

$\mathcal{O}\left( {\max \left\{ {\frac{{L{{D}^{2}}}}{\varepsilon },\frac{{{{\sigma }^{2}}{{D}^{2}}}}{{{{\varepsilon }^{2}}}}} \right\}\ln \left( {\frac{1}{\beta }} \right)} \right).$

Это была первая работа в данной области. Из недостатков стоит отметить, что доказательство опирается на диаметр множества $D < + \infty $ и нет ускорения метода. В скором времени был получен новый результат для другого метода. Davis et al. [2021] предложили proxBoost, основанный на робастном оценивании расстояния и методе проксимальной точки. Авторы данной работы доказали следующую оценку (в сильно выпуклом случае):

$\mathcal{O}\left( {\max \left\{ {\sqrt {\frac{L}{\mu }} \ln \left( {\frac{{LR_{0}^{2}\ln \frac{L}{\mu }}}{\varepsilon }} \right),\frac{{{{\sigma }^{2}}\ln \frac{L}{\mu }}}{{\mu \varepsilon }}} \right\}\ln \left( {\frac{L}{\mu }} \right)\ln \left( {\frac{{\ln \frac{L}{\mu }}}{\beta }} \right)} \right).$

Данный результат ускоренный и получен для любой выпуклой замкнутой области (ограниченной/неограниченной). При этом стоит отметить, что предложенный метод требует решения вспомогательной задачи на каждой итерации, а так же в оценке появился дополнительный логарифм числа обусловленности.

4. ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДЛЯ ЗАДАЧ МИНИМИЗАЦИИ

В данной главе мы обсудим основные результаты для задач минимизации, методы и сложности, связанные с их анализом. Давайте начнем с неускоренного метода clipped-SGD. В связи с тем, что его проще анализировать, чем другие методы, на его примере мы сможем понять, с какими сложностями можно столкнуться при анализе методов с клиппингом. Шаг метода clipped-SGD

${{x}^{{k + 1}}} = {{x}^{k}} - \gamma \cdot \underbrace {clip(\nabla f({{x}^{k}},{{\xi }^{k}}),\lambda )}_{\widetilde \nabla f({{x}^{k}},{{\xi }^{k}})}.$

Смещенность оценки $\mathbb{E}[\widetilde \nabla f({{x}^{k}},{{\xi }^{k}})\,{\text{|}}\,{{x}^{k}}]\, \ne \,\nabla f({{x}^{k}})$ – основная причина сложностей, возникающих при теоретическом анализе. Для того, чтобы понять, где именно возникает эта проблема, давайте посмотрим классическое доказательство сходимости SGD

$\begin{gathered} {\text{||}}{{x}^{{k + 1}}} - x{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}} = {\text{||}}{{x}^{k}} - x{\kern 1pt} *{\text{|}}{{{\text{|}}}^{2}} - \\ \, - 2\gamma \langle {{x}^{k}} - x{\kern 1pt} *,\widetilde \nabla f({{x}^{k}},{{\xi }^{k}})\rangle + {{\gamma }^{2}}{\text{||}}\widetilde \nabla f({{x}^{k}},{{\xi }^{k}}){\text{|}}{{{\text{|}}}^{2}}. \\ \end{gathered} $

Используя выпуклость гладкость f и перегруппировывая слагаемые, получается следующее выражение:

$\begin{gathered} \frac{{2\gamma (1 - 2\gamma L)}}{N}\sum\limits_{k = 0}^{N - 1} {{\Delta }_{k}}\;\leqslant \;\frac{1}{N}(R_{0}^{2} - R_{N}^{2}) + \\ \, + \frac{{2\gamma }}{N}\sum\limits_{k = 0}^{N - 1} \langle x{\kern 1pt} * - {{x}^{k}},{{\theta }_{k}}\rangle + \frac{{2{{\gamma }^{2}}}}{N}\sum\limits_{k = 0}^{N - 1} {\text{||}}{{\theta }_{k}}{\text{|}}{{{\text{|}}}^{2}}, \\ \end{gathered} $
где ${{\Delta }_{k}} = f({{x}^{k}}) - f(x{\kern 1pt} *)$, ${{R}_{k}} = {\text{||}}{{x}^{k}} - x{\kern 1pt} *{\text{||}}$, θk = = $\widetilde \nabla f({{x}^{k}},{{\xi }^{k}}) - \nabla f({{x}^{k}})$. Красным цветом выделена стохастическая часть суммы, но как оценить сверху эти слагаемые? Это достигается с помощью применения неравенства Бернштейна.

Неравенство Бернштейна для мартингальных разностей

Лемма 4.1. [Bennett, 1962, Dzhaparidze and Van Zanten, 2001, Freedman et al., 1975] Пусть последовательность случайных величин ${{\{ {{X}_{i}}\} }_{{i \geqslant 1}}}$ образует последовательность мартингальных разностей, т.е. $\mathbb{E}\left[ {{{X}_{i}}\,{\text{|}}\,{{X}_{{i - 1}}}, \ldots ,{{X}_{1}}} \right] = 0$ для любых $i \geqslant 1$. Предположим, что существуют условные ограниченные дисперсии $\sigma _{i}^{2}\;\mathop = \limits^{{\text{def}}} \;\mathbb{E}[X_{i}^{2}\,{\text{|}}\,{{X}_{{i - 1}}}, \ldots ,{{X}_{1}}]$, а также существует константа c > 0 такая, что ${\text{|}}{{X}_{i}}{\text{|}} \leqslant c$ для любых $i \geqslant 1$. Тогда для любых $b > 0$, $G > 0$ и $N \geqslant 1$

$\mathbb{P}\left\{ {\left| {\sum\limits_{i = 1}^N {{X}_{i}}} \right| > b\;{\text{и}}\;\sum\limits_{i = 1}^N \sigma _{i}^{2} \leqslant G} \right\} \leqslant 2\exp \left( { - \frac{{{{b}^{2}}}}{{2G + 2cb{\text{/}}3}}} \right).$

Для того, чтобы применить лемму (4.1) для сумм $\frac{{2\gamma }}{N}\sum\nolimits_{k = 0}^{N - 1} {\langle x{\kern 1pt} *\; - {{x}^{k}},{{\theta }_{k}}\rangle } $ + $\frac{{2{{\gamma }^{2}}}}{N}\sum\nolimits_{k = 0}^{N - 1} {{\text{||}}{{\theta }_{k}}{\text{|}}{{{\text{|}}}^{2}}} $, необходимо ограничить смещение, дисперсию, ${\text{||}}{{x}^{k}} - x{\kern 1pt} *{\text{||}}$ и ${\text{||}}{{\theta }_{k}}{\text{||}}$ с большой вероятностью. Следующая лемма была доказана для работы со смещением, дисперсией и т.д.

Лемма 4.2. Пусть X случайный вектор в ${{\mathbb{R}}^{n}}$ и $\widetilde X = {\text{clip}}(X,\lambda )$. Тогда,

(13)
$\left\| {\widetilde X - \mathbb{E}[\widetilde X]} \right\|\;\leqslant \;2\lambda .$

Более того, если для некоторых $\sigma \; \geqslant \;0$ и $\sigma \in [1,2)$ выполняется

(14)
$\mathbb{E}[X] = x \in {{\mathbb{R}}^{n}},\quad \mathbb{E}[{\text{||}}X - x{\text{|}}{{{\text{|}}}^{\alpha }}]\;\leqslant \;{{\sigma }^{\alpha }}$
и ${\text{||}}x{\text{||}}\;\leqslant \;\lambda {\text{/}}2$, тогда

(15)
$\left\| {\mathbb{E}[\widetilde X] - x} \right\|\;\leqslant \;\frac{{{{2}^{\alpha }}{{\sigma }^{\alpha }}}}{{{{\lambda }^{{\alpha - 1}}}}},$
(16)
$\mathbb{E}[{\text{||}}\widetilde X - \mathbb{E}[\widetilde X]{\text{|}}{{{\text{|}}}^{2}}]\;\leqslant \;18{{\lambda }^{{2 - \alpha }}}{{\sigma }^{\alpha }}.$

Остается ограничить расстояние до решения. В силу того, что ${{\Delta }_{k}}\; \geqslant \;0$ $\forall k\; \geqslant \;0$, полученное ранее неравенство

$\begin{gathered} \frac{{2\gamma (1 - 2\gamma L)}}{N}\sum\limits_{k = 0}^{N - 1} {{\Delta }_{k}}\;\leqslant \;\frac{1}{N}(R_{0}^{2} - R_{N}^{2}) + \\ \, + \frac{{2\gamma }}{N}\sum\limits_{k = 0}^{N - 1} \langle x{\kern 1pt} *\; - {{x}^{k}},{{\theta }_{k}}\rangle + \frac{{2{{\gamma }^{2}}}}{N}\sum\limits_{k = 0}^{N - 1} {\text{||}}{{\theta }_{k}}{\text{|}}{{{\text{|}}}^{2}} \\ \end{gathered} $
можно переписать следующим образом

$R_{N}^{2}\;\leqslant \;R_{0}^{2} + 2\gamma \sum\limits_{k = 0}^{N - 1} \langle x{\kern 1pt} *\; - {{x}^{k}},{{\theta }_{k}}\rangle + 2{{\gamma }^{2}}\sum\limits_{k = 0}^{N - 1} {\text{||}}{{\theta }_{k}}{\text{|}}{{{\text{|}}}^{2}}.$

Основная идея: доказать по индукции ${{R}_{N}}\;\leqslant \;C{{R}_{0}}$ с большой вероятностью для некоторой числовой константы C. Это означает, что точки, генерируемые методом, остаются в некотором шаре вокруг решения. Мы представили общий подход к получению вероятностных оценок сходимости методов, использующих градиентный клиппинг в предположении, что шум имеет ограниченный центральный $\alpha $-й момент для $\alpha \in (1,2]$.

Сходимость clipped-SGD с большой вероятностью

Теорема 4.1. Пусть f выпуклая и L-гладкая на ${{B}_{{7{{R}_{0}}}}}(x{\kern 1pt} *) = \{ x \in {{\mathbb{R}}^{n}}\,{\text{|}}\,{\text{||}}x - x{\kern 1pt} *{\text{||}}\;\leqslant \;7{{R}_{0}}\} $ и (8) выполняется на ${{B}_{{7{{R}_{0}}}}}(x{\text{*}})$. Тогда для любых $\beta \in (0,1)$, $\varepsilon \; \geqslant \;0$ таких, что $\ln (LR_{0}^{2}{\text{/}}\varepsilon \beta )\; \geqslant \;2$ существует такой выбор $\gamma $, что clipped-SGD с уровнем клиппинга $\lambda \sim 1{\text{/}}\gamma $ достигает ${{\bar {x}}^{N}}$, удовлетворяющую $f({{\bar {x}}^{N}})\, - \,f(x{\kern 1pt} *)\,\leqslant \,\varepsilon $ с вероятностью не менее $1 - \beta $, используя

$\begin{gathered} \mathcal{O}\left( {\max \left\{ {\frac{{LR_{0}^{2}}}{\varepsilon },{{{\left( {\frac{{\sigma {{R}_{0}}}}{\varepsilon }} \right)}}^{{\frac{\alpha }{{\alpha - 1}}}}}\ln \left( {\frac{1}{\beta }{{{\left( {\frac{{\sigma {{R}_{0}}}}{\varepsilon }} \right)}}^{{\frac{\alpha }{{\alpha - 1}}}}}} \right)} \right\}} \right) \\ итераций{\text{/}}вызовов\;оракула. \\ \end{gathered} $

Полученный результат соответствует (с точностью до логарифмических множителей) результатам для SGD в случае легких хвостов и для RSMD в случае тяжелых хвостов, но для безусловной задачи. Отметим, что все предположения достаточно требовать на шаре вокруг решения.

Ускоренный clipped-SGD: clipped-SSTM

Теперь, имея представление о рассмотренных ранее идеях доказательства, мы готовы перейти к рассмотрению ускоренного метода. На основе метода подобных треугольников (Stochastic Similar Triangles Method) предложенного Gasnikov and Nesterov [2016], и с использованием градиентного клиппинга был получен ускоренный вариант clipped-SGDclipped-SSTM

$\begin{gathered} {{\alpha }_{{k + 1}}} = \frac{{k + 2}}{{2aL}},\quad {{A}_{{k + 1}}} = {{A}_{k}} + {{\alpha }_{{k + 1}}},\quad {{\lambda }_{{k + 1}}} = \frac{B}{{{{\alpha }_{{k + 1}}}}}, \\ {{A}_{0}} = {{a}_{0}} = 0,\,\,\,{{y}^{0}} = {{z}^{0}} = {{x}^{0}}, \\ \end{gathered} $
(clipped-SSTM)
$\begin{gathered} {{x}^{{k + 1}}} = \frac{{{{A}_{k}}{{y}^{k}} + {{\alpha }_{{k + 1}}}{{z}^{k}}}}{{{{A}_{{k + 1}}}}}, \\ {{z}^{{k + 1}}} = {{z}^{k}} - {{\alpha }_{{k + 1}}}\underbrace {\widetilde \nabla f({{x}^{{k + 1}}},{{\xi }^{k}})}_{{\text{clip}}(\nabla f({{x}^{{k + 1}}},{{\xi }^{k}}),{{\lambda }_{{k + 1}}})}, \\ \end{gathered} $
${{y}^{{k + 1}}} = \frac{{{{A}_{k}}{{y}^{k}} + {{\alpha }_{{k + 1}}}{{z}^{{k + 1}}}}}{{{{A}_{{k + 1}}}}}.$

Параметр $a$ в clipped-SSTM используется для уменьшения размера шага алгоритма, что позволяет избежать необходимости использовать большие батчи. Что касается основной идеи доказательства, она аналогична неускоренному случаю: с помощью индукции доказывается, что с высокой вероятностью выполнено неравенство ${{R}_{N}}\,\leqslant \,C{{R}_{0}}$. Так же стоит отметить, что в ускоренном случае уровень клиппинга ${{\lambda }_{{k + 1}}}$ уменьшающийся. Из-за чувствительности ускоренных методов к неточностям, включая стохастичность, использование постоянного уровня клиппинга не является достаточным, так как это может привести к значительному смещению. Для метода подобных треугольников можно доказать, что ${\text{||}}\nabla f({{x}^{{k + 1}}}){\text{||}}\, = \,{\kern 1pt} \mathcal{O}(1{\text{/}}{{\alpha }_{{k + 1}}}).$ По аналогии с детерминированным случаем выбирается ${{\lambda }_{{k + 1}}} \sim 1{\text{/}}{{\alpha }_{{k + 1}}}$, и удается доказать, что условие ${\text{||}}\nabla f({{x}^{{k + 1}}}){\text{||}}\, = \,\mathcal{O}(1{\text{/}}{{\alpha }_{{k + 1}}})$ выполняется с высокой вероятностью и в стохастическом случае.

Сходимость clipped-SSTM с большой вероятностью

Теорема 4.2. Пусть f выпуклая и $L$-гладкая на ${{B}_{{3{{R}_{0}}}}}(x{\kern 1pt} *) = \{ x \in {{\mathbb{R}}^{n}}\,{\text{|}}\,{\text{||}}x - x{\kern 1pt} *{\text{||}}\;\leqslant \;3{{R}_{0}}\} $ и (8) выполняется на ${{B}_{{3{{R}_{0}}}}}(x{\kern 1pt} *)$. Тогда для любых $\beta \in (0,1)$, $\varepsilon \; \geqslant \;0$ таких, что $\ln (\sqrt L {{R}_{0}}{\text{/}}\sqrt \varepsilon \beta )\; \geqslant \;2$ существует такой выбор a, что clipped-SSTM с уровнем клиппинга $\lambda \sim 1{\text{/}}{{\alpha }_{{k + 1}}}$ достигает yN, удовлетворяющую f(yN) – – $f(x{\kern 1pt} *)\;\leqslant \;\varepsilon $ с вероятностью не менее $1 - \beta $, используя

$\begin{gathered} \mathcal{O}\left( {\max \left\{ {\sqrt {\frac{{LR_{0}^{2}}}{\varepsilon }} \ln \frac{{LR_{0}^{2}}}{{\varepsilon \beta }},{{{\left( {\frac{{\sigma {{R}_{0}}}}{\varepsilon }} \right)}}^{{\frac{\alpha }{{\alpha - 1}}}}}\ln \left( {\frac{1}{\beta }{{{\left( {\frac{{\sigma {{R}_{0}}}}{\varepsilon }} \right)}}^{{\frac{\alpha }{{\alpha - 1}}}}}} \right)} \right\}} \right) \\ итераций{\text{/}}вызовов\;оракула{\text{.}} \\ \end{gathered} $

Полученный результат соответствует (с точностью до логарифмических множителей) результатам для AC-SA в случае легких хвостов и лучше чем результаты для clipped-SGD. Так же в работах [Gorbunov et al., 2020, 2021, 2022, Sadiev et al., 2023] получены результаты для невыпуклых, сильно выпуклых функций и для функций с непрерывными по Гёльдеру градиентами. Как и в случае clipped-SGD, все предположения достаточно требовать на шаре вокруг решения.

Численные эксперименты

На практике работоспособность методов была проверена на следующих задачах11:

BERT ($ \approx {\kern 1pt} 0.6M$ параметров) донастройка на датасете CoLA. Мы используем предварительно обученную модель BERT и замораживаем все слои, кроме двух последних линейных. В этом наборе данных содержится 8551 предложений, и задача бинарной классификации заключается в определении, является ли предложение грамматически верным.

ResNet-18 ($ \approx {\kern 1pt} 11.7M$ параметров) обучение на датасете ImageNet-100 (первые 100 классов из ImageNet). В нем содержится 134 395 изображений.

Один из экспериментов был проведен с целью анализа распределения шума в стохастических градиентах. [Gorbunov et al., 2021]. В начальной  точке бралось достаточно большое количество пробатченных стохастических градиентов $\nabla f({{x}^{0}},{{\xi }_{1}}), \ldots ,\nabla f({{x}^{0}},{{\xi }_{K}})$ с размером батча   32 и строились гистограммы для ${\text{||}}\nabla f({{x}^{0}},{{\xi }_{1}}) - \nabla f({{x}^{0}}){\text{|}}{{{\text{|}}}_{2}}$, ..., ${\text{||}}\nabla f({{x}^{0}},{{\xi }_{K}}) - \nabla f({{x}^{0}}){\text{|}}{{{\text{|}}}_{2}}$, см. рис. 2. Как видно, распределение шума для BERT + CoLA значительно отличается от субгауссовского, в то время как распределение для ResNet-18 + Imagenet-100 почти гауссовское. Наблюдается аналогичное распределения шума в разных точках на траектории методов (ADAM, SGD, clipped-SGD, clipped-SSTM) для предложенных задач.

Рис. 2.

Распределение шума в стохастических градиентах для ResNet-18 на датасете ImageNet-100 и донастройки BERT на датасете CoLA перед обучением. Красные линии представляют функции плотности вероятности нормальных распределений со средними значениями и дисперсиями, оцененными эмпирически на основе выборок. Batch count – это общее число выборок, использованных для построения гистограммы.

Далее было проведено сравнительное исследование различных методов для решения данных задач: ADAM, SGD, clipped-SGD и clipped-SSTM [Gorbunov et al., 2021]. Иллюстрация результатов приведена на рис. 3, 4.

Рис. 3.

Показатели потерь (loss) и точности (accuracy) на обучающей и валидационной выборках для различных методов в задаче ResNet-18 + ImageNet-100. Здесь “batch count” обозначает общее количество использованных стохастических градиентов. Распределение шума практически гауссовское, поэтому даже при использовании обычного стохастического градиентного спуска (vanilla SGD) модель хорошо обучается.

Рис. 4.

Показатели потерь (loss) и точности (accuracy) на обучающей и валидационной выборках для различных оптимизаторов в задаче BERT + CoLA. Распределение шума имеет тяжелые хвосты, и методы с клиппингом значительно превосходят обычный стохастический градиентный спуск SGD по результатам.

5. ОСНОВНОЙ РЕЗУЛЬТАТ ДЛЯ ВАРИАЦИОННЫХ НЕРАВЕНСТВ

В данной серии исследований также освещается анализ методов для работы с безусловными вариационными неравенствами (VIP), представляющими собой нелинейные уравнения [Harker and Pang, 1990, Ryu and Yin, 2022]. Эти уравнения, в свою очередь, возникают в контексте игровых формулировок задач машинного обучения [Goodfellow et al., 2014, Gidel et al., 2019].

(17)
${\text{Ищем}}\;x{\kern 1pt} * \in {{\mathbb{R}}^{n}}\;{\text{такой,}}\;{\text{что}}\;F(x{\kern 1pt} *) = 0,$
где $F(x) = {{\mathbb{E}}_{{\xi \sim \mathcal{D}}}}[{{F}_{\xi }}(x)]$. Аналогично с задачами минимизации сохраняется предположение об ограниченности центрального $\alpha $-го момента оператора $F$. Предполагается, что существует некоторое множество $Q \subseteq {{\mathbb{R}}^{n}}$ и значения $\sigma \; \geqslant \;0$, $\alpha \in (1,2]$, такие что для всех $x \in Q$
(18)
${{\mathbb{E}}_{{\xi \sim \mathcal{D}}}}[{\text{||}}{{F}_{\xi }}(x) - F(x){\text{|}}{{{\text{|}}}^{\alpha }}]\;\leqslant \;{{\sigma }^{\alpha }}.$
clipped-SEG – клиппированный стохастический экстраградиентный метод
(19)
${{\tilde {x}}^{k}} = {{x}^{k}} - \gamma \cdot clip({{F}_{{\xi _{1}^{k}}}}({{x}^{k}}),{{\lambda }_{k}}),$
(20)
${{x}^{{k + 1}}} = {{x}^{k}} - \gamma \cdot clip({{F}_{{\xi _{2}^{k}}}}({{\tilde {x}}^{k}}),{{\lambda }_{k}}),$
где $\xi _{1}^{k}$, $\xi _{2}^{k}$ независимо выбираются из ${{\mathcal{D}}_{k}}$ на каждом шаге. Данный метод рассматривается для решения вариационных неравенств (VIP) в предположении о монотонности и липшицевости оператора $F$. Предполагается, что существует некоторое множество $Q \subseteq {{\mathbb{R}}^{n}}$, для которого оператор $F$ монотонен на $Q$, т.е. для всех $x,y \in Q$
(21)
$\langle F(x) - F(y),x - y\rangle \; \geqslant \;0,$
и существует константа $L > 0$, такая что для всех $x,y \in Q$

(22)
${\text{||}}F(x) - F(y){\text{||}}\;\leqslant \;L{\text{||}}x - y{\text{||}}.$

Теорема 5.1 (Сходимость clipped-SEG). Пусть предположения (18), (21), (22) выполняются для $Q = {{B}_{{4R}}}(x{\kern 1pt} *)$ и 0 < γ = $\mathcal{O}(\min \{ 1{\text{/}}LA$, $R{\text{/}}{{K}^{{1{\text{/}}\alpha }}}\sigma {{A}^{{(\alpha - 1){\text{/}}\alpha }}}\} )$, ${{\lambda }_{k}} = \lambda = \Theta \left( {R{\text{/}}\gamma A} \right)$, где A = = ${\text{ln}}\frac{{6(K + 1)}}{\beta }\; \geqslant \;1$, $\beta \in (0,1]$. Чтобы гарантировать $Ga{{p}_{R}}(\tilde {x}_{{{\text{avg}}}}^{K})\;\leqslant \;\varepsilon $ с вероятностью $ \geqslant 1 - \beta $ clipped-SEG, требуется

(23)
вызовов оракула.

Основная идея доказательства вышеупомянутой теоремы аналогична принципу в минимизации. Детальное описание результатов для разнообразных случаев можно найти в статьях [Gorbunov et al., 2022, Sadiev et al., 2023]. Также следует обратить внимание на статью [Gorbunov et al., 2022], где демонстрируется, что градиентный шум во многих генеративно-состязательных сетях (GAN) имеет тяжелые хвосты, и что использование клиппинга положительно сказывается на эффективности SEG.

6. ЗАКЛЮЧЕНИЕ

В данном обзоре демонстрируется и объясняется роль клиппинга в современных state-of-the-art результатах о сходимости с большой вероятностью. Мы рассмотрели важные аспекты задач, связанных с присутствием шума с тяжелыми хвостами в различных областях, включая обработку естественного языка (NLP) и генеративно-состязательные сети (GAN). Клиппинг выделяется в качестве эффективного и простого инструмента для борьбы с шумом с тяжелыми хвостами. Этот подход подтвердил свою эффективность в улучшении оценок вероятностной сходимости методов, в сравнении с гарантиями сходимости альтернативных методов, не использующих клиппинг. Также интересными являются предположения о частичных объяснениях успеха адаптивных методов, включая, например, метод ADAM, в задачах GAN и NLP. Это может предоставить дополнительные идеи для разработки алгоритмов в этих областях. Исходя из результатов и выводов, представленных в данной работе, можно заключить, что использование методов с клиппингом представляет собой перспективный подход для улучшения сходимости в условиях шума с тяжелыми хвостами в различных задачах, и дальнейшие исследования в этом направлении могут привести к еще более значимым результатам и новым практическим применениям.

Список литературы

  1. Bennett G. Probability inequalities for the sum of independent random variables. Journal of the American Statistical Association. 1962. V. 57 (297). P. 33–45.

  2. Cutkosky A., Mehta H. High-probability bounds for non-convex stochastic optimization with heavy tails. Advances in Neural Information Processing Systems. 2021. V. 34.

  3. Davis D., Drusvyatskiy D., Xiao L., Zhang J. From low probability to high confidence in stochastic convex optimization. Journal of Machine Learning Research. 2021. V. 22 (49). P. 1–38.

  4. Devolder O. et al. Stochastic first order methods in smooth convex optimization. Technical report, CORE, 2011.

  5. Dzhaparidze K., Van Zanten J. On bernstein-type inequalities for martingales. Stochastic processes and their applications. 2001. V. 93 (1). P. 109–117.

  6. Freedman D.A. et al. On tail probabilities for martingales. the Annals of Probability. 1975. V. 3 (1). P. 100–118.

  7. Gasnikov A., Nesterov Y. Universal fast gradient method for stochastic composit optimization problems. arXiv preprint arXiv:1604.05275, 2016.

  8. Ghadimi S., Lan G. Optimal stochastic approximation algorithms for strongly convex stochastic composite optimization i: A generic algorithmic framework. SIAM Journal on Optimization. 2012. V. 22 (2). P. 1469–1492.

  9. Ghadimi S., Lan G. Stochastic first-and zeroth-order methods for nonconvex stochastic programming. SIAM Journal on Optimization. 2013. V. 23 (2). P. 2341–2368.

  10. Gidel G., Berard H., Vignoud G., Vincent P., Lacoste-Julien S. A variational inequality perspective on generative adversarial networks. International Conference on Learning Representations, 2019.

  11. Goodfellow I., Pouget-Abadie J., Mirza M., Xu B., Warde-Farley D., Ozair S., Courville A., Bengio Y. Generative adversarial nets. In Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, K.Q. Weinberger, editors, Advances in Neural Information Processing Systems, volume 27. Curran Associates, Inc., 2014.

  12. Gorbunov E., Danilova M., Gasnikov A. Stochastic optimization with heavy-tailed noise via accelerated gradient clipping. Advances in Neural Information Processing Systems. 2020. V. 33. P. 15042–15053.

  13. Gorbunov E., Danilova M., Shibaev I., Dvurechensky P., Gasnikov A. Near-optimal high probability complexity bounds for non-smooth stochastic optimization with heavy-tailed noise. arXiv preprint arXiv:2106.05958, 2021.

  14. Gorbunov E., Danilova M., Dobre D., Dvurechenskii P., Gasnikov A., Gidel G. Clipped stochastic methods for variational inequalities with heavy-tailed noise. Advances in Neural Information Processing Systems. 2022. V. 35. P. 31319–31332.

  15. Harker P.T., Pang J.-S. Finite-dimensional variational inequality and nonlinear complementarity problems: a survey of theory, algorithms and applications. Mathematical programming. 1990. V. 48 (1-3). P. 161–220.

  16. Kingma D.P., Ba J. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.

  17. Liu Z., Zhou Z. Stochastic nonsmooth convex optimization with heavy-tailed noises. arXiv preprint arXiv:2303.12277, 2023.

  18. Liu Z., Nguyen T.D., Nguyen T.H., Ene A., Nguyen H. High probability convergence of stochastic gradient methods. In International Conference on Machine Learning, PMLR, 2023. P. 21884–21914.

  19. Merity S., Keskar N.S., Socher R. Regularizing and optimizing lstm language models. In International Conference on Learning Representations, 2018.

  20. Mosbach M., Andriushchenko M., Klakow D. On the stability of fine-tuning bert: Misconceptions, explanations, and strong baselines. In International Conference on Learning Representations, 2020.

  21. Nazin V., Nemirovsky A., Tsybakov A.B., Juditsky A. Algorithms of robust stochastic optimization based on mirror descent method. Automation and Remote Control. 2019. V. 80 (7). P. 1607–1627.

  22. Nguyen T.D., Nguyen T.H., Ene A., Nguyen H.L. High probability convergence of clipped-sgd under heavy-tailed noise. arXiv preprint arXiv:2302.05437, 2023.

  23. Pascanu R., Mikolov T., Bengio Y. On the difficulty of training recurrent neural networks. In International conference on machine learning, Pmlr, 2013. P. 1310–1318.

  24. Peters M.E., Ammar W., Bhagavatula C., Power R. Semi-supervised sequence tagging with bidirectional language models. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2017. P. 1756–1765.

  25. Ryu E.K., Yin W. Large-scale convex optimization: algorithms & analyses via monotone operators. Cambridge University Press, 2022.

  26. Sadiev A., Danilova M., Gorbunov E., Horv’ath S., Gidel G., Dvurechensky P., Gasnikov A., Richt’arik P. High-probability bounds for stochastic optimization and variational inequalities: the case of unbounded variance. In Proceedings of the 40th International Conference on Machine Learning. PMLR, 2023. P. 29563–29648.

  27. Zhang J., Karimireddy S.P., Veit A., Kim S., Reddi S., Kumar S., Sra S. Why are adaptive methods good for attention models? Advances in Neural Information Processing Systems. 2020. V. 33. P. 15383–15393.

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления