Deep Learning

ON THE CONVERGENCE OF ADAM AND BEYOND

Jongmin Lim 2024. 6. 12. 17:55

좋은문장

Abstract

최근 Stochastic optimization methods인 RMSProp, ADAM, ADADELTA, NADAM 등의 방법론은 past gradients의 이동평균으로 scale된 gradient update를 사용했으나 Optimal solution에 수렴하는 것에 실패
본 논문에서는 Optimal solution에 수렴하지 못하는 원인이 이동평균에 있다는 것을 보인다

1 INTRODUCTION

Stochastic gradient descent(SGD)는 minibatch에서 측정된 loss의 negative gradient 방향으로 parameter를 반복적으로 update한다.

SGD varaints는 Gradient의 각 좌표(per-features basis) 를 제곱된 Past gradient의 평균을 사용해 조정했다.

즉, 각 feature마다 다른 learning rate가 적용되어 학습 과정에서 더 효율적으로 parameter를 업데이트 했음.

처음으로 ADAGRAD가 vanilla SGD와 비교해서 높은 성능을 보였다.

ADAGRAD

ADAGRAD는 loss function가 non-convex하고 gradient가 dense한 settiong에서 learning rate가 decay되어 성능이 악화된다.

그 이유는 update할 때 모든 past gradient $g_t$를 분모로 사용하기 때문이다.

즉 $g_t$를 계산할 때 $g_{t-1}$와 새로운 Gradient의 값을 보정하지 않고 그대로 더하였기 때문에 학습이 진행될수록 무한정 커지는 경우가 발생

이 issue를 다루기 위해서 RMSPROP, ADAM, ADADELTA, NADAM이 제안되었다.

이 메소드들은 squared past gradient의 이동평균을 사용하여 learning rate의 감소를 막았다

ADAM

RMSPROP

오로지 past few gradients에 의존하여 parameter를 update하는 경향이 있다.

게다가 어떤 mini-batch에서 드물게 large gradient 값이 제공됐을 때, 이동평균으로 인해 large gradient 영향은 사라질 것이다.

본 논문에서는 이 상황을 detail하게 분석한다.

Reference

https://arxiv.org/abs/1904.09237

On the Convergence of Adam and Beyond

Several recently proposed stochastic optimization methods that have been successfully used in training deep networks such as RMSProp, Adam, Adadelta, Nadam are based on using gradient updates scaled by square roots of exponential moving averages of squared

arxiv.org

https://heytech.tistory.com/382

[Deep Learning] 최적화(Optimizer): (1) Momentum

본 포스팅에서는 딥러닝 최적화(optimizer) 기법 중 하나인 Momentum의 개념에 대해 알아봅니다. 먼저, Momentum 기법이 제안된 배경인 경사 하강법(Gradient Descent)의 한계점에 대해 다루고 알아보도록 하

heytech.tistory.com

'Deep Learning' 카테고리의 다른 글

Autoencoder vs Variational Autoencoder (0)	2024.11.07
ON THE VARIANCE OF THE ADAPTIVE LEARNING RATE AND BEYOND (0)	2024.06.15
ADAMP: SLOWING DOWN THE SLOWDOWN FOR MOMENTUM OPTIMIZERS ON SCALE-INVARIANT WEIGHTS (0)	2024.06.10
Domain Generalization Guided by Gradient Signal to Noise Ratio of Parameters (0)	2024.06.04
Normalized Gradient Descent (0)	2024.05.29

현재글ON THE CONVERGENCE OF ADAM AND BEYOND

JM's Research

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

JM's Research

ON THE CONVERGENCE OF ADAM AND BEYOND

좋은문장

Abstract

1 INTRODUCTION

Reference

'Deep Learning' 카테고리의 다른 글

'Deep Learning'의 다른글

티스토리툴바

ON THE CONVERGENCE OF ADAM AND BEYOND

좋은문장

Abstract

1 INTRODUCTION

Reference

'Deep Learning' 카테고리의 다른 글

'Deep Learning'의 다른글

관련글

티스토리툴바