Abstract
- 학습 초기에는 데이터나 모델의 변화가 크기 때문에 학습률의 변동이 매우 크다
- Learning rate warmup 기법은 adpative learning rate 알고리즘의 초기 단계에서 발생하는 학습률의 큰 변동(분산)을 줄여주는 역할을 함
- 본 논문에서는 실험적으로 이론적으로 증명하고, Variant of Adam인 Rectified Adam (RAdam)을 제안
- RAdam은 adaptive learning rate의 varaince를 바로잡는 term을 도입
1 INTRODUCTION
Fast and stable하게 훈련하기 위한 optimization 알고리즘이 많이 등장했다. adaptive learning rate가 적용되는 Adagrad, RMSprop, Adam, Adadelda, Nadam등은 많은 application에서 optimizer로 고려된다.
그러나 이론적인 분석이 부족하기 때문에, warmup이 다양한 machine learning setting에서 consistent improvement를 보장하지 않으므로 연구자들은 다양한 application에서 다른 setting을 구성한다.
본 논문에서는 convergence issue의 실험적, 이론적 분석을 수행한다.
이 분석을 통해서 저자들은 제한된 sample이 사용될 때 adaptive learning rate가 모델의 초기 훈련에서 바람직하지 않은 large variance를 유발하는 것이 root cause라는 것을 보였다. 그러므로 분산을 줄이기 위해서 fist few epoch에는 smaller learning rate를 사용하는 것이 좋다.
이 분석 결과를 통해서 유도된 수식으로 adaptive learning rate의 분산을 explicitly하게 수정하는 RAdam을 제안
RAdam을 language modeling, image classification, and neural machine translation에서 실험
2 PRELIMINARIES AND MOTIVATIONS

Reference
https://iclr.cc/virtual_2020/poster_rkgz2aEKDr.html
ICLR: On the Variance of the Adaptive Learning Rate and Beyond
Abstract: The learning rate warmup heuristic achieves remarkable success in stabilizing training, accelerating convergence and improving generalization for adaptive stochastic optimization algorithms like RMSprop and Adam. Pursuing the theory behind warmup
iclr.cc
'Deep Learning' 카테고리의 다른 글
| CBAM: Convolutional Block Attention Module (0) | 2025.02.10 |
|---|---|
| Autoencoder vs Variational Autoencoder (0) | 2024.11.07 |
| ON THE CONVERGENCE OF ADAM AND BEYOND (0) | 2024.06.12 |
| ADAMP: SLOWING DOWN THE SLOWDOWN FOR MOMENTUM OPTIMIZERS ON SCALE-INVARIANT WEIGHTS (0) | 2024.06.10 |
| Domain Generalization Guided by Gradient Signal to Noise Ratio of Parameters (0) | 2024.06.04 |