Deep Learning

ON THE VARIANCE OF THE ADAPTIVE LEARNING RATE AND BEYOND

Jongmin Lim 2024. 6. 15. 14:21

Abstract

  • 학습 초기에는 데이터나 모델의 변화가 크기 때문에 학습률의 변동이 매우 크다
  • Learning rate warmup 기법은 adpative learning rate 알고리즘의 초기 단계에서 발생하는 학습률의 큰 변동(분산)을 줄여주는 역할을 함
  • 본 논문에서는 실험적으로 이론적으로 증명하고, Variant of Adam인 Rectified Adam (RAdam)을 제안
  • RAdam은 adaptive learning rate의 varaince를 바로잡는 term을 도입

1 INTRODUCTION

Fast and stable하게 훈련하기 위한 optimization 알고리즘이 많이 등장했다. adaptive learning rate가 적용되는 Adagrad, RMSprop, Adam, Adadelda, Nadam등은 많은 application에서 optimizer로 고려된다.

 

그러나 이론적인 분석이 부족하기 때문에, warmup이 다양한 machine learning setting에서 consistent improvement를 보장하지 않으므로 연구자들은 다양한 application에서 다른 setting을 구성한다.

 

본 논문에서는 convergence issue의 실험적, 이론적 분석을 수행한다.

이 분석을 통해서 저자들은 제한된 sample이 사용될 때 adaptive learning rate가 모델의 초기 훈련에서 바람직하지 않은 large variance를 유발하는 것이 root cause라는 것을 보였다. 그러므로 분산을 줄이기 위해서 fist few epoch에는 smaller learning rate를 사용하는 것이 좋다.

 

이 분석 결과를 통해서 유도된 수식으로 adaptive learning rate의 분산을 explicitly하게 수정하는 RAdam을 제안

 

RAdam을 language modeling, image classification, and neural machine translation에서 실험

2 PRELIMINARIES AND MOTIVATIONS

 

 


Reference

https://iclr.cc/virtual_2020/poster_rkgz2aEKDr.html

 

ICLR: On the Variance of the Adaptive Learning Rate and Beyond

Abstract: The learning rate warmup heuristic achieves remarkable success in stabilizing training, accelerating convergence and improving generalization for adaptive stochastic optimization algorithms like RMSprop and Adam. Pursuing the theory behind warmup

iclr.cc