Deep Learning 27

CBAM: Convolutional Block Attention Module

AbstractFeed-forward convolutional neural networks를 위한 Attention Module을 제안intermediate feature map이 주어졌을 때, Attention module은 channel과 spatial 차원에서 attention map을 계산attention map이 계산되면, Attention map이 input feature map에 곱해져서 adaptive하게 feature를 refinement한다1 Introduction본 논문의 목표는 attention mechanism을 사용해서 representation power를 증가시키는 것이다.important feature에 집중하고 unnecessary feature를 억누른다.3 Convol..

Deep Learning 2025.02.10

Autoencoder vs Variational Autoencoder

Autoencoder란?Autoencoder란 글자 그대로 자동적으로 Input data를 어떠한 라벨도 없이 인코딩한다는 뜻을 담고 있어 Representation Learning과 밀접하다.Autoencoder의 한계점AE의 잠재 공간은 연속적이지 않기 때문에 생성된 데이터의 다양성이 제한됨반면, Variational Autoencoder(VAE)의 목표는 잠재 분포가 원래 데이터 분포와 유사하도록 최적화하는 것구체적으로, VAE에서는 인코더가 각 데이터에 대해 평균($\mu$)과 표준편차($\sigma$)를 출력인코더가 각 데이터에 대해 평균 ($\mu$)과 표준편차 ($\sigma$)를 출력하는 이유는 각 입력 데이터가 속할 수 있는 잠재 공간(latent space) 내의 확률 분포 $q(x|z..

Deep Learning 2024.11.07

ON THE VARIANCE OF THE ADAPTIVE LEARNING RATE AND BEYOND

Abstract학습 초기에는 데이터나 모델의 변화가 크기 때문에 학습률의 변동이 매우 크다Learning rate warmup 기법은 adpative learning rate 알고리즘의 초기 단계에서 발생하는 학습률의 큰 변동(분산)을 줄여주는 역할을 함본 논문에서는 실험적으로 이론적으로 증명하고, Variant of Adam인 Rectified Adam (RAdam)을 제안RAdam은 adaptive learning rate의 varaince를 바로잡는 term을 도입1 INTRODUCTIONFast and stable하게 훈련하기 위한 optimization 알고리즘이 많이 등장했다. adaptive learning rate가 적용되는 Adagrad, RMSprop, Adam, Adadelda, Na..

Deep Learning 2024.06.15

ON THE CONVERGENCE OF ADAM AND BEYOND

좋은문장Abstract최근 Stochastic optimization methods인 RMSProp, ADAM, ADADELTA, NADAM 등의 방법론은 past gradients의 이동평균으로 scale된 gradient update를 사용했으나 Optimal solution에 수렴하는 것에 실패본 논문에서는 Optimal solution에 수렴하지 못하는 원인이 이동평균에 있다는 것을 보인다1 INTRODUCTIONStochastic gradient descent(SGD)는 minibatch에서 측정된 loss의 negative gradient 방향으로 parameter를 반복적으로 update한다. SGD varaints는 Gradient의 각 좌표(per-features basis) 를 제곱된 ..

Deep Learning 2024.06.12

ADAMP: SLOWING DOWN THE SLOWDOWN FOR MOMENTUM OPTIMIZERS ON SCALE-INVARIANT WEIGHTS

참고[Momentum]모멘텀은 기울기(gradient) 기반의 업데이트에 일관성을 부여하여 빠른 수렴을 유도이를 통해 최적화 과정이 보다 빠르고 안정적으로 이루어질 수 있습니다.[Batch Normalization]각 배치의 데이터 $X$에 대해 평균을 0, 분산을 1로 맞추어서, 입력 데이터의 스케일을 일정하게 유지정규화된 값 $\hat{X}$에 스케일 학습 파라미터 $\gamma$ 와 시프트 파라미터 $\beta$를 적용하면 최종 출력은 다음과 같음: $Y= \gamma \hat{X} + \beta$배치 정규화와, 학습된 $\gamma$와 $\beta$ 덕분에 모델의 출력은 본질적으로 동일하게 유지될 수 있다.좋은문장They let weights converge more quickly with oft..

Deep Learning 2024.06.10

Domain Generalization Guided by Gradient Signal to Noise Ratio of Parameters

AbstractOver-parameterized model을 완화하기 위해서, Dropout을 기반으로 많은 regularization techniques이 등장그러나 Imagenet과 같은 classsical benchmarks에서만 크게 성능을 개선했고, domain shift가 발생하면 성능이 저하본 논문에서는 Bernoulli sampled dropout mask construction의 classical 정보에서 벗어나 high GSNR을 가진 prameter를 버린다또한 meta-learning 접근법을 이용하여 optimal dropout ratio를 찾는다.1. Introduction최근 DNNs은 Regularization 방법론으로 large model이 training data에 ov..

Deep Learning 2024.06.04

How Does Batch Normalization Help Optimization?

AbstractBatch Norm은 layer’s input distribution의 변화를 통제해서 “internal covariate shift”를 줄이는 효과가 있다는게 일반적인 믿음본 연구에서는 Layer inputs의 distrubutional stability가 batch Norm의 성공에 영향을 끼치지 않고, Batch Norm의 훈련과정이 loss landscape를 smoother 하게 만든다는 것을 보여준다.이 smoothness는 gradient의 bahavior를 좀 더 predictive and stable하게 유도한다.1 IntroductionBatch Norm은 Layer의 input 분포의 two moment (mean and variance) 를 통제하여, neural ne..

Deep Learning 2024.05.22

AdaNorm: Adaptive Gradient Norm Correction based Optimizer for CNNs

Abstract최근 SGD optimizer를 기반으로 Adam, diffGrad, Radam, AdaBelief와 같은 adptive momentum이 소개됐다기존 SGD Optimizer 연구는 과거 iteration의 Gradient norm 정보를 이용하지 않아 수렴 속도와 성능이 좋지 않다따라서 본 논문에서는 Gradient norm의 adatpive한 훈련 기록 분석을 통해 각 interation에서 gradient norm을 수정하는 AdaNorm을 제안그렇게 함으로써 훈련 과정 전체에서 높고 대표적인 기울기를 유지할 수 있도록 함으로써 낮고 특이한 기울기 문제를 해결즉, 모델이 훈련하는 동안 일관된 기울기를 유지함으로써 훈련 과정이 안정화되고, 기울기가 낮거나 특이한 문제가 발생하는 것을 ..

Deep Learning 2024.05.09