Meta learning

Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning

Jongmin Lim 2024. 7. 14. 15:00

좋은 문장

  • During meta testing, several N-way K-shot tasks arrive together, which are called the target tasks.
  • The classes ap pearing in the target tasks have never been seen during both pre-training and meta training.
  • The support set is used for adapting the meta initialization to the specific task.

Abstract

1. Introduction

2. Related Works

3. Problem Setup

4. Methodology

본 논문에서는 DFML을 해결하기 위해서 PURER 방법론을 제시한다.

PURER는 ECI와 ICFIL로 구성되어 있는데

1) Meta training을 수행하는동안 difficulty 수준을 점진적으로 증가하여 pseudo episode에 의해서 훈련하는 ECI를 Section 4.2에서 설명하고

2) Meta testing을 수행하는동안 task-distribution shift issue를 제거하기 위한 ICFIL을 Section 4.3에서 설명한다

4.1. Preliminary: Episode Training

본 연구의 목표는 pseudo episode training을 수행하기 위한 sequence of pseudo episodes를 생성하는 것이다. (synthesize)

MAML을 통해 episode training을 간략하게 설명하면

  • Outer loop에서는 query set으로 base model의 성능을 개선하는 목표를 가진 Meta model을 update한다.
  • Inner loop에서는 fast adaptation을 수행한다. base model은 meta-model을 초기 값으로 해서 support set을 통해 작은 gradient descent를 수행한다. base model은 individual task level에서 수행된다.

4.2. Episode Curriculum Inversion (ECI)

Episode Inversion.

먼저 basic Episode Inversion(EI)을 제안

 

  • 각 iteration에서 $\mathcal{D}$는 dynamically하게 update된다
  • $\mathcal{R}_{prior}(\cdot)$은 unreal image로부터 $\hat{x}$를 조정하는 DeepDream을 가져왔다

  • $\mathcal{R}_{TV}$는 $\hat{x}$의 total variance이고
  • $\mathcal{R}_{l_2}$는 $\hat{x}$의 $l_2$ norm 이다
  • $\alpha_{TV}, \alpha_{l_2}$는 DeepInversion에서 사용하는 feature distribution regularization term이다

  • $\mu(\hat{x})$는 batch-wise mean이고
  • $\sigma^2(\hat{x})$는 batch-wise variance이다.
  • $BN_l(\text{runing-mean}), BN_l(\text{runing-variance})$는 pre-trained model의 $l^{th}$ Batch-Norm layer에 저장된 평균과 분산 값이다.

이 방법론을 통해서 $\mathcal{D}$를 통해 pseudo support data, pseudo query data를 sampling한다

Curriculum Mechanism.

EI with curriculum mechanism (ECI)의 목표는 dynamic dataset $\mathcal{D}$를 적잘한 어려움이 있도록 조정하는 것이다

이것은 이미 잘 학습된 task를 생성하는 것을 방지한다

 

 

먼저 현재 meta model에 대한 $\mathcal{D}$의 어려움을 expected outer loss로 특징화한다 ($\underset {\mathcal{T}\in\mathcal{D}} {\mathbb{E}} [\mathcal{L_{outer}(\mathcal{T};\theta)}]$). 즉, outer loss 가 크면 hard task를 나타낸다.

따라서, 만약 6 consecutive iterations 동안 ${ \mathcal{T}_i }$에 대한 outer loss의 합이 증가한다면 meta-model은 positive feedback을 보낸다.

feedback이 positive로 왔을 때, 좀 더 어려운 tasks를 생성하기 위해서 Gradient Switch를 설계

 

Adversarial Optimization.

Meta training process동안 easy에서 hard로 episodes를 생성하기 위해서 adversarially하게 meta model을 update한다.

 

 

 

4.3. Inversion Calibration following Inner Loop

Supervised Contrastive learning 기법을 통해서 주어진 $\mathcal{S}{test}$ 와 pseudo image $\hat{\mathcal{S}}{test}$가 같은 label인 경우에 positive sample $\hat{x}^+$로 하고 label 이다르면 negative sample $\hat{\mathcal{x}}^-$로 한다.

ICFIL의 핵심 아이디어는 base model이 pseudo images와 real images에 정보를 overlapping하는 것에 집중한다.

 

 

 

 


Reference

https://arxiv.org/abs/2303.11183

 

Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning

The goal of data-free meta-learning is to learn useful prior knowledge from a collection of pre-trained models without accessing their training data. However, existing works only solve the problem in parameter space, which (i) ignore the fruitful data know

arxiv.org