Abstract
- 전통적인 메타러닝은 모든 meta-knowledge를 specific tasks에 적용
- 이 것은 Adaptation process에서 high-computational cost를 유발
- 본 논문에서는 모든 meta-knowledge를 adaptation하는 것이 아니라, meta-knowledeg extraction을 소개 ()
- (UAPML) Uncertainty-Aware Prompted Meta-Learning
- Learnable Bayesian meta-prompt를 사용하여 ideal initialization을 제공
- posterior uncertainty of the Bayesian을 이용해서 task-specific prompt의 구성을 조절
- 본 논문에서는 두 가지 방식(soft and hard way)로 new task를 다룰 때 meta-prompt로부터 automatically하게 task-specific prompt를 구성
- 실험 결과는 1) meta-knowledge extraction paradigm의 효과와 2) 성능 저하 없이 computational cost를 크게 줄였다는 것을 강조
1 INTRODUCTION
Meta-learning은 다양한 tasks에 inductively하게 meta-knowledge(parameter initialization..)를 제공
그중 MAML은 meta-knowledge를 task-specific knowledge로 adaptation하는데 집중합니다
비록 그러한 knowledge adaptation paradigm이 promising result를 도출했지만, 이 것은 adaptation process 중에 high computational cost를 유발합니다
ChatGPT와 GPT-4와 같은 large-scale pre-trained models은 knowledge extraction 기법을 통해 new tasks를 다루는 효과적인 방법을 보여줬습니다.
Knowledge adptation과 대조적으로, Knowledge extraction은 prompt를 고용했는데, prompt는 general knowledge와 task-specific knowledge 사이에 격차를 메우기 위한 다리 역할을 합니다
그러므로 본 논문에서는 meta-knowledge adaptation process의 computational inefficiency를 극복하기 위해 knowledge extraction을 이용하는 방법을 추구합니다.
메타러닝의 문맥에서 knowledge extraction을 적용하는 것에는 두 가지 point가 필수입니다
- 다양한 tasks 전반에 걸친 Captured meta-knowledge의 호환성
- 작업 별 차이점을 효과적으로 포착하여 task-specific knowledge extraction을 가능하게 하는 적절한 프롬프트.
따라서, UAPML은 general meta-knowledge와 task-specific knowledge 사이에 차이를 메꾸기 위해 prompt를 고용합니다
1) captured meta-knowledge의 호환성을 보장하기 위해 Entire model backbone과
2) task-specific information를 capture하는데 도움을 주는 task-specific prompt를 설계
ANIL에서 backbone을 공유하는 것이 shared feature의 잠재력이 메타러닝의 성공을 이끌었다고 주장하고, 반면 BOIL에서는 fixed feature representation이 다양한 tasks의 다양한 요구사항을 적절히 충족할 수 없다고 주장
따라서 task-specfic prompt가 필요..
그러나 task-specific prompt를 별개로 학습하는 것은 impratical and inefficeint하고, 더불어 few-shot scenario에서 오버피팅이 쉽게 일어날 수 있다.
본 논문에서는 task-specific prompt를 위해 Bayesian meta-prompt를 설계하여 task-specific prompt를 위한 ideal initialization를 제공
Bayesian meta-prompt의 장점은 tasks사이에 관계를 반영하는 Uncertainty measure의 이점이 있다.
게다가 본 논문에서는 Bayesian meta-prompt로부터 task-specific prompt를 도출하는 두 가지 방법을 제시(soft and hard way)
contribution
- computatuonally expensive meta-knowledge adaptation 대신에 meta-knowledge extraction에 집중하여 gradient-based meta-learing의 효율성을 개선
- Bayesian meta-prompt와 task-specific prompt 사이에 alignment의 이론적 이해를 제공
- 이론적 분석을 기반으로, meta-prompt의 Bayesian 속성을 사용하여 task-specific prompt 설계를 위한 메소드를 제안
- Soft and hard modulation techniques이 shared and task-specific information을 고려하여 자동적으로 task-specific prompt를 생성.
2 RELATED WORK
Meta-Learning
최적화 기반 메타러닝은 meta-knowledge adaptation paradigm을 사용하는데, 여기서 모든 Meta-knowledge이 specific tasks에 gradient descent를 통해서 빠르게 적응합니다.
그러나 이 방법론의 문제점은 각각의 tasks에 모든 meta-knowledge를 adaptation하기 때문에 연산량이 많이듭니다.
이를 극복하고자, Reptile은 fist-order approximation을 사용했고, MAML++는 적절한 learnign rate를 사용했습니다.
최근에는 ANIL이 head prediction을 제외하고 대부분의 parameter를 freeze했습니다.
Sparse-MAML은 유사한 아이디어를 따르지만 Additional masking parameter를 활용해서 parameter subset을 update했습니다.
BOIL은 embedding adapation의 중요성을 강조했습니다.
본 연구에는 이 computational expensive를 다루기 위해 prompt를 메타학습 framework에 통합합니다. 이 접근법은 효과적으로 task-specific information을 capture하고 reused embedding과 개별 tasks의 요구 사이의 차이를 메꿉니다.
다른 작품들이 task-specific information을 capture하는데 집중하지만 그들은 효율성을 목표로 하지 않았습니다.
먼저 mixture meta-knowledge approach가 다양한 component로 유사한 tasks들을 cluster했지만, cluster의 수에 따라 연산량이 증가했습니다.
반면에 conditional meta-learning method는 single meta-knowledge를 유지했지만, meta-knowledge를 customize하기 위해 추가적인 architecture를 설계했습니다.
LEO는 encoder-decoder architecture를 사용하여, task-specific classification head를 구성했습니다. TADAM은 task-specific metric space을 customize하기 위해 task-dependent scaled metric을 사용했습니다.
Prompt Tuning
메타러닝에 prompt tuning을 통합하려는 노력이 NLP에서 이루어졌습니다.
[MetaPrompting: Learning to Learn Better Prompts]에서 좀 더 나은 initialization을 학습하기 위해 메타러닝을 고용했습니다.
[Effective Structured Prompting by Meta-Learning and Representative Verbalizer]는 prompt pol을 제안했습니다.
기존 NLP에서 prompt-tuning 사용했던 것과 다르게, 본 논문에서는 task-specific prompts를 위한 초기 값으로 활용되는 meta-prompt를 고려합니다.
3 PRELIMINARY
Model-Agnostic Meta-learning
MAML aims to learn a decent initialization of model parameters, i.e., meta-knowledge, through the outer loop, while fine-tuning the model parameters to specific tasks through the inner adaption.
Prompt Tuning
prompt tuning은 knowledge extraction을 위한 promising method이다.
prompt tuning은 다양한 tasks를 다루기 위해 model backbone을 freeze하고 task-specific prompts를 inputs에 추가적으로 통합합니다.
구체적으로,
pre-trained model $\mathcal{M}$ 은 $\pi : \mathcal{X} \to \mathcal{H}$로 mapping 합니다.
($\mathcal{X}$는 input space이고, $\mathcal{H}$는 representation space입니다)
일반적으로 pre-trainded model은 representation을 출력합니다: $h=\pi(X)$, 반면 prompted model은 representation을 다음과 같이 출력합니다: $\hat{h}=\pi(s||X)$
여기서 ||는 input과 prompt의 concatenation 입니다.
prompt tuning의 장점은 pre-trained model $\mathcal{M}$의 parmaeter update 필요없이, 다양한 downstream tasks를 다룰 때 단지 prompt 만 학습합니다.
4 METHOD
4.1 PROMPTED META-LEARNING
본 연구의 접근법은 ANIL에서 주장한 model backbone으로 추출된 feature가 general meta-knowledge를 소유하고 있고 reused 될 수 있다는 것이다.
이를 기반으로 본 연구는 task-specific prompt를 통해 feature를 재사용하는 방법을 guide한다.

4.1.1 META-PROMPT
메타러닝이 다수의 few-shot tasks를 다루기 때문에, 각 tasks에 대해 Distinct prompt를 학습하는 것은 inefficient or impractical 합니다.
게다가 Limited data로 prompt를 학습하는 것은 overfitting issue를 야기할 수 있습니다.
그러므로 bi-level optimization으로, task-specifc prompts를 위한 초기 값으로 역할을 하는 learnable meta-prompt $s \in \mathbb{R}$을 도입합니다.
그리고 meta-prompt는 deterministic vector대신 random variable로 modeling합니다.
Note that:
UAPML은 대부분의 parameter를 차지고 하고 있는 model backbone $\theta_r$을 freeze하고
오로지 meta-prompt $s$와 classification head $\theta_c$는 specific task를 update합니다.
이 방식으로 computational consumption이 크게 줍니다.
5 EXPERIMENT


Reference
https://openreview.net/forum?id=rDuqo9KTzh
Meta-Knowledge Extraction: Uncertainty-Aware Prompted Meta-Learning
Conventional meta-learning typically involves adapting all meta-knowledge to specific tasks, which incurs high computational costs due to the adaption process. To address this limitation, we...
openreview.net
'Meta learning' 카테고리의 다른 글
| Any-Way Meta-Learning (0) | 2024.12.03 |
|---|---|
| Learning to Learn from APIs: Black-Box Data-Free Meta-Learning (0) | 2024.11.24 |
| Architecture, Dataset and Model-Scale Agnostic Data-free Meta-Learning (0) | 2024.07.14 |
| FREE: Faster and Better Data-Free Meta-Learning (0) | 2024.06.24 |
| HyperAdam: A Learnable Task-Adaptive Adam for Network Training (0) | 2024.06.22 |