Meta learning

META-KNOWLEDGE EXTRACTION: UNCERTAINTY-AWARE PROMPTED META-LEARNING

Jongmin Lim 2024. 10. 31. 21:06

Abstract

  • 전통적인 메타러닝은 모든 meta-knowledge를 specific tasks에 적용
    • 이 것은 Adaptation process에서 high-computational cost를 유발
  • 본 논문에서는 모든 meta-knowledge를 adaptation하는 것이 아니라, meta-knowledeg extraction을 소개 ()
    • (UAPML) Uncertainty-Aware Prompted Meta-Learning
  • Learnable Bayesian meta-prompt를 사용하여 ideal initialization을 제공
    • posterior uncertainty of the Bayesian을 이용해서 task-specific prompt의 구성을 조절
  • 본 논문에서는 두 가지 방식(soft and hard way)로 new task를 다룰 때 meta-prompt로부터 automatically하게 task-specific prompt를 구성
  • 실험 결과는 1) meta-knowledge extraction paradigm의 효과와 2) 성능 저하 없이 computational cost를 크게 줄였다는 것을 강조

1 INTRODUCTION

Meta-learning은 다양한 tasks에 inductively하게 meta-knowledge(parameter initialization..)를 제공

그중 MAML은 meta-knowledge를 task-specific knowledge로 adaptation하는데 집중합니다

 

비록 그러한 knowledge adaptation paradigm이 promising result를 도출했지만, 이 것은 adaptation process 중에 high computational cost를 유발합니다

 

ChatGPT와 GPT-4와 같은 large-scale pre-trained models은 knowledge extraction 기법을 통해 new tasks를 다루는 효과적인 방법을 보여줬습니다.

 

Knowledge adptation과 대조적으로, Knowledge extraction은 prompt를 고용했는데, prompt는 general knowledge와 task-specific knowledge 사이에 격차를 메우기 위한 다리 역할을 합니다

 

그러므로 본 논문에서는 meta-knowledge adaptation process의 computational inefficiency를 극복하기 위해 knowledge extraction을 이용하는 방법을 추구합니다.

 

메타러닝의 문맥에서 knowledge extraction을 적용하는 것에는 두 가지 point가 필수입니다

  1. 다양한 tasks 전반에 걸친 Captured meta-knowledge의 호환성
  2. 작업 별 차이점을 효과적으로 포착하여 task-specific knowledge extraction을 가능하게 하는 적절한 프롬프트.

따라서, UAPML은 general meta-knowledge와 task-specific knowledge 사이에 차이를 메꾸기 위해 prompt를 고용합니다

 

1) captured meta-knowledge의 호환성을 보장하기 위해 Entire model backbone과

2) task-specific information를 capture하는데 도움을 주는 task-specific prompt를 설계

 

ANIL에서 backbone을 공유하는 것이 shared feature의 잠재력이 메타러닝의 성공을 이끌었다고 주장하고, 반면 BOIL에서는 fixed feature representation이 다양한 tasks의 다양한 요구사항을 적절히 충족할 수 없다고 주장

 

따라서 task-specfic prompt가 필요..

 

그러나 task-specific prompt를 별개로 학습하는 것은 impratical and inefficeint하고, 더불어 few-shot scenario에서 오버피팅이 쉽게 일어날 수 있다.

 

본 논문에서는 task-specific prompt를 위해 Bayesian meta-prompt를 설계하여 task-specific prompt를 위한 ideal initialization를 제공

 

Bayesian meta-prompt의 장점은 tasks사이에 관계를 반영하는 Uncertainty measure의 이점이 있다.

 

게다가 본 논문에서는 Bayesian meta-prompt로부터 task-specific prompt를 도출하는 두 가지 방법을 제시(soft and hard way)

contribution

  • computatuonally expensive meta-knowledge adaptation 대신에 meta-knowledge extraction에 집중하여 gradient-based meta-learing의 효율성을 개선
  • Bayesian meta-prompt와 task-specific prompt 사이에 alignment의 이론적 이해를 제공
  • 이론적 분석을 기반으로, meta-prompt의 Bayesian 속성을 사용하여 task-specific prompt 설계를 위한 메소드를 제안
    • Soft and hard modulation techniques이 shared and task-specific information을 고려하여 자동적으로 task-specific prompt를 생성.

2 RELATED WORK

Meta-Learning

최적화 기반 메타러닝은 meta-knowledge adaptation paradigm을 사용하는데, 여기서 모든 Meta-knowledge이 specific tasks에 gradient descent를 통해서 빠르게 적응합니다.

 

그러나 이 방법론의 문제점은 각각의 tasks에 모든 meta-knowledge를 adaptation하기 때문에 연산량이 많이듭니다.

이를 극복하고자, Reptile은 fist-order approximation을 사용했고, MAML++는 적절한 learnign rate를 사용했습니다.

최근에는 ANIL이 head prediction을 제외하고 대부분의 parameter를 freeze했습니다.

Sparse-MAML은 유사한 아이디어를 따르지만 Additional masking parameter를 활용해서 parameter subset을 update했습니다.

BOIL은 embedding adapation의 중요성을 강조했습니다.

 

본 연구에는 이 computational expensive를 다루기 위해 prompt를 메타학습 framework에 통합합니다. 이 접근법은 효과적으로 task-specific information을 capture하고 reused embedding과 개별 tasks의 요구 사이의 차이를 메꿉니다.

다른 작품들이 task-specific information을 capture하는데 집중하지만 그들은 효율성을 목표로 하지 않았습니다.

 

먼저 mixture meta-knowledge approach가 다양한 component로 유사한 tasks들을 cluster했지만, cluster의 수에 따라 연산량이 증가했습니다.

반면에 conditional meta-learning method는 single meta-knowledge를 유지했지만, meta-knowledge를 customize하기 위해 추가적인 architecture를 설계했습니다.

 

LEO는 encoder-decoder architecture를 사용하여, task-specific classification head를 구성했습니다. TADAM은 task-specific metric space을 customize하기 위해 task-dependent scaled metric을 사용했습니다.

Prompt Tuning

메타러닝에 prompt tuning을 통합하려는 노력이 NLP에서 이루어졌습니다.

[MetaPrompting: Learning to Learn Better Prompts]에서 좀 더 나은 initialization을 학습하기 위해 메타러닝을 고용했습니다.

[Effective Structured Prompting by Meta-Learning and Representative Verbalizer]는 prompt pol을 제안했습니다.

기존 NLP에서 prompt-tuning 사용했던 것과 다르게, 본 논문에서는 task-specific prompts를 위한 초기 값으로 활용되는 meta-prompt를 고려합니다.

3 PRELIMINARY

Model-Agnostic Meta-learning

MAML aims to learn a decent initialization of model parameters, i.e., meta-knowledge, through the outer loop, while fine-tuning the model parameters to specific tasks through the inner adaption.

Prompt Tuning

prompt tuning은 knowledge extraction을 위한 promising method이다.

prompt tuning은 다양한 tasks를 다루기 위해 model backbone을 freeze하고 task-specific prompts를 inputs에 추가적으로 통합합니다.

 

구체적으로,

pre-trained model $\mathcal{M}$ 은 $\pi : \mathcal{X} \to \mathcal{H}$로 mapping 합니다.

($\mathcal{X}$는 input space이고, $\mathcal{H}$는 representation space입니다)

일반적으로 pre-trainded model은 representation을 출력합니다: $h=\pi(X)$, 반면 prompted model은 representation을 다음과 같이 출력합니다: $\hat{h}=\pi(s||X)$

여기서 ||는 input과 prompt의 concatenation 입니다.

 

prompt tuning의 장점은 pre-trained model $\mathcal{M}$의 parmaeter update 필요없이, 다양한 downstream tasks를 다룰 때 단지 prompt 만 학습합니다.

4 METHOD

4.1 PROMPTED META-LEARNING

본 연구의 접근법은 ANIL에서 주장한 model backbone으로 추출된 feature가 general meta-knowledge를 소유하고 있고 reused 될 수 있다는 것이다.

 

이를 기반으로 본 연구는 task-specific prompt를 통해 feature를 재사용하는 방법을 guide한다.

 

 

 

4.1.1 META-PROMPT

메타러닝이 다수의 few-shot tasks를 다루기 때문에, 각 tasks에 대해 Distinct prompt를 학습하는 것은 inefficient or impractical 합니다.

 

게다가 Limited data로 prompt를 학습하는 것은 overfitting issue를 야기할 수 있습니다.

 

그러므로 bi-level optimization으로, task-specifc prompts를 위한 초기 값으로 역할을 하는 learnable meta-prompt $s \in \mathbb{R}$을 도입합니다.

 

그리고 meta-prompt는 deterministic vector대신 random variable로 modeling합니다.

 

Note that:

UAPML은 대부분의 parameter를 차지고 하고 있는 model backbone $\theta_r$을 freeze하고

오로지 meta-prompt $s$와 classification head $\theta_c$는 specific task를 update합니다.

이 방식으로 computational consumption이 크게 줍니다.

5 EXPERIMENT

 

 

 


Reference

https://openreview.net/forum?id=rDuqo9KTzh

 

Meta-Knowledge Extraction: Uncertainty-Aware Prompted Meta-Learning

Conventional meta-learning typically involves adapting all meta-knowledge to specific tasks, which incurs high computational costs due to the adaption process. To address this limitation, we...

openreview.net