[106] Prefix-Tuning: Optimizing Continuous Prompts for Generation

2023년 3월 28일 · 1 분 · long8v · | 번역:

En

View original issue on GitHub →

목차

TL;DR
Details
- Results
- Ablations

TL;DR

I read this because.. : efficient finetuning 시리즈 물
task : LLM finetuning
problem : finetuning 다 하는거 비효율적. discrete prompt 찾기 계산 비효율적.
idea : continuous한 prompt를 앞에 붙이자.
architecture : BART, GPT-2
objective : ce loss
baseline : finetuning, finetuning top 2 layer, apdapter
data : E2E, WebNLG, DART
result : finetuning 보다는 살짝 낮고 adapter나 ft-top2보단 조금 나은 성능
contribution : #113 랑 비슷한 아이디어

Details

PLM이 따로 있고 prefix를 위한 hidden 차원의 matrix $P_\theta $가 있는 형태

smaller matrix $P_\theta ‘$에서 시작해서 MLP로 size 키우는게 더 성능이 좋았다. 학습하고 나서는 $P_\theta ‘$없이 바로 prefix $P_\theta $를 사용하면 된다

Results

Ablations

low data 상황일 때 random initalize보다 real word로 init하는게 좋았다.

태스크와 관련 없는 “elephant” 같은 것도 random 보다 나았다. full일때는 Initialize에 크게 영향 받지 않았다.

prompt 길이는 task 마다 성능의 상향선이 있었다 요약은 200 / table to text는 10
prompt를 앞에 두는 prefix 형태가 $[x; prompt; y]$ 형태인 infix보다 성능이 좋았다.