
TL;DR
- I read this because.. : ํ๊น ํ์ด์ค์ parameter efficient finetuning ๋ ํฌ์ article ๋ณด๋ค๊ฐ ์ฝ์. p-tuning ๋ง์ด ๋ค์ด๋ดค๋๋ฐ ์ฝ์ด๋ณธ์ ์ด ์์์
- task : language model finetuning(Knowledge probing, …)
- problem : LLM์ finetuning ํ ๋ ํ๋ผ๋ฏธํฐ๊ฐ ๋๋ฌด ์ปค์ few-shot ์ ํ ์ด๋ many-shot setting์ด๋ trasnfer ๋ฅ๋ ฅ์ด ๋จ์ด์ง๋ค. GPT-3 ์๋ค๊ฐ ์ข์ prompt๋ฅผ ๋ฃ์ผ๋ฉด ๋๋๋ฐ ์ข์ prompt๋ฅผ ์ฐพ๋๊ฒ ๊ณต์๊ฐ ๋๋ฌด ํฌ๊ณ , prompt์ ๋ฐ๋ผ ์ฑ๋ฅ๋ ๋ค์ญ๋ ์ญํ๋ค.
- idea : prompt๋ฅผ discreteํ๊ฒ ์ฐพ์ง ๋ง๊ณ continuous ๊ณต๊ฐ์์ ์ฐพ์
- architecture : BERT / GPT ๋ฑ LLM์ template {pseudo-prompt $P_{0:i}$, $\mathbf{x}$, $P_{i+1:m}$, $\mathbf{e(y)}$ }๋ฅผ ๋ฃ๊ณ ๊ฐ psudo-prompt์ ์๋ฒ ๋ฉ์ ํ์ต. ์ด๋ prompt ์๋ฒ ๋ฉ์ด ์๋ก ์์กด์ ์ผ๋ก ํ์ต๋์ผ๋ฉด ํด์ bi-LSTM ๋ ์ด์ด๋ฅผ ๋ฃ์ด์ ์๋ฒ ๋ฉ ๊ฐํ.
- objective : MLM loss
- baseline : manual prompt, fiene-tuning, discrete prompt searching, manual prompt + finetuning
- data : LAMA, SuperGLUE
- evaluation : accuracy, F1, …
- result : gpt / bert based model์์ GLUE์ ๋๋ถ๋ถ์ ํ์คํฌ์์ ๋ ๋์ ์ฑ๋ฅ! (finetune๋ ์ด๊น)
- contribution : manualํ prompt search๋ฅผ continuous ์์ญ์ผ๋ก
- limitation / things I cannot understand : prompt CIL ์ด๊ฒ๋ ์ข ์๊ฐ๋๋ ๊ฒ ๊ฐ๊ณ .. MTL ํ๊ฒฝ์์ p-tuning ์ ์ฉํด๋ณด๊ณ ์ถ๋ค๋ ์๊ฐ์ด ๋๋น
Details

- $\mathcal{M}$ : pretrained LM
์ด๋ ๊ฒ ํ์ต์ํฌ ๋ ๋๊ฐ์ง ๋ฌธ์ ๊ฐ ์๋๋ฐ 1) ์ด๋ฏธ pretrained LM $\mathcal{M}$์ ์๋ฒ ๋ฉ ๊ณต๊ฐ $\mathbf{e}$๊ฐ discrete ํด์ $h$๊ฐ random initialize ๋๋ฉด small neighborhood ๋ค์ ํ๋ผ๋ฏธํฐ๋ง ์์ ๋๊ณ local minima์ ๋น ์ง๊ธฐ ์ฝ๋ค๋ ๊ฑฐ๊ณ 2) prompt ํ ํฐ๋ค๋ผ๋ฆฌ dependent ํ๊ธธ ์ํ๋ค๋ ์ ์ด๋ค.
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด liteํ ๋คํธ์ํฌ ํ๋๋ฅผ ์ถ๊ฐํ๋ค.

LSTM์ด ์ถ๊ฐ๋๊ธด ํ์ง๋ง LM์ ๋นํ๋ฉด ํ๋ผ๋ฏธํฐ๋ ๊ฑฐ์ ์๊ณ inference ๋จ๊ณ์์๋ lstm์ ๊ทธ๋ฅ ๋ฒ๋ฆฌ๊ณ ํ์ต๋ ์๋ฒ ๋ฉ h๋ง ์ฐ๋ฉด ๋๋ค.

Result

p-tuning์ language model์ ํ๋ผ๋ฏธํฐ๋ freeze finetuning์ ์ด๊ธฐ๋๊ฒ ์ ๊ธฐํ๊ตฐ์

ํ์์ฐ๊ตฌ
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
๊ฐ ๋ ์ด์ด๋ง๋ค prompt token ๋ฃ๋๊ฑธ ๊ธฐ์กด p-tuning์์ ์ ๋ชปํ๋ hard sequence labeling tasks๋ ์ํ๋๊ฑธ ๋ณด์ / ์์ ๋ชจ๋ธ์์๋ ๋์ํ๋๊ฑธ ๋ฐํ
https://arxiv.org/pdf/2110.07602.pdf
