
TL;DR
- I read this because.. : efficient finetuning ์๋ฆฌ์ฆ ๋ฌผ
- task : LLM finetuning
- problem : finetuning ๋ค ํ๋๊ฑฐ ๋นํจ์จ์ . discrete prompt ์ฐพ๊ธฐ ๊ณ์ฐ ๋นํจ์จ์ .
- idea : continuousํ prompt๋ฅผ ์์ ๋ถ์ด์.
- architecture : BART, GPT-2
- objective : ce loss
- baseline : finetuning, finetuning top 2 layer, apdapter
- data : E2E, WebNLG, DART
- result : finetuning ๋ณด๋ค๋ ์ด์ง ๋ฎ๊ณ adapter๋ ft-top2๋ณด๋จ ์กฐ๊ธ ๋์ ์ฑ๋ฅ
- contribution : #113 ๋ ๋น์ทํ ์์ด๋์ด
Details

PLM์ด ๋ฐ๋ก ์๊ณ prefix๋ฅผ ์ํ hidden ์ฐจ์์ matrix $P_\theta $๊ฐ ์๋ ํํ


smaller matrix $P_\theta ‘$์์ ์์ํด์ MLP๋ก size ํค์ฐ๋๊ฒ ๋ ์ฑ๋ฅ์ด ์ข์๋ค. ํ์ตํ๊ณ ๋์๋ $P_\theta ‘$์์ด ๋ฐ๋ก prefix $P_\theta $๋ฅผ ์ฌ์ฉํ๋ฉด ๋๋ค
Results

Ablations
- low data ์ํฉ์ผ ๋ random initalize๋ณด๋ค real word๋ก initํ๋๊ฒ ์ข์๋ค.

ํ์คํฌ์ ๊ด๋ จ ์๋ “elephant” ๊ฐ์ ๊ฒ๋ random ๋ณด๋ค ๋์๋ค. full์ผ๋๋ Initialize์ ํฌ๊ฒ ์ํฅ ๋ฐ์ง ์์๋ค.
prompt ๊ธธ์ด๋ task ๋ง๋ค ์ฑ๋ฅ์ ์ํฅ์ ์ด ์์๋ค ์์ฝ์ 200 / table to text๋ 10

prompt๋ฅผ ์์ ๋๋ prefix ํํ๊ฐ $[x; prompt; y]$ ํํ์ธ infix๋ณด๋ค ์ฑ๋ฅ์ด ์ข์๋ค.
