
TL;DR
- I read this because.. : #113 ์ ์ด์ด์ efficient finetuning ์๋ฆฌ์ฆ ๋ฌผ
- task : LLM finetuning
- problem : finetuning์ ๋นํจ์จ์ . adaptor๋ ์ด์จ๋ ๋ ์ด์ด๊ฐ ์ค๊ฐ์ ์ถ๊ฐ๋๊ธฐ ๋๋ฌธ์ latency์ ์ํฅ.
- idea : weight์ ์ ๋ฐ์ดํธ ๋ถ์ low-rank ๋ก ๊ทผ์ฌํ์ฌ ์๋ ํ๋ผ๋ฏธํฐ์ ๋ํ์!
- architecture : RoBERTa, DeBERTa, GPT-2, GPT-3
- objective : ce loss
- baseline : finetuning / adaptors / pre-layer
- data : GLUE, WikiSQL, MultiNLI
- result : ํจ์ฌ ๋ ์์ trainable parameter๋ก ๋ ๋์ ์ฑ๋ฅ
- contribution : latency ์ถ๊ฐ ์์ด ํจ์จ์ ์ธ finetuning
- limitation / things I cannot understand :
Details
- preliminaries : Parameter-Efficient Transfer Learning for NLP
Adaptor๋ฅผ ์ ์. finetuning์ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ํ์ตํ๊ณ ์ ์ฅํด์ผ๋์ด์ ๋นํจ์จ์ . feature-extraction์ ์ฑ๋ฅ์ ํ๊ณ.
downstream task๋ค์ ๋ ์ ์ ํ๋ผ๋ฏธํฐ๋ก ํ์ตํ๋ adaptor ์ ์.
์ด ๋
ผ๋ฌธ์์๋ ํธ๋์คํฌ๋จธ ๋ ์ด์ด์ ๋๊ฐ์ adaptor layer๋ฅผ ๋ฃ์.


- architecture

๊ธฐ๋ณธ์ ์ธ ์์ด๋์ด๋ denseํ layer๊ฐ ๋ ๋ฎ์ rank๋ก decompose๋ ์ ์๋ค๋ ์์ด๋์ด. ์ด๋ค weight W์ update ๋ถ์ธ $\Delta W$๋ฅผ $BA$ $B\in\mathbb{R}^{d \times r}$, $A\in\mathbb{R}^{r \times k}$๋ก ๊ทผ์ฌํด์ forward๋ฅผ ์๋์ ๊ฐ์ด ๋ง๋ฆ

์ด๋ A๋ random gaussian์ผ๋ก B๋ zero๋ก initialize๋จ. ์ฆ ์ด๊ธฐ BA๋ 0์ด ๋จ. $\Delta W$๋ $\alpha / \gamma$๋ก ์ ๋ฐ์ดํธ ๋๋๋ฐ $\alpha$๊ฐ ์ผ์ข ์ learning rate์ฒ๋ผ ํ์ดํผํ๋ผ๋ฏธํฐ์ฒ๋ผ ์ฌ์ฉํจ. LoRA๋ฅผ attention์ ์ํ weight๋ค์ธ $W_q$, $W_k$, $W_v$, $W_o$์๋ง ์ ์ฉํ๊ณ MLP์๋ ์ ์ฉํ์ง ์์.

์ ํ๋ ํ๋ผ๋ฏธํฐ ์ ์ฝ ์์์ $W_q$๋ง ์ ์ฉํ๋ ๊ฒ๋ณด๋ค rank 4๋๋ผ๋ ๋๋ค ์ ์ฉํ๋๊ฒ ์ข์๊ณ ์
๋ค ์ ์ฉํ๋๊ฒ ๊ฐ์ฅ ์ข์์.

๋งค์ฐ ๋ฎ์ rank์์๋ ์ ์๋ํ๊ณ ์ด๋ update matrix $\Delta W$ ๊ฐ ๋งค์ฐ ๋ฎ์ intrinsic matrix๋ฅผ ๊ฐ์ง๊ณ ์๋ค๋ ๋ป์.
inference latency

results

