problem : LM์ผ๋ก few-shotํ์.
solution : ์์ฒญ ํฐ LM ๋ชจ๋ธ์ ๋ง๋ค์
result : ๋ค์ํ NLP task์์ few-shot ์ฑ๋ฅ SOTA.
details :
๋ชจ๋ธ ํฌ๊ธฐ ๋ณ zero-, one-, few-shot ๋ชจ๋ธ์ ์ฑ๋ฅ ๋น๊ต. ๋ชจ๋ธ์ด ์ปค์ง์๋ก in-context learning์ด ํจ๊ณผ์ ์

GPT3์์ ์ฉ์ด ์ค๋ช

๋ชจ๋ธ ์ํคํ ์ณ๋ GPT2์ ๋งค์ฐ ์ ์ฌํ๋, Sparse Transformer ๊ฐ์ locally banded sparseํ ์ดํ ์ ์ผ๋ก ๋ฐ๊พธ์๋ค.
๋ชจ๋ธ ํฌ๊ธฐ๋ ์ด ์ ๋. “GPT-3"๋ผ๊ณ ๋ณดํต ๋ถ๋ฅด๋ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ 1750์ต. ๋ฐ์ดํฐ๋ 3000์ต ํ ํฐ.

๋ฐ์ดํฐ๋ Common Crawl ์ ์ฌ์ฉํ๊ณ , ๋ฐ์ดํฐ์ ์ง์ ์ฌ๋ฆฌ๊ธฐ ์ํด ์ ์ฒ๋ฆฌ๋ ํ๊ณ , ์๋ ค์ง ๋์ ํ๋ฆฌํฐ์ corpus์ ์๊ธฐ๋ ํ์๋ค.
ํฐ ๋ชจ๋ธ์ batch size๋ฅผ ์ต๋ํ ํฌ๊ฒ, ์์ learning rate๋ฅผ ๊ฐ์ง๋๋ก ํ๋๊ฒ์ด ์ข๋ค.
gradient noise scale์ ๊ตฌํ ๋ค์ ์ด๋ฅผ ๋ฐํ์ผ๋ก batch size๋ฅผ ์ ํ์๋ค.(ref )
Downstream Tasks :
Penn Tree Bank : ๊ตฌ๋ฌธ๋ถ์์ ์ํ corpus์ธ๋ฐ LM ์ฑ๋ฅ ํ๊ฐ๋ก๋ ํ๋๋ฏ
LAMBADA : context ์ฃผ๊ณ ๋น์นธ ์ถ๋ก corpus. long-range depndencies๋ฅผ ์ ํด๊ฒฐํด์ผ ํจ
SuperGLUE : ์ด๊ฒ์ ๊ฒ ์ด๋ ค์ด NLP task ๋ชจ์ ๋์ ๊ฒ

์ฐ์ : 2~5์๋ฆฌ์ ๋ํ๊ธฐ/๋นผ๊ธฐ, 2์๋ฆฌ์ ๊ณฑํ๊ธฐ, 1์๋ฆฌ์ ์ฐ์ฐ( 6+(4*8) ๊ฐ์ ๊ฒ)
word scrambling and manipulation task

news article generation : ์ธ๊ฐ์ด ์ง์ ์ด ๋ด์ค์ ๋ชจ๋ธ์ด ๋ง๋ ๋ด์ค ๊ตฌ๋ถํ๋ annotation ์งํ. ์ผ๋ถ๋ฌ ๊ตฌ๋ฆฐ ๋ชจ๋ธ์ด๋ ๋น๊ตํด์ t-test.
learning and using novel words : ๋ฑ ํ๋ฒ๋ง ์ฐ์ธ ๋จ์ด๋ฅผ ๋ณด๊ณ ๊ทธ ๋จ์ด๋ฅผ ๋ฃ์ ๋ฌธ์ฅ์ ๋ง๋ค๋ผ๊ณ ํจ.

correcting english grammar :
"Poor English Input: <sentence>\n Good English Output: <sentence>์ด๋ ๊ฒ input์ ์ค.
GPT3 ๋ชจ๋ธ์ ํ๊ณ๋ค
- ์์ฑ์ ์ ๋ชปํจ. ๋จ์ด๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ๋ฑ์ด๋.
- ๋ฌผ๋ฆฌํ์ ๋ํ common sense๊ฐ ๋ถ์กฑํจ. ๊ฐ๋ น, ‘์น์ฆ๋ฅผ ๋์ฅ๊ณ ์ ๋ฃ์ผ๋ฉด ๋ น์๊น?‘์ ๊ฐ์ ๊ฒ์ ๋๋ต์ ์ ๋ชปํจ.
- LM obejctive๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์, bi-LM์ด ์๋๊ณ , ์ด๋ค ๋จ์ด๊ฐ ์ค์ํ๊ณ ๊ทธ๋ ์ง ์์์ง์ ๋ํ ์ ๋ณด๊ฐ ๋ถ์กฑํจ.
- ๋ค๋ฅธ ๋๋ฉ์ธ ๊ฐ๋ น ๋น๋์ค๋ ์ฌ์ง์ ๋ํ ๊ฒ์ ํ์ตํ์ ์ด ์์ด์ ์ค์ ์ธ์์ ๋ํ ์ ๋ณด๊ฐ ๋ถ์กฑํจ
- ์ธ๊ฐ์ด ํ์๋์ ๋ณผ ๋จ์ด๋ค์ ๋ค ๋ณธ ๊ฒ ๊ฐ์๋ฐ ์ธ๊ฐ๋ณด๋ค ํ์ต์๋๊ฐ ๋จ์ด์ง