TL;DR
- I read this because.. : ๋ฐฐ๊ฒฝ์ง์ ์ฐจ
- task : RL
- problem : TRPO๋ ๋ณ๋์ Reward model์ ํ์ตํด์ผ ํ๋๋ฐ ๋ชจ๋ธ์ด ์ปค์ง์ ๋ฐ๋ผ ๋๋ฌด ํ๋ฆ
- idea : reward model์ ๋ฐ๋ก ์์ด loss์ reward ์ ๋ํ loss๊น์ง directํ๊ฒ ํ์ตํ ์ ์์๊น?
- input/output : {state, reward} -> action
- architecture : GPT2-Large
- objective : proposed.
- baseline : zero-shot to GP-J, SFT, Preferre-ft, Unlikelihood, PPO, PPO-GT, Bes of N baseline(SFT reponse ์ค์ ๊ฐ์ฅ reward๊ฐ ๋์ ๊ฐ return)
- data : IMDb , Reddit TL;DR
- evaluation : GPT-4 Evaluator
- result : ๋ฒ ์ด์ค๋ผ์ธ ๋๋น ๋น์ทํ๊ฑฐ๋ ๋์ ์ฑ๋ฅ
- contribution :
- etc. : ํ ๊ต์๋ ์ฌ๊ธฐ์ ๋ต๋๊ตฐ์ ..!
Details
Preliminaries
SFT ์๋์ ์์ง์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด์ $\pi^{SFT}$๋ฅผ ๋ง๋ฆ
Reward modeling (Bradley-Terry model)
์ด๊ฑธ binary ๋ฌธ์ ๋ก ์นํํ๋ฉด
- RL finetuning phrase
DPO
์์ ํจ์๋ฅผ ๋ค์ ์ฐ๋ฉด
partition function์ ํ๋ฅ ๋ถํฌ๋ก ๋ง๋ค์ด์ฃผ๋ ์ญํ ?
optimal policy์ ๋ํด bradely-terry model์ ์๋์ ๊ฐ์ preferenc๊ฐ ์ฑ๋ฆฝ
policy์ ๊ด์ ์์ human preference data๋ฅผ ๊ฐ์ง๊ณ ์์ผ๋ ์ด๋ฅผ mle objective๋ก ํํํ๋ฉด