TL;DR
- I read this because.. : PPO / DPO ๋น๊ต ๋ ผ๋ฌธ
- task : RL
- problem : PPO, DPO, RM ๋ชจ๋ธ์ ํฌ๊ธฐ, RM data, PPO์์ prompt(์ด๋ค ์ง๋ฌธ์ ์ฃผ๊ณ rollout ์ํฌ๊ฑด์ง) ๋ฑ์ ๋ํ ablation
- architecture : TULU 2 13B(LLama2 finetuned)
- objective : PPO / DPO loss
- baseline : TULU 2 SFT
- data : preference data human-annotated(HH-RLHF, HelpSteer, Chatbot Arena 2023-4, AlpacaFarm human, PRM600k), Web-scraping(SHP-2, StackExchange), synthetic(Ultra-Feedback, Nectrar, Orca, Capybara, AlapacaFarm GPT-4)
- evaluation : factuality(MMLU), reasoning(GSM8k, Big Bench Hard), truthfulness(TruthfulQA), coding(HumanEval+, MBPP+), safety(ToxiGen, XSTest), instruction folloiwng(AlpacaEval 1,2, IFEval)
- result : 1) DPO๋ณด๋ค PPO๊ฐ ์ข๋ค 2) RM์ ํด์๋ก ์ข์ง๋ง RM ์งํ๊ฐ ๊ผญ ๋ค์ด ์คํธ๋ฆผ์์ ์ข์ ๊ฒ์ ์๋๋ค 3) ์ง ์ข๊ณ ์์ข์ synthetic preference data๊ฐ ์ข๋ค 4) ๊ทธ์ค์๋ finegrained ์ฑ์ (ํญ๋ชฉ๋ณ ์ ์)๋ฅผ ๋ด๋ Ultra-F๊ฐ ์ข๋ค 5) RLHF๋ก ๋์ด๋๋ ๊ฒ์ Truthfulness, instruction following ๋ฅ๋ ฅ์ด๋ค 6) PPO์์๋ reasoning, coding, safety๊ฐ ๋์ด๋ฌ๋ค. 7) prompt๋ down stream task์ ๋ง๊ฒ ๋ค์ํํ๋ฉด ์ข์ผ๋ ์์ RM์ ๋ํด์ generalize๋ฅผ ๋ชปํด์ ์ผ๋ฐํ๋ฅผ ํ์ง ๋ชปํ๋ค.
- contribution :
- etc. :
Details
overall
PPO vs DPO
Preference data for DPO
DPO์์ synthetic » human ์ผ๋ก ๋์ด. ์๋์ด ๋น์ทํ ๊ฒฝ์ฐ์๋ ๊ทธ๋ ๋ค.. human๋ณด๋ค synthetic์ด ๋ ์ผ๊ด์ ์ธ๊ฑด๊ฐ? ๊ฐ์ค์๋ UltraFeedback (fine-grainedํ๊ฒ ์์ญ๋ณ๋ก ์ ์๋ฅผ ๋ธ ๊ฒ)์ด ๊ฐ์ฅ ํจ๊ณผ๊ฐ ์ข์์.
- DPO vs PPO
DPO ๋๋น ๋๋๋ฌ์ง๋ ๋ถ๋ฌธ์ reasoning, coding, safety ํนํ stackexchange ๊ฐ์ crawled data๊ฐ DPO์์๋ coding ์ค๋ ฅ์ ๋๋ฆฌ์ง ๋ชปํ๋๋ฐ PPO๋ ๋๋ ธ์. PPO๊ฐ chain-of-thought ๋ฅ๋ ฅ์ด ๋ ๋ฐ์ด๋ ๊ฒ ๊ฐ๊ณ ์ด๋ก ์ดํด reasoning ๋ฅ๋ ฅ์ด ๋์ด๋๊ฒ ์๋๊น ํ๋ ๋ถ์
- reward model
Mix๊ฐ ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์๋ UltraFeedback์ ํฌํจํ ๋ฐ์ดํฐ์
์ผ๋ก RM์ ํ๊ฑด๋ฐ ๋ ๋ง์ Reward dataset์ ์ฐ๋๊ฒ RM ์งํ ์ ์ฑ๋ฅ์ด ์ข์์.
reward model ์์ฒด์ ํ๊ฐ๋ PPO ๊น์ง ๊ฐ์ ๋ ํ๊ฐ๊ฐ ์์ํ์ง ์์์.
13B Mix RM์ด ๊ฐ์ฅ ์ข๊ฒ ๋์จ ์งํ๋ ์์๋๋ฐ ์ค์ ๋ก ๊ทธ๋ ์ง ์์์. 70B RM์ด 13B๋ชจ๋ธ ๋ณด๋ค rm ์งํ๋ ์๋นํ ์ข์๋๋ฐ, PPO์์์ ์ฑ๋ฅ์ ๊ฐ์ ์ด ์๊ฑฐ๋ ๊ฑฐ์ ๋น์ทํ์.
- policy training prompt
PPO ํ์ต ์ ์ฌ์ฉ๋๋ prompt๋ downstream์ ๊ฐ๊น์ธ ์๋ก ์ข์์.