TL;DR
- I read this because.. : ์์ฆ ๋์ธ์ธ answer๋ง์ผ๋ก reward๋ฅผ ์ฃผ๋ ์ ๊ทผ๋ก
- task : RL reasoning
- problem : scale RL
- idea : 1) cot sft ๋ฐ์ดํฐ๋ฅผ ์ ๋ง๋ค์ 2) exploration ์ ๋ง์ด ์ํค์(temperature when exploration, entropy bonus) 3) ์ ๋ต + undesirable ํ๋์ ๋ํด์๋ง reward๋ฅผ ์ฃผ์
- input/output : Q -> A
- architecture : Qwen2.5-32B
- objective : 1 or 0 reward + RLOO + entropy bonus
- baseline : QwQ-32B-preview
- data : MATH-train, NuminaMATH
- evaluation : MATH500, AIME2024, Omni-math-500
- result : QwQ-32B-preview ๋ณด๋ค ๋์ ์ฑ๋ฅ
- contribution : ๋ค์ํ ablation๊ณผ ๋ฐฉ๋ฒ๋ก ๋ #220 ๊ณผ ๋๋์์ด
- etc. : ์ง๊ธ ๋ค์ ๋ณด๋ on-policy๋ ๋ง์ด ๊ฐ์กฐํ๋ฏ?
Details
overall pipeline
์ ๊ธฐ์ ์ ๋ต์ ground truth์ ๋น๊ตํ์ฌ ๋ง์ผ๋ฉด 1 ์๋๋ฉด 0
Initializing Policy with CoT for Reasoning ๋ค์ํ llm์ ์ฌ์ฉํ์ฌ prompt x์ ๋ํ ๋ค์ํ attempt๋ฅผ ๋ชจ์.
scaling response sampling with high temperature temperature๋ฅผ 1 ์ด์์ผ๋ก ์ฃผ์ด ๋ค์ํ response๊ฐ ๋์ค๋๋ก ํจ RLOO๋ฅผ ์ฌ์ฉํ์ฌ reward scaling
auxiliary entropy bonus
- on-policy kl divergence
kl divergence term์ ๋ํด์๋ scaling์ ์ ์ฉํจ
reference model์ ema ์ ์ฉ
- Penalizing Unexpected Patterns in RL Training
repeated / overlong answer์ ๋ํด reward์ -1๋ฅผ ๋ํด์ค. ์ด๊ฑด rule based (n-gram ๋ฐ๋ณต๋ฑ)์ผ๋ก ํ์งํ์
details
- data construction
- MATH, NuminaMATH๋ฅผ SFT / RL ์ฉ์ผ๋ก ๋๋
- sft ๋ฐ์ดํฐ์ ๋ํด์ ์ถ๊ฐ์ ์ธ ํํฐ๋ง ์ ์ฉ – ๋๋ฌด ์ฝ๊ฑฐ๋ noisy ๋ฐ์ดํฐ ์ ๊ฑฐ.
- 16๊ฐ์ response๋ฅผ ์์ฑํ ๋ค ์ ๋ต๋ฅ 0.3 ์ดํ์ธ ์ ๋ค๋ง ๋จ๊น
result
overall results
ablation on sampling more
sampling K๋ฅผ ๋๋ฆฌ๋ฉด ๋ต๋ณ๊ธธ์ด๋ ๋์ด๋๊ณ ์ ํ๋๋ ๋์ด๋จ. (a), (b) ๋ํ ๊ฐ์ reward์ ๋๋นํ์ฌ KL divergence๊ฐ ์๊ณ ๋์ด๋๋ ์๋๋ ๋๋ฆผ (c) – ์ด๊ฒ ์ ์ข์๊ฑฐ์ง?
์ต์ข ์ ์ธ ์ฑ๋ฅ
- exploration
1.2๊ฐ ์ต์ . ๋๋ฌด ํฌ๋ฉด ์์ข์์.
- penalty reward