TL;DR
- I read this because.. : PRIME์ด๋ ๋ ผ๋ฌธ์ ์ฝ๊ธฐ ์ ์ ํ์ง์. ์ด์ ์ฐ๊ตฌ ๋๋ฌธ์ implicit dense reward์ ๊ด์ฌ ๋ง์ ใ ใ
- task : reward modeling
- problem : PRM์ด ๋ ์ฑ๋ฅ์ ์ข์๋ฐ ORM์ ๋นํด ๋๋ฌด ๋น์ธ๋ค
- idea : ORM๋ง ํ์ตํด์ PRM์ฒ๋ผ sparse reward ๋ชป ์ป๋?
- input/output : prompt, y -> reward of y_t
- architecture : Llama-3.1-8B-Instruct
- objective : ๋ชจ๋ q๊ฐ ๋ค์ด๊ฐ๋ ๊ณณ์ $\frac{\pi_\theta(y_i|y_{<i})}{\pi_{ref}(y_i|y_{<i})}$๋ฅผ ๋ฃ์. DPO, KTO, NCA, CE
- baseline : MathShepherd, AutoPSV, RLHFlow, open ORM/ PRM models
- data : UltraInteract – 8 rollouts per instruction from Llama-3.1-8B-instruct
- evaluation : Math-500 BoN / Mistral-Instruct-v0.3, Llama-3.1-8B-Instruct, Llama-3.1-70B-Instruct
- result : Math-Shepherd, AutoPSV๋ณด๋ค ์ข์ ์ฑ๋ฅ.
- contribution : DPO is secretly.. Q-learning ๋ ผ๋ฌธ์ DPO์ ๊ตญํ๋์๋ค๋ฉด ์ด๊ฑด ๋๋ถ๋ถ์ loss term์ ์ ์ฉ ๊ฐ๋ฅ
- etc. :
Details
- advantage r์ reference์์ ๋น์จ๋ก ๋๋ฉด q๊ฐ ์ ํํ exponential average of $r_\theta$ at step t๊ฐ ๋จ
์ฆ ORM์ ํ์ตํ ๋ r์ ์ ๋ ๊ฒ ์ฃผ๋ฉด PRM์ฒ๋ผ ๊ฐ๊ฐ์ step์ ๋ํ $y_t$๊ฐ Q๊ฐ ๋์ด์ ์ด๊ฑธ sparse reward์ฒ๋ผ ์ฌ์ฉํ ์ ์์
- second proposition
์ดํด ๋ชปํจ ใ
- CE loss์๋ ์ด๊ฑธ ์ ์ฉ ๊ฐ๋ฅ
- result
- efficiancy
- with majority vote
c.f. UltraInteract
์ํ์ด ์๊ตฌ๋ญ