TL;DR
- I read this because.. : o1 video에서 언급되어
- task : reward model 개선
- problem : llm-as-judge 같은 경우에 점수에 대한 해석도 하는데 reward model도 그렇게 못하나?
- idea : RM에게 critique까지 생성하라고 한 뒤 그 뒤에 reward head 달아서 예측하게 하자
- input/output : {question, answer} -> {critique, reward score}
- architecture : Llama-3-8B / 70B
- objective : SFT loss + RM loss(Bradley-Terry Model)
- baseline : classic RM model
- data : UltraLlama(proposed. UltraFeedback + UltraInteract subset의 Prompt로 하고 Llama-3-8B-Instruct로 response 생성) + Llama-3.1.-405B-Instruct로 critique 및 judgement를 생성한걸 oracle로 사용
- evaluation : pairwise preference classification of Reward Bench, BoW win rate on ArenaHard
- result : 모든 부문에서 CLoud 기법이 효과. on policy가 off policy보다 항상 좋음. self-consistency 기법도 테스트해봤는데 reasoning에서만 좋음.
- contribution : rm이 해석가능해진다는 점에서 좋은듯? 많이 쓰일지는 모르겠음.
- etc. :
Details
- thumbnail
간단함. critique을 생성하라고 하고 마지막 critique까지 포함하여 given으로 준뒤 reward head 달아서 학습
critique를 생성하는 SFT Loss와 RM loss 한번에 학습.
($\lambda$는 8B에서 5/4, 70B에서 3/4로 찾아짐)
- training overview
처음에는 oracle ciritque를 기반으로 학습.
oracle은 UltraLlama(proposed. UltraFeedback + UltraInteract subset의 Prompt로 하고 Llama-3-8B-Instruct로 response 생성) + Llama-3.1.-405B-Instruct로 critique 및 judgement를 생성.
(Oracle judgment 생성 프롬프트)
그 뒤에는 self-generated critique을 기반으로 학습. 이걸 N번 돈 건 아니고 한번만 돈듯함?
Result
- CLoud 기법의 효용?
다 효과적인 것으로 나옴. RM만 평가하는게 맞는지는 모르겠음.
- on-policy vs off-policy
oracle critique을 계속 사용하는 방식
On-policy가 확연히 효과가 좋음
- self-consistency 효과
reasoning(여기서는 critique)을 여러개 생성하게 한 뒤 그뒤에 달린 score를 평균내서 사용
reasoning 외에는 효과가 없었음. 외에 ArenaHard는 아예 효과가 없음
reasoning 중에서도 reason step이 1~2 step인 경우에만 효과가 있고 그 외에는 없었음.