image

paper , code

TL;DR

  • I read this because.. : o1 video에서 언급되어
  • task : reward model 개선
  • problem : llm-as-judge 같은 경우에 점수에 대한 해석도 하는데 reward model도 그렇게 못하나?
  • idea : RM에게 critique까지 생성하라고 한 뒤 그 뒤에 reward head 달아서 예측하게 하자
  • input/output : {question, answer} -> {critique, reward score}
  • architecture : Llama-3-8B / 70B
  • objective : SFT loss + RM loss(Bradley-Terry Model)
  • baseline : classic RM model
  • data : UltraLlama(proposed. UltraFeedback + UltraInteract subset의 Prompt로 하고 Llama-3-8B-Instruct로 response 생성) + Llama-3.1.-405B-Instruct로 critique 및 judgement를 생성한걸 oracle로 사용
  • evaluation : pairwise preference classification of Reward Bench, BoW win rate on ArenaHard
  • result : 모든 부문에서 CLoud 기법이 효과. on policy가 off policy보다 항상 좋음. self-consistency 기법도 테스트해봤는데 reasoning에서만 좋음.
  • contribution : rm이 해석가능해진다는 점에서 좋은듯? 많이 쓰일지는 모르겠음.
  • etc. :

Details

  • thumbnail
image

간단함. critique을 생성하라고 하고 마지막 critique까지 포함하여 given으로 준뒤 reward head 달아서 학습 critique를 생성하는 SFT Loss와 RM loss 한번에 학습. image

($\lambda$는 8B에서 5/4, 70B에서 3/4로 찾아짐)

image image
  • training overview image

처음에는 oracle ciritque를 기반으로 학습. oracle은 UltraLlama(proposed. UltraFeedback + UltraInteract subset의 Prompt로 하고 Llama-3-8B-Instruct로 response 생성) + Llama-3.1.-405B-Instruct로 critique 및 judgement를 생성. (Oracle judgment 생성 프롬프트) image

그 뒤에는 self-generated critique을 기반으로 학습. 이걸 N번 돈 건 아니고 한번만 돈듯함?

Result

  • CLoud 기법의 효용? image

다 효과적인 것으로 나옴. RM만 평가하는게 맞는지는 모르겠음.

  • on-policy vs off-policy oracle critique을 계속 사용하는 방식 image

On-policy가 확연히 효과가 좋음

  • self-consistency 효과 reasoning(여기서는 critique)을 여러개 생성하게 한 뒤 그뒤에 달린 score를 평균내서 사용 image

reasoning 외에는 효과가 없었음. 외에 ArenaHard는 아예 효과가 없음

image

reasoning 중에서도 reason step이 1~2 step인 경우에만 효과가 있고 그 외에는 없었음.