image

paper

TL;DR

  • I read this because.. : ORM(Output Reward Model)이 많이 언급되어. 정확히 이 논문을 말하는지 모르겠지만 Omega PRM논문에서 인용함.
  • task : 수학 문제 푸는 LLM
  • problem : LM 많은 발전이 있었지만 multi-step mathematical reasoning 여전히 못한다.
  • idea : 데이터 제안. finetuning후 100개의 sample을 뽑고 label을 매긴 뒤 verifier 학습. 이후 Inference를 여러개 하고 verifier에서 높은 점수를 얻은 것을 최종 정답으로 선택.
  • architecture : GPT3 6B / 175B
  • objective : CE loss / verifier의 경우 Scalar head (bce loss일듯?)
  • baseline : finetuning
  • data : GSM8K (proposed)
  • evaluation : test solve ratio
  • result : 175B finetuned 보다 6B
  • contribution : gsm8k 제안 / Multi-step math reasoning 문제 해결? / RFT의 전신..?
  • etc. :

Details

image image image

100 Guess의 경우 빠르게 overfitting. 2 epoch만 보게 함 image