[189] Training Verifiers to Solve Math Word Problems

TL;DR

I read this because.. : ORM(Output Reward Model)이 많이 언급되어. 정확히 이 논문을 말하는지 모르겠지만 Omega PRM논문에서 인용함.
task : 수학 문제 푸는 LLM
problem : LM 많은 발전이 있었지만 multi-step mathematical reasoning 여전히 못한다.
idea : 데이터 제안. finetuning후 100개의 sample을 뽑고 label을 매긴 뒤 verifier 학습. 이후 Inference를 여러개 하고 verifier에서 높은 점수를 얻은 것을 최종 정답으로 선택.
architecture : GPT3 6B / 175B
objective : CE loss / verifier의 경우 Scalar head (bce loss일듯?)
baseline : finetuning
data : GSM8K (proposed)
evaluation : test solve ratio
result : 175B finetuned 보다 6B
contribution : gsm8k 제안 / Multi-step math reasoning 문제 해결? / RFT의 전신..?
etc. :

100 Guess의 경우 빠르게 overfitting. 2 epoch만 보게 함