[169] Direct Preference Optimization: Your Language Model is Secretly a Reward Model

TL;DR

I read this because.. : 배경지식 차
task : RL
problem : TRPO도 별도의 Reward model을 학습해야 하는데 모델이 커짐에 따라 너무 힘듦
idea : reward model을 따로 없이 loss에 reward 에 대한 loss까지 direct하게 학습할 수 없을까?
input/output : {state, reward} -> action
architecture : GPT2-Large
objective : proposed.
baseline : zero-shot to GP-J, SFT, Preferre-ft, Unlikelihood, PPO, PPO-GT, Bes of N baseline(SFT reponse 중에 가장 reward가 높은 값 return)
data : IMDb , Reddit TL;DR
evaluation : GPT-4 Evaluator
result : 베이스라인 대비 비슷하거나 나은 성능
contribution :
etc. : 핀 교수님 여기서 뵙는군요 ..!