TL;DR
- I read this because.. : SFT를 너무 많이 하는게 안좋나?2
- task : reasoning model
- problem : SFT를 진행함에 따라 pass@1은 개선되는데 pass@k가 악화되는 경향성
- idea : pretrained와 SFT를 weight ensembling 하자
- input/output : prompt -> {reasoning, answer}
- architecture : {Gemma-2-2B, Qwen-2.5-0.5B}
- objective : ce loss, GRPO loss
- baseline : SFT, temperature majority voting
- data : SFT {GSM8K, OpenThoughts-114k (cold-start SFT)} -> GRPO {30K subset of rephrased question from MetaMath}
- evaluation : AIME24, MATH500, GSM8K / majority voting, BoN
- result : SFT를 진행함에 따라 diversity가 떨어짐을 보임. SFT를 더 많이 할수록 RL 성능의 상한도 떨어짐. Wise-FT를 할 경우 가장 최선이고 이 성능은 temperature를 다양화하며 BoN을 하는것보다 나음
- contribution : 다양한 분석
- etc. : 2B, 0.5B에서만 진행된게 한계라고 함
Details
- related work
- PRESERVING DIVERSITY IN SUPERVISED FINE-TUNING OF LARGE LANGUAGE MODELS
- Inference-Aware Fine-Tuning for Best-of-N Sampling in Large Language Models
- pass@1 vs pass@k tradeoff
better test time scaling / RL scaling
diversity collapse
SFT가 진행됨에 따라 AIME2024의 unique answer 비율
- 서로 다른 SFT step ckpt에 대한 PPO further training 성능
- KL regularization 없이는 policy diversity 가 붕괴됨
- 그렇다고 KL regularization을 넣는다고 해서 기존의 diversity보다 넘어서는 policy로 수렴할 수 있는 것은 아님 ==> appendix에서 증명
pass@k는 jensen’s inequality에 따라 bias와 variance에 upper bound가 생김.
SFT를 함에 따라 pass@1 variance가 높아짐. (틀린건 무조건 틀리고 맞는건 무조건 맞음) (==response diversity가 떨어지는 방향.)