Image

paper

TL;DR

  • I read this because.. : SFT를 너무 많이 하는게 안좋나?2
  • task : reasoning model
  • problem : SFT를 진행함에 따라 pass@1은 개선되는데 pass@k가 악화되는 경향성
  • idea : pretrained와 SFT를 weight ensembling 하자
  • input/output : prompt -> {reasoning, answer}
  • architecture : {Gemma-2-2B, Qwen-2.5-0.5B}
  • objective : ce loss, GRPO loss
  • baseline : SFT, temperature majority voting
  • data : SFT {GSM8K, OpenThoughts-114k (cold-start SFT)} -> GRPO {30K subset of rephrased question from MetaMath}
  • evaluation : AIME24, MATH500, GSM8K / majority voting, BoN
  • result : SFT를 진행함에 따라 diversity가 떨어짐을 보임. SFT를 더 많이 할수록 RL 성능의 상한도 떨어짐. Wise-FT를 할 경우 가장 최선이고 이 성능은 temperature를 다양화하며 BoN을 하는것보다 나음
  • contribution : 다양한 분석
  • etc. : 2B, 0.5B에서만 진행된게 한계라고 함

Details

  • related work
    • PRESERVING DIVERSITY IN SUPERVISED FINE-TUNING OF LARGE LANGUAGE MODELS
    • Inference-Aware Fine-Tuning for Best-of-N Sampling in Large Language Models
  • pass@1 vs pass@k tradeoff
Image
  • better test time scaling / RL scaling Image

  • diversity collapse

Image

SFT가 진행됨에 따라 AIME2024의 unique answer 비율 Image

Image
  • 서로 다른 SFT step ckpt에 대한 PPO further training 성능
Image
  1. KL regularization 없이는 policy diversity 가 붕괴됨
  2. 그렇다고 KL regularization을 넣는다고 해서 기존의 diversity보다 넘어서는 policy로 수렴할 수 있는 것은 아님 ==> appendix에서 증명
Image

pass@k는 jensen’s inequality에 따라 bias와 variance에 upper bound가 생김.

Image Image

SFT를 함에 따라 pass@1 variance가 높아짐. (틀린건 무조건 틀리고 맞는건 무조건 맞음) (==response diversity가 떨어지는 방향.)

Image