[210] Weight Ensembling Improves Reasoning in Language Models

TL;DR

I read this because.. : SFT를 너무 많이 하는게 안좋나?2
task : reasoning model
problem : SFT를 진행함에 따라 pass@1은 개선되는데 pass@k가 악화되는 경향성
idea : pretrained와 SFT를 weight ensembling 하자
input/output : prompt -> {reasoning, answer}
architecture : {Gemma-2-2B, Qwen-2.5-0.5B}
objective : ce loss, GRPO loss
baseline : SFT, temperature majority voting
data : SFT {GSM8K, OpenThoughts-114k (cold-start SFT)} -> GRPO {30K subset of rephrased question from MetaMath}
evaluation : AIME24, MATH500, GSM8K / majority voting, BoN
result : SFT를 진행함에 따라 diversity가 떨어짐을 보임. SFT를 더 많이 할수록 RL 성능의 상한도 떨어짐. Wise-FT를 할 경우 가장 최선이고 이 성능은 temperature를 다양화하며 BoN을 하는것보다 나음
contribution : 다양한 분석
etc. : 2B, 0.5B에서만 진행된게 한계라고 함

related work
- PRESERVING DIVERSITY IN SUPERVISED FINE-TUNING OF LARGE LANGUAGE MODELS
- Inference-Aware Fine-Tuning for Best-of-N Sampling in Large Language Models
pass@1 vs pass@k tradeoff