TL;DR
- I read this because.. : ์ธ๊ธ๋์ด
- task : reasoning in LLM
- problem : ์ด๋ป๊ฒ ํ๋ฉด ๊ฐ๋จํ๊ฒ test time scaling์ ํ ์ ์์๊น?
- idea : ๋ฐ์ดํฐ ํํฐ๋ง ์ ํ์. inferenceํ ๋ ์ํ๋ ๊ธธ์ด๊น์ง ์๋์ค๋ฉด
wait์ ๋ฃ์ด์ฃผ๊ณ , ๋๋ฌด ๊ธธ๋ฉด ๊ฐ์ ๋ก eot๋ฅผ ๋ฃ์ด์ฃผ์(Budget Forcing) - architecture : Qwen2.5-32B-Instruct
- objective : ce loss (SFT only)
- baseline : OpenAI o1 series, DeepSeek r1 series, QwQ-32B-preview, Sky-T1-32B-Preview, Bespoke-32B, Google Gemini 2.0 Flash Thinking Experimental //
- data : s1K(proposed) – NuminaMATH, AIME, OlympicArena, OmniMath, AGIEval + ์ถ๊ฐ๋ก ์คํ ํฌํธ ํต๊ณํ๊ณผ ๋ฐ์ฌ ์๊ฒฉ ์ํ ๊ณผ PuzzledQuant ๋ ํํ์ด์ง์์ ํฌ๋กค๋ง
- evaluation : AIME24, MATH500, GPQA diamond
- result : ํ์ต ์ํ ๊ฐ์ ๋๋น ์ข์ ์ฑ๋ฅ. quality, difficulty, diverse ๊ธฐ์ค ๋ชจ๋ ์ฌ์ฉํด์ผ ์ฑ๋ฅ์ด ์ข์. ์ ์ํ
- contribution : 1) SFT๋ง์ผ๋ก๋ test-time-scaling์ด ๋๋๊ฒ์ ํ์ธ 2) ํํฐ๋ง ๊ด๋ จ ablation
- etc. :
Details
- thumbnail
reasoning data curation to create s1k
- inital collection of 59K
- NuminaMATH, AIME, OlympicArena, OmniMath, AGIEval + ์ถ๊ฐ๋ก ์คํ ํฌํธ ํต๊ณํ๊ณผ ๋ฐ์ฌ ์๊ฒฉ ์ํ ๊ณผ PuzzledQuant ๋ ํํ์ด์ง์์ ํฌ๋กค๋ง
- 8-gram์ผ๋ก deduplicate
- final selection of 1K sample
- quality: api error, formatting issue(e.g. scii art diagrm, non-existent image reference, incosistent question numbering) –> 51K ๋จ์
- difficulty: Qwen2.5-7B/32B-Instruct๋ฅผ ์ฌ์ฉํด์ ํ๊ฒํ๊ณ Claude 3.5 sonnet์ผ๋ก ํ๊ฐ. Qwen 2.5 tokenizer ๊ธฐ์ค์ผ๋ก ๊ธด ๊ฒ์ ์ด๋ ต๋ค๊ณ ๊ฐ์ ํ๊ณ ํํฐ๋ง. –> 25K ๋จ์
- diversity : Claude 3.5 Sonnet์ผ๋ก ์ํ ๋ฐ ๊ณผํ(biology, physics, economics) ๋ถ๋ฅ๋ฅผ ๋๋(geometry, dynamic system, … ) –> 24K ๋จ์
- ์ถ๊ฐ๋ก difficulty์ ์ฒ ํ์ ๋ฐ๋ผ longerreasoning trace์ธ ๊ฑธ๋ก domain ๋ณ๋ก ํ๋์ ๋ฌธ์ ๋ฅผ ๋ฝ์
- ๊ฒฐ๋ก ์ ์ผ๋ก 50๊ฐ ๋๋ฉ์ธ์ด ๋จ์
proposed budget forcing
Result
- overall
w/o BF์ ๋นํด์ ์ฑ๋ฅ์ด ์ค๋ฅด๋ฉฐ QwQ-32B๋ ์ ์ฒด์ ์ผ๋ก ์ฑ๋ฅ์ด ๋น์ทํ๋ฏ. AIME์ ์๋์ ์ผ๋ก ์ฑ๋ฅ์ด ์ฝํ๊ณ MATH500์ ์ฑ๋ฅ์ด ๊ฑฐ์ o1 ๊ธ. GPQA diamnond๋ AIME์ ์ฑ๋ฅ์ด ์ ๋งคํ ๊ฒ ๊ฐ์๋ฐ sky-t1๋ณด๋ค๋ ์ข๊ณ bespoke๋ณด๋ค๋ MATH๋ ์ฝํ๋ค. ์ ๋ฐ์ ์ผ๋ก sample efficientํ๋ค๊ฐ contribution.
budget forcing
filtering ablation
w/ parallel scaling