TL;DR
- I read this because.. : CoT์ ๋ด์ฉ์ด ์ค์ํ๊ฐ ์๋๋ฉด ๊ตฌ์กฐ๊ฐ ์ค์ํ๊ฐ? ์ถ์ฒ๋ฐ์ aka SkyThought
- task : reasoning in LLM
- problem : long CoT๋ฅผ ์ด๋ป๊ฒ ํ์ตํ ๊ฒ์ธ๊ฐ์ ๋ํ ablation
- idea : CoT์ ๋ํ ablation ์คํ ํด๋ณด์
- input/output : Q -> {reasoning(long CoT), A}
- architecture : Qwen2.5-32B-Instruct
- objective : ce loss
- baseline : Qwen2.5-32B-Instruct, QwQ
- data : proposed 17K samples (prompts from {AMC/AIME, Math, Olympiad subset from NuminaMATH, APPS, TACO} + distil from {DeepSeek-R1, QwQ-32B preview} + R1-17K reasoning
- evaluation : MATH-500, OlympiadBench, AIME-2024, AMC23, LiveCodeBench
- result : long CoT ๋ด๋ถ์ correctness ์ฌ๋ถ๋ณด๋ค structure๊ฐ ๋ ์ค์.
- contribution : ablations
Details
thumbnail
contributions
- 17K ์ ์ sample๋ก lora tuning ํด๋ reasoning ๋ฅ๋ ฅ์ด ๋ฐํ์ด ๋๋ค๋ ๊ฒ์ ๋ฐํ
- Long CoT์ ๊ตฌ์กฐ๊ฐ ์ค์ํ์ง ๊ฐ๊ฐ์ reasoning step์ ์ ํ๋๊ฐ ์ค์ํ์ง ์์
- model size, arch, dataset size, data generation model์ ๋ํ ๋ค์ํ ablation ์ ์งํํ๋ค
Simple distilation is effective
- distilation data curation ->12k math / 5k coding
- prompt : math – {AMC/AIME, MATH, Olympiad, Numina-Math} + code – {APPS, TACO}
- distill model : {DeepSeek-R1, QwQ-32B-Preview}
- GPT-4o-mini๋ก difficulty prompt ๊ตฌ๋ถ ์ํด / ground truth solution validate
- +) open R1-17K reasoning dataset (https://huggingface.co/datasets/bespokelabs/Bespoke-Stratos-17k )
- training details
- (code) llama-factory
- (base model) Qwen2.5-32B-Instruct
- lr 1e-5 / lora lr 1e-4
Result
- small amount of data is enought
16๋ง์ผ๋ก๋ ์ถฉ๋ถํ ์ฑ๋ฅ.
- lora finetuning without performance degradation
long cot: structure is key
- CoT๋ฅผ local content / global structure ์ค ๋ญ๊ฐ ๋ ์ค์ํ์ง๋ฅผ ablation
- local content
- ์ต์ข ์ ๋ต, math derivation ๋ด์ ์ซ์, rasoning keywords
- global structure
- reflection, self-validation, backtracking
- setting: QwQ-32B-Preview๋ฅผ ์ฌ์ฉ ํด์ 4618๊ฐ์ correct response ๊ธฐ์ค์ผ๋ก ablation
local content
- wrong answer sample
- 3.2%p ์ ๋ ๋ฐ์ ์ฑ๋ฅ ์ ํ๊ฐ ์์
- digits corrupted samples
- ์ผ๋ถ๋ฌ ์ค๊ฐ์ ์ซ์๋ฅผ randomํ๊ฒ corrupt ํจ.
- 70% ์ ๋์ ์ซ์๋ฅผ corruptํด๋ ์ฑ๋ฅ์ด 4.3% ๋ฐ์ ์๋จ์ด์ง.
- ๋ค corruptํ๋๊ฑด ์ฑ๋ฅ์ด ๋จ์ด์ง
- reasoning keyword removal
- wait, let me think again, but ์ด๋ฐ ๋จ์ด๋ค์ ๋ชจ๋ ์ ๊ฑฐํด๋ ์ฑ๋ฅ 3.3% ์ ๋๋ฐ์ ์๋จ์ด์ง-
global structure
- Llama-3.3.-70-B-instruct ์ฌ์ฉํด์ reasoning step์ ์ฌ๋ฌ๊ฐ๋ก ๋๋
- ์ดํ insert, delete, shuffle์ ๋น์จ ๋งํผ ์งํํจ
degradation์ด ์์ฒญ ์ฌํจ. (์์ธํ ์์ฝ์)
more ablations
- long cot ํ์ต์ด non-reasoning task ์ฑ๋ฅ ์ ํ๋ฅผ ์ผ์ผํค๋๊ฐ?
๊ทธ๋ ์ง ์์๊ณ ์คํ๋ ค ์ฑ๋ฅ์ด ์ค๋ฅธ๋ค.
- student model์ ๋ํ ablation
Qwen2.5-32B-Instruct๋ฅผ ์ ์ธํ๊ณ ์ฌ๋๋ค. ์๋ ์ ์๋๋์ง ์ ๋ชจ๋ฅด๊ฒ ๋ค.
- BoN๊ณผ์ ๋น๊ต
- comparsion to short cot finetuning
short cot ์ฑ๋ฅ์ด ์ข์ง ์์๋ค