
paper
TL;DR#
- I read this because.. : post training์ด ๊ถ๊ธํด์
- task : LLM
- problem :
- idea :
- input/output :
- architecture :
- objective :
- baseline :
- data :
- evaluation :
- result :
- contribution :
- etc. :
Details#
Post-training#
- SFT
- 1.5M์ ๋ค์ํ ๋๋ฉ์ธ์ ๋ํ instruction tuning data๋ฅผ ๋ชจ์
- Reasoning data
- internal Deepseek-R1์ ๊ฐ์ง๊ณ ์์ฑ.
- ๊ทธ๋ฌ๋ overthink, poor formatting, excessive length ํด์ r1์ ๋์ ์ ํ๋์ ๋ณดํต์ ์ ํฌ๋งทํ
๋ reasoning data์ concise ํจ์ ์ ๊ท ํ์กํ๊ฒ ํ๋๊ฒ ๋ชฉํ
- ์ด๋ฅผ ์ํด code, math, general reasoning ๊ณผ ๊ฐ์ ํน์ ํ ๋๋ฉ์ธ์ sft + rl ํ์ต๋ Expert model ์ ๋ง๋ค๊ณ ์ด๋ฅผ data generator๋ก ์ฌ์ฉํ๊ณ ์ ํจ
- ํ์ต์ ๋๊ฐ์ ๋ค๋ฅธ SFT sample์ ์์ฑํ๋๋ฐ ๋ชฉํ. ํ๋๋ <problem, original response> <
system prompt, problem, R1 response> - ์ด๋ system prompt๋ reflection๊ณผ verification์ ํ ์ ์๋๋ก ์ฌ์ธํ๊ฒ ๋์์ธํจ
- RL phase์์๋ model์ด high temperature sampling์ ํ์ฌ system prompt์์ด๋r1-generated, original data ๋๋ค ์์ฑํ ์ ์๊ฒ ํจ.
- RL์ ํ๊ณ ๋์ rejection sampling์ ํ์ฌ high quality sft๋ง ๋จ๊น.
- Non-reasoning data
- Deepseek v2.5๋ก ๋ง๋ค๊ณ human annotator๊ฐ ์ ํ๋๋ฅผ ๊ฒ์ฆํจ
- SFT – two epochs
- Reinforcement Learning
- Reward Model
- Rule-based RM
- math: format์ ๋ง์ถ(in a box) ๋ค rule based / code: compiler to test code (leetcode)
- Model-based RM
- for free-form ground-truth answer
- DeepSeek-v3 sft checkpoint๋ก ๋ถํฐ ํ์ต. reward ์ฃผ๊ธฐ ์ ์ CoT ์์ฑ -> reward hacking์ ๋์๋์๋ค๊ณ ํจ
- GRPO
- critic model์ด ์์ด group์ผ๋ก ๋ฌถ์ฌ์ ๊ณ์ฐ ํ๋ GRPO๋ก ํ์ต


- $o_i$๋ old policy๋ก ๋ถํฐ ๋์จ sample๋ค
Ablations#
- distiliation from deepseek-r1
