TL;DR
- I read this because: GRPO ๋์์ผ๋ก ๋์ค๋ฉด์ ๋ฐ์ด๋ด
- Task: large reasoning model
- Problem: ๊ธฐ์กด GRPO ์๊ณ ๋ฆฌ์ฆ์ ํ ํฐ ๋จ์ importance ratio๋ก ์ธํ ํ๋ จ ๋ถ์์ ์ฑ๊ณผ model collapse ๋ฌธ์
- Idea: ํ ํฐ ๋จ์๊ฐ ์๋ ์ํ์ค ๋จ์์ importance ratio ์ฌ์ฉ์ผ๋ก ์์ ์ ์ธ RL ํ๋ จ ๊ตฌํ
- Input/Output: query -> {reasoning, answer}
- Architecture: Qwen3-30B-A3B-Base
- Objective: GSPO(proposed)
- Baseline: GRPO
- Data: RL training on math (AIME'24), coding (LiveCodeBench, CodeForces) tasks
- Evaluation: Training stability, efficiency metrics, downstream task performance
- Result: Superior training stability, ํจ์จ์ฑ, MoE ๋ชจ๋ธ ์์ ํ, Qwen3 ๋ชจ๋ธ ์ฑ๋ฅ ํฌ๊ฒ ๊ฐ์
- Contribution: ์ํ์ค ๋จ์ importance sampling์ผ๋ก RL ํ๋ จ ์์ ํ, MoE RL ํ๋ จ ๋จ์ํ
- Etc: Alibaba Qwenํ์์ ๊ฐ๋ฐ, ์ค์ Qwen3 ๋ชจ๋ธ์ ์ ์ฉ๋์ด ์ฑ๋ฅ ํฅ์ ๋ฌ์ฑ
Details
Problem Analysis
- GRPO
์ฌ๊ธฐ์ $w_{i,t}$๋ ์๋ ๋ถํฌ์ธ $\pi_{tar}$์์ ์ํ๋งํ์ง ์์๊ธฐ ๋๋ฌธ์ ์ด ํ๋ฅ ์ ๋ณด์ ํด์ฃผ๋ ํํ ๋ณดํต์ importance sampling์ N์ 1๋ณด๋ค ํฌ๊ฒ ์ฃผ๊ณ ํ๊ท ์ ์ฃผ์ด ํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์.
๊ทธ๋ฐ๋ฐ GRPO์์ 1) ํ๋์ sample๋ก 2) (์ ์ฒด ํ๋ฅ ๋ถํฌ๊ฐ ์๋) next token probability์ ๋ํด์๋ง ๊ตฌํ๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ์ด noise์ ๋งค์ฐ ๋ฏผ๊ฐํด์ง๋ ๊ฒฐ๊ณผ๋ฅผ ๋. ๋ํ ์ด๋ฌํ noise๊ฐ ๊ธด ์ํ์ค์ ๋์ ๋๋ฉด์ noise๊ฐ ๋ ์ปค์ ธ์ ํ๋ฒ ์๋ชป ์๋ ดํ๋ฉด ๋์ดํค๊ธฐ ์ด๋ ต๊ณ hparam(clipping hparam, rl prompt, .. ๋ฑ)์ ๋งค์ฐ ๋ฏผ๊ฐํ๊ฒ ๋จ. ๋ํ reward๋ ํ ์ํ์ค์ ๋ํด ๋์ค๋๋ฐ optimization objective๋ token ๋จ์๋ก ์ค๋ ๋ถ์ผ์น๊ฐ ์์.
GSPO Algorithm
- ํ ํฐ ๋จ์๊ฐ ์๋ ์ํ์ค ์ ์ฒด์ ๋ํ clipping ๊ฒฐ์
- ๋ชจ๋ ํ ํฐ์ ๋์ผํ ๊ฐ์ค์น ์ ์ฉ
- $s_i$๋ฅผ $|y_i|$์ ๊ธธ์ด๋ก ๋๋ ์ฃผ๋ฉด์ length normalize (๊ธธ์ด์ ์๊ด์์ด clip range๋ฅผ ๋น์ทํ๊ฒ ๊ฐ์ ธ๊ฐ๊ธฐ ์ํด์)
gradient
Experimental Results
Training Efficiency:
- GRPO ๋๋น ๋ ๋์ training reward ๋ฌ์ฑ
- ๋์ผ ๊ณ์ฐ๋์์ ๋ ๋์ ์ฑ๋ฅ
- ๋ ์์ ์ ์ธ ์๋ ด ๊ณก์
- AIME'24, LiveCodeBench, CodeForces ์์ ๋ ๋์ ๋ฒค์น ์ฑ๋ฅ
Clipping Analysis:
- GSPO: 15% ํ ํฐ clipping
- GRPO: 0.13% ํ ํฐ clipping
- ์ญ์ค์ ์ผ๋ก ๋ ๋ง์ clipping์ด ๋ ์ข์ ์ฑ๋ฅ์ผ๋ก ์ด์ด์ง
MoE Training Benefits
MoE-Qwen3๋ฅผ GRPO๋ก ํ์ตํ ๋ ๋ถ์์ ํ ๊ฒฝํฅ์ฑ์ด ์์๋๋ฐ ์ด๋ ์ด์ ์ policy์์ activate๋ expert์ ํ์ฌ policy์์ activate๋ Expert๊ฐ ๋ฌ๋ผ์ง๋ฉด์ Importance ratio์ ๋ณ๋์ฑ์ด ํจ์ฌ ์ปค์ ธ์์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด $\pi _{old}$์ ๋ํด activate ๋ expert๋ฅผ cacheํด๋๊ณ $\pi$ ์ $\pi _{old}$๊ฐ ๊ฐ์ expert๋ฅผ ๊ฐ์ง๋๋ก ํ๋ trick์ ์งฌ.
๊ทธ๊ฒ๋ณด๋ค GSPO๊ฐ ๋ ์ข์์. ์ด๋ก์ธํ ๋ณต์ก๋๊ฐ ๋ฎ์์ง.
Benefit of GSPO for RL Infrastructure
rollout์ sglang, vllm์ผ๋ก ํ๊ณ training engine์ megatron์ผ๋ก ํ๋ฉด์ ์ ๋ฐ๋ ์ด์ ๋๋ฌธ์ old policy์ ๋ํ likelihood๋ฅผ ๋ค์ ๊ณ์ฐํ์ด์ผ ํ์. (old policy๋ ์ ๋ฐ์ดํธ ๋๋ ๋์์ด ์๋๋ผ์ ์๋๋ ์ํด๋ ๋จ) ๊ทธ๋ฌ๋ token-level likelihood์ ๋นํด sequence-level likelihood๋ ์ ๋ฐ๋์ ๋ฏผ๊ฐํ์ง ์์์ ์ฌ๊ณ์ฐ ํ์ง ์์๋ ๋จ ์ด๋ก ์ธํด partial rollout and multi-turn RL and in the training-inference disaggregated frameworks ์ํฉ์์ ์กฐ๊ธ ๋ ํจ์จ์ฑ์ด ์ข์
c.f. DAPO normalize์ ๋ํ ๋ถ๋ถ์ด๋ผ ๋ด์ฉ์ด ๋ค๋ฆ