TL;DR
- I read this because.. : video + think
- task : video reasoning
- problem : CoT๊ฐ video QA์์ ํญ์ ๋์๋์ง ์์ – ์ด๋ป๊ฒ ๊ท ํ ์กํ๊ฒ ํ์ต ํ ๊ฒ์ธ๊ฐ?
- idea : ํ์ตํ ๋ ๋ฌด์กฐ๊ฑด ์ฆ๋ต ๊ณผ Think ํ ๋๋ต ๋๋ฒ ํ๊ฒ ํจ. inference ์์๋ answer token์ log prob์ผ๋ก confidence ๋งค๊ธด ํ think๋ฅผ enableํ๊ฒ ํจ
- input/output : {video, question} -> {initial boxed answer, (optional reasoning), reviewed boxed answer}
- architecture : Qwen2.5-VL-7B-Instruct / Qwen3-VL-8B-Instruct. visual encoder frozen, projector + LLM๋ง ํ์ต. ์ต๋ 4096 video token, 256 frame.
- objective : GRPO. cold-start SFT ์์ด ๋ฐ๋ก RL.
- baseline : Video-R1 (์ฃผ๋ก spatial ์์ฃผ ํ์ต), Time-R1, VideoChat-R1, VideoChat-R1.5, VITAL, LongVILA-R1, LOVE-R1 / base Qwen2.5-VL-7B, Qwen3-VL-8B.
- data : RL 83K (137K์์ 8 rollout all-correct/all-wrong ์ ๊ฑฐ). text 6.4K (DAPO-Math) / image 27.5K (ViRL, ThinkLite-Hard) / video 49.4K (Video-R1, TVBench, STI-Bench, MMR-VBench, Charades-STA, ActivityNet, Time-R1, NExT-GQA)
- evaluation : VideoMME, MVBench, LongVideoBench, MMVU, VideoMMMU, MVP, Charades-STA, ActivityNet, NExT-GQA + image bench (MathVista, MathVision, MathVerse, MMMU, MMMU-Pro, MM-Vet).
- result : inference ์ ํจ์จ ์ธก๋ฉด์์ ํ์คํ win. ์ ํ๋ ์ธก๋ฉด์ mixed. VideoMMMU ๊ฐ์ reasoning bench๋ think ์ผ์ง๋ ๋น์จ 51%, gain +3.9. LongVideoBench / MMVU / VideoMME ๋ ๊ฑฐ์ ํ์ดํ๊ฑฐ๋ ์คํ๋ ค ์ด์ง ๋จ์ด์ง.
- contribution : “always-think"๊ฐ ๋ต์ด ์๋๋ผ๋ ๊ฑธ ablation์ผ๋ก ๋ณด์. ๋ค๋ง auto-mode ๊ฐ absolute ์ฑ๋ฅ์ ์ฌ๋ฆฐ๋ค๊ธฐ๋ณด๋จ efficientํ๋ค๊ณ ๋ณด๋ ๊ฒ ์ ํ. confidence ๊ธฐ๋ฐ early-exit gating์ด๋ผ๋ framing์ด ๊น๋ํจ.
- etc. : ํ์ต์ ํ ๋ ๋ ํจ์จ์ ์ธ์ง๊ฐ ๊ถ๊ธํ๋ค
- CVPR 2026. cold-start SFT ์๋ ๊ฒ ์ข ์ ๊ธฐ โ instruction-tuned ๋ชจ๋ธ ๊ทธ๋๋ก ์จ์ instruction following์ด ์ ์ง๋๋ ๋ฏ. KAUST ๊ทธ๋ฃน.
Details
motivation
- think ํ์ต๋ video LLM๋ค ๋ฒค์น๋งํฌ๋ฅผ ํ๊ฐํ๋๋ direct๊ฐ ์ฑ๋ฅ์ด ๋ ์ข์ ์ ์๋ค๋ motivation
- benchmarks
- VideoMME
- VideoMMMU : lecture ์์. ์ฌ์ค์ text reasoning bench์ ๊ฑฐ์ ๋น์ทํจ
- LongVideoBench : ํ long video bench ์์๋ ๋จ์ด์ง๋ค. => ๋ฒค์น๋งํฌ์ ๋ฅ๋ ฅ ์์ฒด๋ perception + relation ์์ฃผ์ฌ์์ธ๋ฏ ํจ. ๊ทธ๋ฆฌ๊ณ ์๋ ๋ชจ๋ธ๋ค์ ๋ณด๋ฉด long video ๊ฐ ํ์ต๋ฐ์ดํฐ์ ์๊ธฐ๋ ํจ
- MMVU : VideoMMMU์ ๋ฌ๋ฆฌ ๋น๋์ค๊ฐ lecture๋ ์๋์ง๋ง ์ง์์ ์ํ๋ ๋ฒค์น. – ์๋ ์ cot๊ฐ ๋ฎ์์ง ์ ๋ชจ๋ฅด๊ฒ ์
- Charades-STA: temporal grounding task
- models
- Video-R1 / Qwen2.5-VL-7B / Video-R1-CoT-165k (SFT / distil from Qwen2.5-VL-72B-Instruct) + Video-R1-260k (RL) / https://github.com/tulerfeng/Video-R1
- Time-R1 / Qwen2.5-VL-7B / temporal Grounding
- VideoChat-R1 / spatio-temporal perception
- VideoChat-R1.5 / VTTS-80K (15K temporal + 30K spatial clues, 80K Think annotations, 50K QA), Iterative Perception + GRPO
- benchmarks
method
- two-pass decoding, format์ ๋ช
์์ ์ผ๋ก
answer โ think โ answer- 1st pass: system prompt๊ฐ “FIRST: Output your initial answer inside the first
\boxed{...}without any analysis or explanations” ๋ก ๊ฐ์ . answer๋ฅผ ๋ชป ๋ผ ๊ฒ ๊ฐ์ผ๋ฉด\boxed{Let's analyze the problem step by step.}๋ฅผ ์ถ๋ ฅํ๋๋ก ์ง์ โ ์ฆ ๋ชจ๋ธ์ด ์ค์ค๋ก defer ์์ฌ๋ฅผ ํ ํฐ์ผ๋ก ํํ. - confidence: ์ฒซ ๋ฒ์งธ
\boxed{}์ answer ํ ํฐ๋ค์ length-normalized mean log probability. threshold $\tau$ ์ ๋น๊ตํด์ gating. - confidence ๋๊ณ fallback ๋ฌธ์์ด์ด ์๋๋ฉด โ early-exit (think ์๋ต).
- confidence ๋ฎ๊ฑฐ๋ fallback ๋ฌธ์์ด์ด๋ฉด โ THEN: think trace ์์ฑ ํ ๋ ๋ฒ์งธ
\boxed{}์ reviewed answer $a_2$. - ํ์ต ์ค think / no-think ๋ผ๋ฒจ๋ง ์์ โ gating์ inference time์๋ง ๊ฒฐ์ . AdaptThink ๊ฐ์ ๊ธฐ์กด ์ ๊ทผ์ on-policy training ์ค think/no-think ์ํ์ ๋ช ์์ ์ผ๋ก ์๋๋ฐ, ๊ทธ๊ฑด data balancing๊ณผ hyperparameter sensitivity ์ด์๊ฐ ์๋ค๊ณ ํจ.
- 1st pass: system prompt๊ฐ “FIRST: Output your initial answer inside the first
- reward
- $R = w_1 R_{\text{task}}(a_1) + w_2 R_{\text{task}}(a_2) + \lambda R_{\text{fmt}} + \alpha R_{\text{fallback}}$
- $w_1 = 0.9, w_2 = 1.1$ โ $w_2 > w_1 \geq 0$ ๋ก reviewed answer์ ๋ ํฐ weight ๋ถ์ฌ, refinement ์ ๋. ratio 0.9:1.1 ์ด ๋ณธ๋ฌธ์ ๋ช ์.
- $\lambda_{\text{fmt}} = 1.0$ โ answer โ think โ answer ํฌ๋งท ์ ์ง reward
- $\alpha = 0.3$ (fallback bonus): $a_1$ ์ด ์ ํํ “Let’s analyze the problem step by step” ์ด๊ณ $a_2$ ๊ฐ ์ ๋ต์ผ ๋ ์ถ๊ฐ ๋ณด์. ์ฆ ๋ชจ๋ธ์ด “์ด๊ฑด reasoning ํ์ํ๋ค” ๊ณ ํ๋จํ๋ ํ์ ์์ฒด์ ์ธ์ผํฐ๋ธ.
- task reward
- QA: binary {0, 1} (math-verify ๋๋ string match)
- temporal grounding: continuous [0, 1] (temporal IoU)
- grounding QA: ๋ ํฉ [0, 2]
์ด ํ์ต์ด ์ ๋๋ฉด ๋ชจ๋ธ์ด “concise first answer + reasoned second answer” ๋ฅผ ์์ ์ ์ผ๋ก ๋ด๋ ํจํด์ ํ์ตํจ.
data
- 137K โ 83K (8 rollout ๋ค ๋ง๊ฑฐ๋ ๋ค ํ๋ฆฐ ๊ฑฐ ์ ๊ฑฐ)
- text 6.4K โ DAPO-Math
- image 27.5K โ ViRL, ThinkLite-Hard
- video 49.4K โ Video-R1, TVBench, STI-Bench, MMR-VBench, Charades-STA, ActivityNet, Time-R1, NExT-GQA
training recipe
- GRPO, 32ร H100, 35์๊ฐ, 1 epoch, batch size 256
- KL penalty coefficient $\beta = 0.01$ (์ ๊ฑฐ ์ ํจ)
- 4096 video token / max 256 frame
result
- perception bench๋ ๊ฑฐ์ ํ์ดํ๊ฑฐ๋ ์คํ๋ ค ์ฝ๊ฐ ๋จ์ด์ง. Qwen3-VL-8B base ๊ธฐ์ค VideoMME 72.5 โ 71.7, LongVideoBench 67.6 โ 67.4 โ long video bench ๊ฐ์ perception+relation ์์ฃผ ๋ฒค์น๋ thinking์ด ๋ณ ๋์ ์ ๋จ. LongVideoBench ์ ์์ referred reasoning์ด ๋ค์ด๊ฐ๊ธด ํ์ง๋ง ๊ฒฐ๊ตญ frame-grounded perception ๋น์ค์ด ์ปค์ ๊ทธ๋ด ๋ฏ.
- VideoMMMU ์ Charades-STA (temporal grounding) ์์ ๊ฐ์ . Charades-STA 59.8 ์ฒ๋ผ think๊ฐ ์ง์ ๋์ ๋๋ ์ผ์ด์ค๋ ์์.
- VideoAuto-R1 ์์ฒด์ think ratio 41% / ํ๊ท ์๋ต ๊ธธ์ด 44 token โ efficiency gain์ ํ์ค.
- ๋ค๋ง ์ ํ๋ ์ธก๋ฉด์์ ๋ณด๋ฉด always-think ๋๋น ํ ์ค๋ก “์ฑ๋ฅ์ด ๋ ์ข๋ค” ๋ผ๊ณ ๋จ์ธํ๊ธฐ๋ณด๋จ, “๋น์ทํ ์ ํ๋์ ํจ์ฌ ์งง์ ์๋ต” ์ผ๋ก ๋ณด๋ ๊ฒ ์ ํ.