TL;DR
- I read this because.. : AIME ์ฑ๋ฅ์ ๋ ํฌํธํ LVLM
- task : multimodal reasoning (math, vision, QA)
- problem : VLM์ complex reasoning์ ์ฝํ๊ณ , vision-text alignment๋ ์ด๋ ค์
- idea : MLP-based adapter + hybrid SFT+GRPO + adaptive-length CoT distillation
- input/output : {image, prompt} -> {step-by-step reasoning, boxed answer}
- architecture : DeepSeek-R1-distill-Qwen2.5-32B (frozen), InternViT-6B-448px-V2_5 (frozen), MLP Adapter
- objective : SFT, GRPO
- baseline : GPT-4o, Claude 3.5, Kimi k1.5, InternVL2.5, QwenVL
- data : 2M VL data โ 200K (GPT-4 filtered) โ 40K CoT (AL-CoTD) -> prompt
- evaluation : MATH500, AIME24, GPQA, MathVista, MMMU
- result : MATH500 94.0 / AIME24 72.0 / MMMU 69.0 ๋ฑ competitive ์ฑ๋ฅ
- contribution : reasoning LLM์ vision์ผ๋ก ํจ์จ์ ์ผ๋ก ํ์ฅ, RL๋ก ์ฑ๋ฅ ํฅ์
- etc. : MLP๋ง ํ์ตํ๊ฒ ํน์ดํ๊ณ ์ ๊ธฐํ์ง๋ง AIME ์ฑ๋ฅ์ reportํ๊ฒ ๊ด์ธ(?)ํจ. ์ฌ๊ธฐ์ llm frozen์ ์ ๋ช ์ํด๋จ๋๋ฐ V2์์ ์ ๋งคํด๊ฒ ์์ ํด๋์ ๋ ๊ด์ธํจ
Details
thumbnail
- ์ด ๋
ผ๋ฌธ์ ๊ฐ์ฅ ํน์ด์ ์ MLP๋ง ํ์ตํ๋ค๋ ๊ฒ์. ์ด๋ MLP๋ฅผ ํ์ต ์ํค๋ ๋ฐฉ์์ ๊ณต์ ๋ค์
- MLP adapter๋ฅผ ์ฒ์ initializeํ ๋๋ reasoning lanugage model ๋์ ๊ทธ๋ฅ language model์ ์ฌ์ฉํจ (Qwen2.5-32B-Instruct)
- 2M full dataset์ผ๋ก finetune
- ์ด ๋จ๊ณ์์ language model์ DeepSeek-R1-distill-Qwen2.5-32B ๋ก ๊ต์ฒด. tokenizer์ parameter๊ฐ ๋ค๋ฅด์ง๋ง(์ ๋ค๋ฅด์ง??) ์๋ ์ฑ๋ฅ์ ์ ๋ณต์ํ๋ค๊ณ ํจ
- GPT-4๋ก ํ๊ฐ๋ high-quality ์ 200K ์ฌ์ฉ
- 40K์ high-quality CoT ๋ฐ์ดํฐ๋ก ํ์ต (Adaptive-Length Chain-of-Thought Distilation ์ฌ์ฉ)
- ๊ฐ 1 epoch์ฉ lr์ 2e-4 -> 4e-5 -> 4e-5
- Hybrid Optimization Framework
- stage 1: filtering ์์ด ๋ชจ๋ ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ต
- stage 2: reward model์ด ์ ์๋ฅผ ๋งค๊ธด๊ฒ์ผ๋ก filteringํ๊ณ ์ด์ stage์ ๋ชจ๋ธ์ด ํ์ง ๋ชปํ ๊ฑธ ๊ต์งํฉ์ ๊ตฌํด์ ๋ฐ์ดํฐ๋ก ์ฌ์ฉ (
- 2,3,4,5๋ก ๋์๋ค๊ณ ํจ.
- context length 16K
- stage 3: GRPO, reward=5, generation bs 8, temperature 1, lr 1e-6, max completion length 8k
Adaptive-Length Chain-of-Thought Distilation
- QDAM:
- vision score: image clarity, image necessity (์ง๋ต์ ์ํด ์ด๋ฏธ์ง๊ฐ ํ์ํ๊ฐ)
- text score: GPT-4o ๋ฅผ ์ฌ์ฉํด์ question quality, difficulty level, reasoning demand ๋ฑ์ ํ๊ฐํ๊ฒ ํจ
- VTIA
- why, how ๋ฑ scientific reasoning์ด ํ์ํ์ง๋ฅผ ํ๊ฐํ๊ฒ ํจ
- ๋๊ฐ๋ฅผ ๊ฒฐํฉํด์ ์ด ์ฟผ๋ฆฌ๊ฐ ์ผ๋ง๋ ๊ธด ๋๋ต์ด ํ์ํ์ง๋ฅผ P๋ก ์ถ์ฐํ๊ณ P๊ฐ ๋ฎ์ผ๋ฉด ๋ ๋์ repetition penalty๋ฅผ ์ฌ์ฉํ์ฌ ์์ใ ํ๊ฒ ํจ.
- ์ต์ข ์ ์ผ๋ก๋ GPT4o๊ฐ ์ ๋ต์ด ๋ง๋์ง ํ๊ฐํ๊ฒ ํ๊ณ , ํ๋ฆฌ๋ค๋ฉด GPT4or๊ฐ ๋ค์ ์์ฑํ๊ฒ ํจ.