TL;DR
- I read this because.. : SFT๋ฅผ ๋๋ฌด ๋ง์ด ํ๋๊ฒ ์์ข๋? + RL4VLM ์ ์ ํ์ ์ฐ๊ตฌ
- task : card game(GeneralPoints), real-world navigation(V-IRL )
- problem : SFT vs RL์ data memorization ํ์์ ๋ํ ๋ถ์
- idea : rule์ด๋ ํ๊ฒฝ์ ์กฐ๊ธ ๋ฐ๊พผ out-of-distribution์ ๋ง๋ ๋ค ์ฑ๋ฅ์ด ์ด๋ป๊ฒ ๋ฐ๋๋์ง ๋ถ์
- input/output : {prompt, (image), previous prediction and result..} -> verifier output
- architecture : Llama-3.2-Vision-11B
- objective : SFT loss -> PPO loss
- baseline : base model, (V-IRL) chatgpt, claude..
- data : (SFT) expert data๊ฐ ์๋ค๋ ๊ฒ ๊ฐ์
- evaluation : success rate
- result : 1) in-domian์ SFT > RL. SFT๋ OOD๊ฐ ๋จ์ด์ง๋๋ฐ RL์ ์ ์ง๋๊ฑฐ๋ ๊ฐ์ ๋จ 2) instruction following์ ํ๊ธฐ ์ํ SFT๋ ๋์ด์ผ ํจ 3) sequential revision์ผ๋ก ๋ฃ์ด์ฃผ๋๊ฒ ์ฑ๋ฅ์ ์ํฅ 4) V-IRL์ sota ๋ฌ์ฑ
- contribution : ๋๋ฌด ๋ณต์กํ์ง ์๊ณ ์ดํดํ๊ธฐ ์ฌ์ด Task๋ก systemically ๋ถ์
- etc. : VLM๋ ํด์ค์ ๊ณ ๋ง์ก ใ
Details
- thumbnail
task
GeneralPoints (4๊ฐ์ ์นด๋๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ์น์ฐ์ฐ์ ํตํด 24๋ฅผ ๋ง๋๋๊ฒ์) : LLM / VLM
- OOD
- Q,K,V๋ฅผ 10์ผ๋ก ๋ณด๊ธฐ vs 11,12,13์ผ๋ก ๋ณด๊ธฐ
- ๊ฒ์ ์ ์นด๋์์ sampling / ๋นจ๊ฐ์ ์นด๋์์ sampling
V-IRL
- city ๋์๋ค๋๋ฉด์ navigation ํ๋ ํ์คํฌ
- OOD :
- action์ด ์ผ์ชฝ์ผ๋ก ๋๊ธฐ ๋ฑ์ผ๋ก ๋ฐ๋.
- city๋ฅผ ๋ฐ๊ฟ
sequential revision input
training
- SFT -> RL
- RL์ PPO
- reasoning์ ๋ฐ๋ก ์๊ณ ๋ฐ๋ก ์ ๋ต returnํ๋ ํํ์
- verifier๋ rule-based๋ก ๋ณด์
result
- ood performance
ํ์ต์ด ์งํ๋จ์ ๋ฐ๋ผ OOD ์ฑ๋ฅ์ด RL > SFT SFT๋ ์ ์ง๋๋ ๊ฒ ์์ด ํฌ๊ฒ ์ ํ๋จ
- visual OOD์ ๋ํ result
SFT is necessary for RL training when the backbone model does not follow instructions.
Scaling up verification improves generalization.
+2.15% (3 steps), +2.99% (5 steps), +5.99% (10 steps). <-> one verification step, we only observe a marginal improvement of +0.48% in OOD performance improvement.