TL;DR
- I read this because.. : ์ถ์ฒ ๋ฐ์
- task : reasoning in LVLM
- problem : LVLM๋ gpt-o1 ์ฒ๋ผ reasoning ๊ธธ๊ฒ ํ๊ณ ์ถ๋ค
- idea : ๋ฐ์ดํฐ ๋ฃ๊ณ ํ์ตํ์. ๋๋ต์ ๋จ๊ณ๋ฅผ ๋๋์. ๋๋ต ๋จ๊ณ ๋ณ๋ก beam search๋ฅผ ํ์
- architecture : Llama 3.2V
- objective : CE loss (SFT ํ futher SFT)
- baseline : Llama 3.2V
- data : Llava-CoT-100k (proposed)
- evaluation : mmstar, mmbench, mmvet, mathvista, ai2d,
- result : ๊ฐ์ ๋ ์ฑ๋ฅ.
- contribution : ๋ฐ์ดํฐ ๊ณต๊ฐ.
Details
thumbnail
inference examples
๋ต๋ณ ๊ตฌ์กฐํ ๋ฐฉ์
GPT4oํํ
์์ฑ์ํจ ๋ค ๊ตฌ์กฐ๋ฅผ ์๋ง์ถ๋ ๊ฒ Filtering.
<summary>, </summary> ํ๊ทธ ์์ ์๋ ๊ฒ๋ค์ Gt answer๋ ๋น๊ตํด์ ์ ๋ต๋ณํ๊ฑด์ง ํํฐ๋ง์ ๋ GPT4oํํ
์ํด
- ์์ฑํ ์ด๋ฏธ์ง ์์ค
https://github.com/long8v/PTIR/issues/203
์๋ ์์ค ๊ฒน์นจ
- ๊ฐ ๊ตฌ์กฐ์ ๋ํ beam search ์งํ
“beam search"๋ผ๊ณ ํด์ ๋ชฐ๋๋๋ฐ External verifier๋ฅผ ์ฌ์ฉํ๋ ํํ์ธ๋ฏ.
์ด๋ ์ฌ์ฉ๋ Prompt? ์ด๋ค ๋ชจ๋ธ์ ์ฌ์ฉํ๋์ง ๋ชป๋ดค์
- Training hparam
Result
๋๋ฆ “Reasoning ๋ฒค์น๋งํฌ"๋ผ๋๊ฑธ ์ ์ .
direct training์ ์๋ vqa set์ผ๋ก further SFTํ ๊ฒ. w/o structured tag๋ <summary> ๊ฐ์ ํ๊ทธ ์ฌ์ฉํ์ง ์์ ๊ฒ
mmstar, mmvet, mathvista๋ ๊ฐ์ . ai2d๋ ๊ทธ๋ฅ Direct๋ก ๋ต๋ณ๋ง ํ์ตํ๋๊ฒ ๋ ์ฑ๋ฅ์ด ์ข์
mmstar์์ ์ธ๋ถ ํญ๋ชฉ์ ๋ณด๋ฉด reasoning ๊ด๋ จ ์ธ๋ถํญ๋ชฉ๊ณผ math, science ๋ฑ์ด ์ค๋ฆ. perception์ ์์ค๋ฅด๋๊ฑด ์๋๋ฐ ๋ฏธ๋ฏธํจ.
- stage level beam search
RM ํ์ต ํ๋ค๊ณ ํ๋ ์๊ธฐ ์๋๋ฐ BoN์ ์ด๋ป๊ฒ ํ๊ฑธ๊น?
- comparison with other models