TL;DR
- I read this because.. : reasoning ability in VLM
- task : VLM
- problem : VLM instruction data ๋๋ถ๋ถ์ด ๋จ๋ฌธ์ด๋ค
- idea : GPT4-o๋ฅผ ๊ฐ์ง๊ณ CoT ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค์
- architecture : LLaVA-NeXT
- objective : CE loss -> DPO loss
- baseline : LLaVA-NeXT, GPT4o, Cambrian, (data) RLAIF
- data : ShareGPT4-o Reasoning(์์ง ๊ณต๊ฐ ์ํจ)
- evaluation : A-OKVQA, DocVQA, ChartQA, AI2D, ScienceQA, …
- result : ๋ชจ๋ ๋ฒค์น์์ ๊ณจ๊ณ ๋ฃจ ๋์ ์ฑ๋ฅ.
- contribution : ์ ์ ๋ฐ์ดํฐ์ ์ผ๋ก ๋ฒค์น๋งํฌ ๊ฐ์ . reasoning ๊ด๋ จ ๋ถ์ ๋ง์ด ํจ
Details
- motivation
Data
- reasoning data distilation
Result
์์ ๊ฐ์ ๋ฐ์ดํฐ ๊ตฌ์ฑ
- (1) format: ๋ต๋ณ ํฌ๋งท๋ง ๋ง์ถ ์ ์๋ ์์ค์ผ๋ก ๊ตฌ์ฑํ ๊ฒ. 9๊ฐ์ ๋ฐ์ดํฐ์ ๋ณ๋ก 50๊ฐ์ sampling์ ํจ. CoT / direct ๋๋ค + LLaVA-pretrain์์ 2K
- (2) direct data: (1) + ๋ต๋ณ์ด ๋ฐ๋ก ๋์ค๋ 193K๋ฅผ Full๋ก ๋ฃ์ ๊ฒ
- (3) CoT data : (1) + CoT 193K๋ฅผ ๋ฃ์ ๊ฒ + ์ถ๊ฐ๋ก GLLaVA-align / QA
- (4) CoT SFT : (1) + direct + CoT ๋๋ค ๋ฃ์ ๊ฒ + ์ถ๊ฐ๋ก GLLaVA-align / QA
CAN REASONING BE IMPLICITLY LEARNT FROM DIRECT PREDICTION? – (1)๊ณผ (2) ๋น๊ต -> direct answer๋ง ๋ฃ๊ณ ํ์ตํ ๊ฒฝ์ฐ CoT infererence๋ฅผ ํ ๊ฒฝ์ฐ์ ๊ฐ์ ์ด ๋ฏธ๋ฏธํ๊ฑฐ๋ ์คํ๋ ค ๋จ์ด์ง๋ ๊ฒฝ์ฐ๋ ์์์(mathvista -1.7)
HOW EFFECTIVE IS COT REASONING DATA? – (3) chartQA๋ Mathvista๊ฐ์ด ๊ณ์ฐ์ด ๋ง์ด ๋ค์ด๊ฐ๋ ๋ฒค์น๋งํฌ์์ ์ฑ๋ฅ์ด ์ฌ๋๊ณ , ์์ธ๋ก TextVQA, DocVQA, InfoVQA ๊ฐ์ Text-heavyํ ๋ฒค์น๋งํฌ์์๋ ์ฑ๋ฅ์ด ์ค๋ฅด๋๊ฑธ ๋ณผ ์ ์์. – (4) CoT์ Direct ๋ชจ๋ ํ์ต์ ํ์ ๋ ๊ฐ์ฅ ํ๊ท ์ฑ๋ฅ์ด ์ข์๋ค. ๋ค๋ง TextVQA, DocVQA, AI2D๋ direct ์ฑ๋ฅ์ด ๋ ์ข์๋ค. fact extraction ์์ฃผ๋ก ๋ฝ๋ ๋ฒค์น๋งํฌ์ฌ์ ๊ทธ๋ฐ ๊ฒ ๊ฐ๋ค๊ณ ์ถ์ .
ABLATION TESTS ON DATA COMPOSITION
์ํ ์ชฝ data ablation. text only sft๋ ๋ณ๋ก ํจ๊ณผ๊ฐ ์์ด์ ์ ๊ฑฐํ๋ค๊ณ ํจ
science ์ชฝ ablation. ๋๋ค ๊ฐ์ด ์ฐ๋ฉด ์๋ก ์ข์๋ค.
Comparsion of GPT4o / Cambrian
ScienceQA๋ closed set ์ด ์ฑ๋ฅ์ด ์ข๋ค. train data ๋ฌธ์ ์ผ์๋..
DPO Result
์ธ์ BoN๋ฑ ๋ด์ฉ์ด ๋ ๋ง์๋ฐ ๋์ค์ ์ ๋ฆฌ ใ ใ