TL;DR
- I read this because.. : mathvista ๊ฐ์ ์ ์ํด
- task : LVLM
- problem : ๊ธฐ์กด์ math ๊ด๋ จ LVLM work์ธ G-LLaVA, Math-LLaVA๋ ๊ฐ๊ฐ geometric reasoning ๋ฅ๋ ฅ์ ์ ํ, CoT ๋ฅ๋ ฅ์ ์ ํ์ด๋ผ๋ ๋จ์ ์ด ์๋ค
- idea : ๋ค์ํ ์ํ ๋ถ์ผ + CoT๋ฅผ ์ถ๊ฐํ ๋ฐ์ดํฐ์ ์ ๋ง๋ค์
- architecture : llava (clip-vit-large, DeepSeekMath-RL)
- objective : ce loss + ppo loss
- baseline : closed LLMs, LLMs, Math LLMs, Open-Source MLLMs(G-LLaVA-7B, Math-LLaVA-13B, LLaVa-1.5-7B, LLaVA-NeXT-34B)
- data : (align) LLaVA-Pretrain + geo170k-align (instruct) LLaVA-instruct (math instruct) MultiMath300k-instuction, Geo170k-qa, MathV360k (PPO) MultiMath300K-val, GSM8K-train, Math-train, CMATH-train
- evaluation : Mathvista, Mathverse, GSM8K, MATH, CMATH, GaoKao
- result : open source model ์ค ๊ฐ์ฅ ๋์ mathvista, mathverse ์ฑ๋ฅ, text math ๋ฒค์น์์๋ ๋ค๋ฅธ MLLM๊ณผ ๋น๊ตํด๋ดค์ ๋ sota.
- contribution : ๋ฐ์ดํฐ์ ์ ์ ๋ฐ text/vision ๋๋ค ๋์ ์ฑ๋ฅ
- etc. : ๋ด์ฉ์ ๋ปํ ์ ์์ง๋ง ๋ถ์์ด ๋ง์์ ์ฌ๋ฐ์๋ค
Details
Thumbnail
proposed MultiMath-300K
- ์ง์ ์ด๋ฏธ์ง license ์ฌ์ ์ ์(http://test.xuekubao.com/ )
- QA ๋ฟ ์๋๋ผ captioning ๋์ด ์๋ ๊ฒ๋ ์์
- geomertry problem solving, automatic theorem proving, mathematical word problems ๋ชจ๋ ์ปค๋ฒ
- ์์ด/์ค๊ตญ์ด๋ผ๊ณ ํ๋๋ฐ ๊ฑฐ์ ์ค๊ตญ์ด ์ธ๋ฏ..?
- CoT ์ปค๋ฒ
์์ง ๋ฐฉ๋ฒ
- round 1: GPT-4o๋ฅผ ์ฌ์ฉํ์ฌ step-by-step reasoning chains๋ฅผ ์์ฑ. ์๋ณธ ๋ฐ์ดํฐ๋ฅผ ํํธ๋ก ์ฌ์ฉ
- round 2: GPT4-o๋ฅผ ์ฌ์ฉํ์ฌ ์์ฑ๋ reasoning chain์ด standard answer์ ๋น๊ตํ์ ๋ ์ ์์ฑ๋๋์ง ํ๊ฐ. inconsistentํ๋ค๋ฉด reasoning step์ ์์
- round 3: GPT-4o ๋ต๋ณ๊ณผ standard answer๋ฅผ ์ฌ์ฉํ ๋ค ๋ง๋ ์ ๋ต๋ง ์ฌ์ฉ.
training
- (align) LLaVA-Pretrain + geo170k-align : 1 epoch
- (instruct) LLaVA-instruct : ViT๋ full tuning
- (math instruct) MultiMath300k-instuction, Geo170k-qa, MathV360k
- (PPO) MultiMath300K-val, GSM8K-train, Math-train, CMATH-train๋ฅผ ์์ค๋ก ๋ง๋ฆ
Process-supervised RL
- CoT reasoning ์์ผ์ multiple reasoning step์ ์์ฑํ๊ฒ ํจ
- GPT-4oํํ correctness๋ฅผ ํ๊ฐํ๊ฒ ํ๊ณ ์๋ฌ๊ฐ ๋ฐ์ํ step์ ์ฐพ์์ ๋ง๋ solution์ ์์ฑํ๊ฒ ํจ
- ์ด๊ฑธ๋ก prefer / disprefer set์ด ๋์ด -> RM ํ์ต PPO
- ๊ฐ actor๋ชจ๋ธ์ด ์์ฑํ reasoning step์ ๋ํ reward score๋ฅผ ๊ฐ์ง๊ณ PPO ํ์ต
Result
closed model ๋ณด๋จ ์๋์ง๋ง open source model ์ค ๊ฐ์ฅ ๋์ ์ฑ๋ฅ
text ์ฑ๋ฅ
๋ค๋ฅธ math ์คํ์์ค ํนํ ๋ชจ๋ธ๋ค์ด LLaVA-NeXT๋ณด๋ค ์์ข์.
contribution of RL
PPO ๋จ๊ณ์์ ์ฐ์๋ ๋๋ฉ์ธ์ธ cmath, gsm8k, math ๊ฐ์ , ์ฐ์ด์ง ์์๊ฑด ๊ฐ์ ์๋จ. mathvista์ ๊ฒฝ์ฐ 0.8 ์ฌ๋๊ณ (align, sft๋ ๊ฐ๊ฐ 1.3, 1.6 ์ฌ๋ฆผ)mathverse์ ๊ฒฝ์ฐ 0.2 ๋จ์ด์ง
LLM backbone
vicuna ๋๋น ์ฑ๋ฅ์ฐจ์ด๊ฐ ๋ง์ด ๋จ. MathVista 42.9 vs 50.0 ใทใท MultiMath๊ฐ ์ค๊ตญ์ด๊ฐ ๋๋ถ๋ถ์ธ ํ๋ ์กฐ๊ธ ์์ ๋ฏ. ๊ทธ๋๋ table 3๋ณด๋ฉด ํ์ต์ด ์๋๊ฑด ์๋.