[184] Improve Vision Language Model Chain-of-thought Reasoning

paper

TL;DR

I read this because.. : reasoning ability in VLM
task : VLM
problem : VLM instruction data 대부분이 단문이다
idea : GPT4-o를 가지고 CoT 데이터를 만들자
architecture : LLaVA-NeXT
objective : CE loss -> DPO loss
baseline : LLaVA-NeXT, GPT4o, Cambrian, (data) RLAIF
data : ShareGPT4-o Reasoning(아직 공개 안함)
evaluation : A-OKVQA, DocVQA, ChartQA, AI2D, ScienceQA, …
result : 모든 벤치에서 골고루 높은 성능.
contribution : 적은 데이터셋으로 벤치마크 개선. reasoning 관련 분석 많이 함

Details

motivation

Data

reasoning data distilation

Result

위와 같은 데이터 구성

(1) format: 답변 포맷만 맞출 수 있는 수준으로 구성한 것. 9개의 데이터셋 별로 50개의 sampling을 함. CoT / direct 둘다 + LLaVA-pretrain에서 2K
(2) direct data: (1) + 답변이 바로 나오는 193K를 Full로 넣은 것
(3) CoT data : (1) + CoT 193K를 넣은 것 + 추가로 GLLaVA-align / QA
(4) CoT SFT : (1) + direct + CoT 둘다 넣은 것 + 추가로 GLLaVA-align / QA

CAN REASONING BE IMPLICITLY LEARNT FROM DIRECT PREDICTION? – (1)과 (2) 비교 -> direct answer만 넣고 학습한 경우 CoT infererence를 할 경우에 개선이 미미하거나 오히려 떨어지는 경우도 있었음(mathvista -1.7)

HOW EFFECTIVE IS COT REASONING DATA? – (3) chartQA나 Mathvista같이 계산이 많이 들어가는 벤치마크에서 성능이 올랐고, 의외로 TextVQA, DocVQA, InfoVQA 같은 Text-heavy한 벤치마크에서도 성능이 오르는걸 볼 수 있음. – (4) CoT와 Direct 모두 학습을 했을 때 가장 평균 성능이 좋았다. 다만 TextVQA, DocVQA, AI2D는 direct 성능이 더 좋았다. fact extraction 위주로 뽑는 벤치마크여서 그런 것 같다고 추정.

ABLATION TESTS ON DATA COMPOSITION