[188] LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

paper , code , dataset

TL;DR

I read this because.. : 추천 받아
task : reasoning in LVLM
problem : LVLM도 gpt-o1 처럼 reasoning 길게 하고 싶다
idea : 데이터 넣고 학습하자. 대답의 단계를 나누자. 대답 단계 별로 beam search를 하자
architecture : Llama 3.2V
objective : CE loss (SFT 후 futher SFT)
baseline : Llama 3.2V
data : Llava-CoT-100k (proposed)
evaluation : mmstar, mmbench, mmvet, mathvista, ai2d,
result : 개선된 성능.
contribution : 데이터 공개.

Details

thumbnail
inference examples
답변 구조화 방식

GPT4o한테 생성시킨 뒤 구조를 안맞추는 것 Filtering. <summary>, </summary> 태그 안에 있는 것들을 Gt answer랑 비교해서 잘 답변한건지 필터링을 또 GPT4o한테 시킴

생성한 이미지 소스

https://github.com/long8v/PTIR/issues/203 얘랑 소스 겹침

각 구조에 대한 beam search 진행

“beam search"라고 해서 몰랐는데 External verifier를 사용하는 형태인듯. 이때 사용된 Prompt? 어떤 모델을 사용했는지 못봤음

Training hparam

Result

나름 “Reasoning 벤치마크"라는걸 선정. direct training은 원래 vqa set으로 further SFT한 것. w/o structured tag는 <summary> 같은 태그 사용하지 않은 것 mmstar, mmvet, mathvista는 개선. ai2d는 그냥 Direct로 답변만 학습하는게 더 성능이 좋음

mmstar에서 세부 항목을 보면 reasoning 관련 세부항목과 math, science 등이 오름. perception은 안오르는건 아닌데 미미함.

stage level beam search

RM 학습 했다고 하는 얘기 없는데 BoN은 어떻게 한걸까?

comparison with other models

TL;DR#

Details#

Result#

TL;DR

Details

Result