TL;DR
- I read this because.. : VLM self-rewarding
- task : LVLM
- problem : LVLM이 object hallucination이 심한데 이는 text token에 너무 attention이 실려있기 때문
- idea : self rewarding + CLIPScore로 image relevance 두개 잘 합쳐서 이미지에 dependant 하도록 reward 주도록 하자
- architecture : LLaVA 1.5 7B / 13B
- objective : DPO loss
- baseline : LLaVA, RLHF-V, VLfeedback, …
- data : iteration 돌면서 생성. seed는 llava-instruction 150K 데이터 중 랜덤으로 뽑은 subset 13K
- evaluation : VLM bench(MME, SEED, LLaVA_w, MMBench, …), VQA(SQA, VisWiz, GQA), Hall-bench(POPE, CHAIR)
- result : VLM bench, VQA, hall-bench 모두 개선
- contribution :
- etc. :
Details
Preliminary
LARGE LANGUAGE MODELS CAN SELF-IMPROVE https://arxiv.org/abs/2210.11610
Proposed
VLM으로 샘플들 생성하고 (beam search decoding) 각 문장별로 reward를 매기고 이 reward의 합으로 전체 시퀀스의 점수를 매김. good / bad response를 뽑고 이걸로 DPO 학습 학습된 VLM으로 다시 샘플등 생성하고 … 이렇게 세번 반복
Reward
Text score + image score의 합
$\lambda$는 하이퍼파라미터. 0.9로 셋팅
- text score
$x$ : prompt $r_i$ : ith response token $s$ : sentence $R_t$ : LVLM의 text decoder 부분.
재밌는건 문장만 들어가고 이미지는 안들어가고, 이전 문장도 안들어감. 논문에서는 instruction following score라고 표현
- image score
CLIPScore.
Result
comparsion with other vlms
iterative 하면서 결과