[182] Calibrated Self-Rewarding Vision Language Models

paper

TL;DR

I read this because.. : VLM self-rewarding
task : LVLM
problem : LVLM이 object hallucination이 심한데 이는 text token에 너무 attention이 실려있기 때문
idea : self rewarding + CLIPScore로 image relevance 두개 잘 합쳐서 이미지에 dependant 하도록 reward 주도록 하자
architecture : LLaVA 1.5 7B / 13B
objective : DPO loss
baseline : LLaVA, RLHF-V, VLfeedback, …
data : iteration 돌면서 생성. seed는 llava-instruction 150K 데이터 중 랜덤으로 뽑은 subset 13K
evaluation : VLM bench(MME, SEED, LLaVA_w, MMBench, …), VQA(SQA, VisWiz, GQA), Hall-bench(POPE, CHAIR)
result : VLM bench, VQA, hall-bench 모두 개선
contribution :
etc. :

Details

Preliminary

LARGE LANGUAGE MODELS CAN SELF-IMPROVE https://arxiv.org/abs/2210.11610

Proposed

VLM으로 샘플들 생성하고 (beam search decoding) 각 문장별로 reward를 매기고 이 reward의 합으로 전체 시퀀스의 점수를 매김. good / bad response를 뽑고 이걸로 DPO 학습 학습된 VLM으로 다시 샘플등 생성하고 … 이렇게 세번 반복