[171] CLIP-DPO: Vision-Language Models as a Source of Preference for Fixing Hallucinations in LVLMs

TL;DR

I read this because.. : google scholar가 추천해줌
task : VLM + RLHF
problem : VLM의 hallucination 해결하고 싶은데 싸게 DPO 학습용 데이터 못만들까?
idea : CLIP score 가지고 만들까?
input/output : {image, question} -> score
architecture : MobileVLM-v2), LLaVA 1.5
objective : DPO loss
baseline : BLIP-2, InstructBLIP, Shira, OpenFlamingo, Qwn-VL … ShareGPT4V, DPO 기법으로는 HA-DPO
data : 이미지 소스는 SFT, MobileVLM-v2로 만들고 CLIP score와 휴리스틱으로 필터링 함. CLIP Score 기준 2이상 나는 것을 win / loose 페어를 만듦
evaluation : AMBER , CLIP에서 평가하는 분류(caption 생성하라고 한 뒤 siglip으로 zero-shot classification), VLM benchs(GQA, SQA, VQA, MME, MMB)
result : AMBER 개선. QwenVL, GPT4V 말고 AMBER sota. 다른 벤치마크는 성능을 악화시키진 않으며 SQA나 MMB는 개선시키기도?
contribution : 싸게 DPO data 만들기.
etc. :

bar = hallucinated caption에 대해 logit을 더 크게 할당한 것 (진파랑 llava 1.5 / 하늘색 CLIP)

CLIP이 VLM보다는 hallucinated object, attribute, relation을 잘 뽑아낸다!

Mistral 7B에게 이미지에서 질문과 맞는 답변, 틀린 답변을 만들라고 함

CLIP ranking : CLIPScore를 다 담
Global filtering :
- text 가 들어있는 이미지가 CLIPScore가 높아서 제거
- CLIPScore threshold 이하 제거
- long caption 제거
- question도 CLIPScore재서 낮은것 제거 (e.g. “what is the main object in the image?”)
Pair filtering :
- QA의 경우 Q에서 이미지에 대한 설명을 regex로 뺀 다음에 대답과 concat후 CLIPScore가 낮은걸 정제 (?)
- CLIPScore의 차이가 2 이상인 것만
- 캡션 길이가 너무 다르지 않은 것만

최종적으로 750K pair 확보 – 이 중 50K가 QA 나머지는 700K는 caption