TL;DR
- I read this because.. : google scholar๊ฐ ์ถ์ฒํด์ค
- task : VLM + RLHF
- problem : VLM์ hallucination ํด๊ฒฐํ๊ณ ์ถ์๋ฐ ์ธ๊ฒ DPO ํ์ต์ฉ ๋ฐ์ดํฐ ๋ชป๋ง๋ค๊น?
- idea : CLIP score ๊ฐ์ง๊ณ ๋ง๋ค๊น?
- input/output : {image, question} -> score
- architecture : MobileVLM-v2), LLaVA 1.5
- objective : DPO loss
- baseline : BLIP-2, InstructBLIP, Shira, OpenFlamingo, Qwn-VL … ShareGPT4V, DPO ๊ธฐ๋ฒ์ผ๋ก๋ HA-DPO
- data : ์ด๋ฏธ์ง ์์ค๋ SFT, MobileVLM-v2๋ก ๋ง๋ค๊ณ CLIP score์ ํด๋ฆฌ์คํฑ์ผ๋ก ํํฐ๋ง ํจ. CLIP Score ๊ธฐ์ค 2์ด์ ๋๋ ๊ฒ์ win / loose ํ์ด๋ฅผ ๋ง๋ฆ
- evaluation : AMBER , CLIP์์ ํ๊ฐํ๋ ๋ถ๋ฅ(caption ์์ฑํ๋ผ๊ณ ํ ๋ค siglip์ผ๋ก zero-shot classification), VLM benchs(GQA, SQA, VQA, MME, MMB)
- result : AMBER ๊ฐ์ . QwenVL, GPT4V ๋ง๊ณ AMBER sota. ๋ค๋ฅธ ๋ฒค์น๋งํฌ๋ ์ฑ๋ฅ์ ์ ํ์ํค์ง ์์ผ๋ฉฐ SQA๋ MMB๋ ๊ฐ์ ์ํค๊ธฐ๋?
- contribution : ์ธ๊ฒ DPO data ๋ง๋ค๊ธฐ.
- etc. :
Details
- why CLIP?
์๋์ ๊ฐ์ด hallucination์ ๋ง๋ ๋ค์ CLIP vs LLaVA 1.5 logit ๋น๊ต
bar = hallucinated caption์ ๋ํด logit์ ๋ ํฌ๊ฒ ํ ๋นํ ๊ฒ (์งํ๋ llava 1.5 / ํ๋์ CLIP)
CLIP์ด VLM๋ณด๋ค๋ hallucinated object, attribute, relation์ ์ ๋ฝ์๋ธ๋ค!
CLIP-DPODPO ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ๊พผ ๊ฒ์ด ์๊ณ ๋ฐ์ดํฐ ํ๋ง ๋ฐ๊ฟdata
- generation : ๊ฐ๋ฒผ์ด VLM (๋ ผ๋ฌธ์์ MobileVLM-v2 family)๋ฅผ ์ฌ์ฉํ์ฌ ๋๊ฐ์ง ํํ๋ก ๋ง๋ฆ
generic caption Mobile VLM v2 ๋ชจ๋ธ๋ค์๊ฒ caption ๋ง๋ค์ด๋ฌ๋ผ๊ณ ํจ. 5๊ฐ์ ํ๋กฌํํธ ์ฌ์ฉ
per-image QA
Mistral 7B์๊ฒ ์ด๋ฏธ์ง์์ ์ง๋ฌธ๊ณผ ๋ง๋ ๋ต๋ณ, ํ๋ฆฐ ๋ต๋ณ์ ๋ง๋ค๋ผ๊ณ ํจ
- data annotation
CLIP ranking : CLIPScore๋ฅผ ๋ค ๋ด
Global filtering :
- text ๊ฐ ๋ค์ด์๋ ์ด๋ฏธ์ง๊ฐ CLIPScore๊ฐ ๋์์ ์ ๊ฑฐ
- CLIPScore threshold ์ดํ ์ ๊ฑฐ
- long caption ์ ๊ฑฐ
- question๋ CLIPScore์ฌ์ ๋ฎ์๊ฒ ์ ๊ฑฐ (e.g. โwhat is the main object in the image?โ)
Pair filtering :
- QA์ ๊ฒฝ์ฐ Q์์ ์ด๋ฏธ์ง์ ๋ํ ์ค๋ช ์ regex๋ก ๋บ ๋ค์์ ๋๋ต๊ณผ concatํ CLIPScore๊ฐ ๋ฎ์๊ฑธ ์ ์ (?)
- CLIPScore์ ์ฐจ์ด๊ฐ 2 ์ด์์ธ ๊ฒ๋ง
- ์บก์ ๊ธธ์ด๊ฐ ๋๋ฌด ๋ค๋ฅด์ง ์์ ๊ฒ๋ง
์ต์ข ์ ์ผ๋ก 750K pair ํ๋ณด – ์ด ์ค 50K๊ฐ QA ๋๋จธ์ง๋ 700K๋ caption