TL;DR
- I read this because.. : VLM + RLHF
- task : MLLM
- problem : MLLM์ hallucination ๋ฌธ์ . GPT4-V์ ๊ฒฝ์ฐ์๋ 45.9%๊ฐ hallucination์ด๋๋ผ
- idea : DPO ํ์ต์ ํ์. ๊ทธ๋ฐ๋ฐ ์ด๋ ์ ํํ๊ฒ ์ด๋ค segment๊ฐ ํ๋ ธ๋์ง๋ฅผ ์ ๋ต์ ๋งค๊ธฐ์.
- input/output : {image, question} -> answer
- architecture : ์ ์๋ค์ ์ ์์ธ Muffin . BEiT-3 + 13B Vicnuna 1.0 ๊ธฐ๋ฐ์ ๋ชจ๋ธ
- objective : ์ด์ง ์์ ๋ DPO. DPO loss term์ ๋ค์ด๊ฐ๋ log-propb ๋ถ๋ถ ๊ฐ์ค์น๊ฐ ์กฐ๊ธ ๋ฌ๋ผ์ง.
- baseline : QwenVL-Chat, LLaVA, LLaVA1.5, Muffin, InstructBLIP, LLaVA-RLHF
- data : human annotated 1.4K data
- evaluation : Object HalBench, MMHAL-Bench, MHumanEval, LLaVA Bench, VQAv2
- result : hallucination ๊ด์ ์์ open model ์ค sota.(์ผ๋ถ GPT4V๋ฅผ ์ด๊ธฐ๋ ํจ). LLAVA Bench์ ๊ฒฝ์ฐ LLavA-RLHF๊ฐ ์ข๋ ์ข๊ธด ํ์ง๋ง ๋น๋ฑ๋น๋ฑํ๊ฒ ์ข์.
- contribution : ํจ์จ์ ์ธ DPO ํ์ต. ๋ฐ์ดํฐ ๊ณต๊ฐ
- etc. :
Details
overall
underlying challenges in human preference data
- ambiguity ๋ ๋ต๋ณ์ด ์์ ๋ ๊ฐ๊ฐ์ ์ฅ์ , ๋จ์ ์ด ์๋๋ฐ ๋์ค์ ๋ฌด์์ ์ ํธํ๊ฒ ํ ์ง๊ฐ ๋ฌธ์
- learning efficiency reponseํ๋๋ก ๊ธด ๋ต๋ณ์ ๋ํด feedback์ ํด์ผํ๊ธฐ ๋๋ฌธ์ ํ์ตํ๊ธฐ ์ด๋ ค์์ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ๊ณ , ์ด๋ฌํ credit misallocation ๋ฌธ์ ๋ก reward hacking ๋ฑ์ ๋ฌธ์ ๊ฐ ์๊น
fine-grained correctional human preference collection
segment level๋ก human annotation ์ํด. hallucinated segments๋ฅผ ์ ์ ํ๋ ๋ฐฉ์. ์ ์ ์ /ํ๊ฐ $y_w$, $y_l$์ด ๋จ. ์ด๋ ๋ฐ์ดํฐ๋ instruction data ์์ค์์ image description prompt๋ฅผ GPT4๋ก ๋ง๋ค๊ณ (?) answer๋ muffin์ ํตํด ๋ฐ์(??)
์ด๋ ๊ฒ ๋ง๋ค์ด์ง ๋ฐ์ดํฐ ํต๊ณ๋ 64.4 ๋จ์ด์ 2.65 corrected segments. hallucination type์ objects(41.2%), positions(20.3%), numbers(16.5%), attributes(10.0%), actions(5.3%), misc ๊ฐ ์์์
Dense Direct Preference Optimization
- DPO loss recap
($\beta$ 0.5)
์ฌ๊ธฐ์ log-prob ๋ถ๋ถ์์ corrected segment($y_c$)์ ์ํ๋์ง ์๋์ง(unchanged, $y_u$)์ ๋ฐ๋ผ ๊ฐ์ค์ ๋์๊ณ ํ๋๊ฒ proposed DDPO
- $\gamma$ : 5
- $N$: len($y_u$) + $\gamma$ len($y_c$)
- 1/N์ ๊ธธ์ด์ง๋ longer response์ ๋ํ ์ ํธ๋ฅผ ํต์ ํ๊ธฐ ์ํด ์์