TL;DR
- I read this because.. : VLM RL ์ด๊ธฐ์. PPO ์จ์.
- task : VLM + RL
- problem : VLM์ hallucination
- idea : PPO ์ ์ฉํด๋ณด์! ํ๊ฐ์ง ๋ค๋ฅธ ์ ์ reward model์ human annotation(caption ๋ฑ)์ ์ถ๊ฐ๋ก ๋ฃ์ด์ฃผ์
- input/output : {image, question} -> answer
- architecture : LLaVA 7B (vicuna)
- objective : PPO loss
- baseline : OpenFlamingo, MiniGPT-4, InstructBLIP, LLaVA-SFT
- data : LLaVA SFT ๋ชจ๋ธ๋ก 10K sample์ ๋ง๋ ๋ค Human annotated preference data๋ง๋ฆ
- evaluation : MMBench, LLaVA-w, POPE, MMHal (proposed)
- result : MMBench ๊ฐ์ (finegrained perception)
- contribution : VLM์ RLHF๋ฅผ ๋ถ์ธ ๊ฑฐ์ ์ฒ์ ์ฐ๊ตฌ
- etc. :
Details
Proposed
- humna preference data collection
temperature 0.7๋ก SFT ๋ชจ๋ธ์ ๋ํด 10K์ LLaVA held-out ๋ฐ์ดํฐ๋ฅผ ๋ง๋ฆ (์ด๋ฏธ์ง ์์ค๋?)
human prefernce annotation ๋ฐ์ ๋ Instruction
RM model์๊ฒ ์ฃผ๋ prompt. ์ถ๊ฐ์ ์ผ๋ก caption ๋ฑ์ ์คฌ๋ค๊ณ ํด์ factually augmented rlhf
MMHal-Bench
์๋์ 96๊ฐ์ด๊ณ 8๊ฐ์ ์นดํ ๊ณ ๋ฆฌ(object attribute, adversairal object, comparsion, counting, spatial relation, environment, holistic, others)์ ๋ํด 12๊ฐ ์ง๋ต์ ๋ง๋ฆ. ์ด๋ฏธ์ง ์์ค๋ OpenImages์ด๊ณ text-only GPT4์๊ฒ ์ด๋ฏธ์ง ์ปจํ ์ธ ์ ๋ํ ์ฌ๋์ด ์์ฑํ ๋ต๋ณ๊ณผ ์ด๋ฏธ์ง ๋ด์ ์๋ (์๋ง Object์) ์นดํ ๊ณ ๋ฆฌ๋ ๊ฐ์ด ์ค. gpt4์ ํ๊ฐ ๊ฒฐ๊ณผ๋ human๊ณผ 94% ์ผ์นํจ.
Result
LLaVA bench
mmhal bench
mmbench
Qualitative result
Ablation
- SFT data ablation
VQA ๋ฐ์ดํฐ๊ฐ POPE ๊ฐ์ ์ ๋์