[187] Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization

TL;DR

I read this because.. : reasoning in LVLM
task : MLLM
problem : MLLM의 CoT 능력 떨어짐
idea : CoT 데이터 만들자 + DPO 학습하자
architecture : InternVL2-8B
objective : DPO loss + CE loss + BCOloss
baseline : InternVL2-8B, InternVL2-8B-SFT, DPO variants, Gemini, GPT4o, LLaVA-1.5-13B, Qwen2VL-7B, …
data : proposed MMPR (3.2M)
evaluation : M3CoT, Mathvista, MathVision, MMVET, LLaVA-Bench, POPE, CRPE, MMHalbench
result : CoT 능력과 math쪽 성능을 크게 개선 (mathvista 67.0). SFT보다 preference optimization을 하는게 CoT 성능에 크리티컬했다고 주장.
contribution : 데이터셋 공개. 제안한 loss 조합도 성능이 좋음
etc. :

Details

thumbnail

MMPR dataset

답이 있는 경우엔 답이 맞으면 chosen / 아니면 loose 답이 없는 경우엔 일단 생성한 애를 다 chosen으로 선택하고, loose의 경우는 생성된 문장의 반을 가려놓고 나머지를 생성하라고 함. 이때 hallucination이 많이 생겼다고 함. (?) – DropNTP로 이름 붙임 2.5M 답이 있는 데이터 // 750K 답이 없는 데이터