MLLM | 🍎 Paper Today I Read 🦔

[222] Qwen3-VL Technical Report

[220] VideoRoPE: What Makes for Good Video Rotary Position Embedding?

MLLM 2025Q1 video

[219] GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

RL MLLM 2025Q3

[218] Qwen2.5-VL Technical Report

alibaba MLLM 2025Q2 qwen

[216] Emerging Properties in Unified Multimodal Pretraining

MLLM 2025Q2 WORLD-MODEL

[213] Skywork-R1V3 Technical Report

MLLM reasoning 2025Q3

[211] Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought

MLLM reasoning 2025Q2

[212] MiMo-VL Technical Report

MLLM reasoning 2025Q2

[206] Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

25min RL MLLM 2025Q1

[207] MM-EUREKA: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning

RL MLLM 2025Q1

[188] LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

MLLM 2024Q4

[187] Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization

RL MLLM 2024Q4 SHU

[185] LLaVA-OneVision: Easy Visual Task Transfer

25min MLLM 2024Q4

[184] Improve Vision Language Model Chain-of-thought Reasoning

CMU MLLM 2024Q3

[183] MultiMath: Bridging Visual and Mathematical Reasoning for Large Language Models

MLLM 2024Q3 STEM

[182] Calibrated Self-Rewarding Vision Language Models

NeurIPS 25min RL MLLM 2024Q2

[180] Phantom of Latent for Large Language and Vision Models

MLLM 2024Q3

[179] Aligning Large Multimodal Models with Factually Augmented RLHF

25min RL 2023Q3 MLLM Berkley

[178] RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness

RL MLLM 2024Q2

[174] Evaluations for Object Hallucinations

survey evaluation MLLM

[171] CLIP-DPO: Vision-Language Models as a Source of Preference for Fixing Hallucinations in LVLMs

ECCV RL MLLM 2024Q3

[172] RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback

CVPR RL MLLM 2024Q2

[173] Detecting and Preventing Hallucinations in Large Vision Language Models

AAAI RL 2023Q3 MLLM ScaleAI

[166] Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

MLLM 2024Q1

[144] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

multilingual alibaba 2023Q3 MLLM qwen

[143] Honeybee: Locality-enhanced Projector for Multimodal LLM

kakao 2023Q4 MLLM

[140] Improved Baselines with Visual Instruction Tuning

multimodal LLM 2023Q3 MLLM

[138] ShareGPT4V: Improving Large Multi-Modal Models with Better Captions

multimodal dataset 2023Q4 MLLM