[222] Qwen3-VL Technical Report

2026년 3월 9일 · 5 분 · long8v · 

[220] VideoRoPE: What Makes for Good Video Rotary Position Embedding?

2025년 11월 25일 · 2 분 · long8v · 

[219] GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

2025년 11월 12일 · 4 분 · long8v · 

[218] Qwen2.5-VL Technical Report

2025년 11월 10일 · 3 분 · long8v · 

[216] Emerging Properties in Unified Multimodal Pretraining

2025년 9월 4일 · 3 분 · long8v · 

[213] Skywork-R1V3 Technical Report

2025년 7월 11일 · 3 분 · long8v · 

[211] Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought

2025년 7월 2일 · 2 분 · long8v · 

[212] MiMo-VL Technical Report

2025년 7월 2일 · 2 분 · long8v · 

[206] Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

2025년 3월 12일 · 1 분 · long8v · 

[207] MM-EUREKA: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning

2025년 3월 12일 · 2 분 · long8v · 

[188] LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

2024년 12월 2일 · 1 분 · long8v · 

[187] Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization

2024년 11월 21일 · 2 분 · long8v · 

[185] LLaVA-OneVision: Easy Visual Task Transfer

2024년 11월 12일 · 1 분 · long8v · 

[184] Improve Vision Language Model Chain-of-thought Reasoning

2024년 10월 29일 · 2 분 · long8v · 

[183] MultiMath: Bridging Visual and Mathematical Reasoning for Large Language Models

2024년 10월 24일 · 2 분 · long8v · 

[182] Calibrated Self-Rewarding Vision Language Models

2024년 10월 10일 · 1 분 · long8v · 

[180] Phantom of Latent for Large Language and Vision Models

2024년 9월 30일 · 1 분 · long8v · 

[179] Aligning Large Multimodal Models with Factually Augmented RLHF

2024년 9월 25일 · 1 분 · long8v · 

[178] RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness

2024년 9월 23일 · 2 분 · long8v · 

[174] Evaluations for Object Hallucinations

2024년 9월 2일 · 2 분 · long8v · 

[171] CLIP-DPO: Vision-Language Models as a Source of Preference for Fixing Hallucinations in LVLMs

2024년 8월 30일 · 2 분 · long8v · 

[172] RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback

2024년 8월 30일 · 2 분 · long8v · 

[173] Detecting and Preventing Hallucinations in Large Vision Language Models

2024년 8월 30일 · 2 분 · long8v · 

[166] Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

2024년 7월 23일 · 2 분 · long8v · 

[144] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

2023년 12월 26일 · 2 분 · long8v · 

[143] Honeybee: Locality-enhanced Projector for Multimodal LLM

2023년 12월 22일 · 3 분 · long8v · 

[140] Improved Baselines with Visual Instruction Tuning

2023년 12월 12일 · 2 분 · long8v · 

[138] ShareGPT4V: Improving Large Multi-Modal Models with Better Captions

2023년 12월 8일 · 2 분 · long8v ·