[219] GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

2025년 11월 12일 · 4 분 · long8v · 

[215] Group Sequence Policy Optimization

2025년 8월 1일 · 2 분 · long8v · 

[214] Learning to Model the World With Language

2025년 7월 17일 · 3 분 · long8v · 

[210] Weight Ensembling Improves Reasoning in Language Models

2025년 5월 30일 · 2 분 · long8v · 

[209] SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

2025년 5월 21일 · 2 분 · long8v · 

[208] FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models

2025년 3월 27일 · 1 분 · long8v · 

[206] Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

2025년 3월 12일 · 1 분 · long8v · 

[207] MM-EUREKA: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning

2025년 3월 12일 · 2 분 · long8v · 

[204] DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL

2025년 2월 19일 · 2 분 · long8v · 

[203] DeepSeek-V3 Technical Report

2025년 2월 13일 · 2 분 · long8v · 

[201] VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment

2025년 2월 8일 · 2 분 · long8v · 

[200] Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling

2025년 2월 3일 · 2 분 · long8v · 

[199] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

2025년 1월 24일 · 2 분 · long8v · 

[197] Free Process Rewards without Process Labels

2025년 1월 20일 · 1 분 · long8v · 

[196] Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations

2025년 1월 17일 · 2 분 · long8v · 

[191] Critique-out-Loud Reward Models

2024년 12월 17일 · 2 분 · long8v · 

[190] Solving math word problems with process and outcome-based feedback

2024년 12월 16일 · 3 분 · long8v · 

[189] Training Verifiers to Solve Math Word Problems

2024년 12월 9일 · 1 분 · long8v · 

[187] Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization

2024년 11월 21일 · 2 분 · long8v · 

[182] Calibrated Self-Rewarding Vision Language Models

2024년 10월 10일 · 1 분 · long8v · 

[181] Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs

2024년 10월 7일 · 2 분 · long8v · 

[179] Aligning Large Multimodal Models with Factually Augmented RLHF

2024년 9월 25일 · 1 분 · long8v · 

[178] RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness

2024년 9월 23일 · 2 분 · long8v · 

[177] Fine-grained Image Captioning with CLIP Reward

2024년 9월 6일 · 2 분 · long8v · 

[176] Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive

2024년 9월 5일 · 2 분 · long8v · 

[175] Dense Reward for Free in Reinforcement Learning from Human Feedback

2024년 9월 4일 · 2 분 · long8v · 

[171] CLIP-DPO: Vision-Language Models as a Source of Preference for Fixing Hallucinations in LVLMs

2024년 8월 30일 · 2 분 · long8v · 

[172] RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback

2024년 8월 30일 · 2 분 · long8v · 

[173] Detecting and Preventing Hallucinations in Large Vision Language Models

2024년 8월 30일 · 2 분 · long8v · 

[170] Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback

2024년 8월 27일 · 2 분 · long8v · 

[169] Direct Preference Optimization: Your Language Model is Secretly a Reward Model

2024년 8월 26일 · 1 분 · long8v · 

[168] Proximal Policy Optimization Algorithms

2024년 8월 21일 · 2 분 · long8v · 

[142] Trust Region Policy Optimization

2023년 12월 17일 · 1 분 · long8v · 

[134] Asynchronous Methods for Deep Reinforcement Learning

2023년 10월 18일 · 3 분 · long8v ·