2025Q1 | 🍎 Paper Today I Read 🦔

[220] VideoRoPE: What Makes for Good Video Rotary Position Embedding?

MLLM 2025Q1 video

[209] SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

google RL Berkley 2025Q1

[208] FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models

25min RL 2025Q1

[206] Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

25min RL MLLM 2025Q1

[207] MM-EUREKA: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning

[205] LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!

Berkley reasoning 2025Q1

[204] DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL

25min RL reasoning 2025Q1

[202] s1: Simple test-time scaling

25min test-time-scaling reasoning 2025Q1

[201] VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment

RL reasoning 2025Q1

[200] Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling

25min RL 2025Q1 THU

[199] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

RL reasoning 2025Q1

[198] Kimi k1.5: Scaling Reinforcement Learning with LLMs

multimodal RL reasoning 2025Q1