Reasoning | 🍎 Paper Today I Read 🦔

[213] Skywork-R1V3 Technical Report

MLLM reasoning 2025Q3

[211] Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought

MLLM reasoning 2025Q2

[212] MiMo-VL Technical Report

MLLM reasoning 2025Q2

[210] Weight Ensembling Improves Reasoning in Language Models

RL reasoning 2025Q2

[205] LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!

Berkley reasoning 2025Q1

[204] DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL

25min RL reasoning 2025Q1

[202] s1: Simple test-time scaling

25min test-time-scaling reasoning 2025Q1

[201] VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment

RL reasoning 2025Q1

[199] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

RL reasoning 2025Q1

[198] Kimi k1.5: Scaling Reinforcement Learning with LLMs

multimodal RL reasoning 2025Q1

[196] Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations

ACL RL 2023Q4 reasoning

[195] STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning

2022Q1 google 25min reasoning

[194] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

DeepMind 2024Q3 reasoning

[193] Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective

survey 2024Q4 reasoning

[192] Scaling Test-time Compute with Open Models (hf blog)

2024Q4 test-time-scaling reasoning