25min

[208] FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models

25min RL 2025Q1

[206] Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

25min RL MLLM 2025Q1

[204] DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL

25min RL reasoning 2025Q1

[203] DeepSeek-V3 Technical Report

WIP 25min LLM RL 2024Q4

[202] s1: Simple test-time scaling

25min test-time-scaling reasoning 2025Q1

[200] Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling

25min RL 2025Q1 THU

[197] Free Process Rewards without Process Labels

25min RL 2024Q4

[195] STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning

2022Q1 google 25min reasoning

[189] Training Verifiers to Solve Math Word Problems

2021Q4 openAI 25min RL

[185] LLaVA-OneVision: Easy Visual Task Transfer

25min MLLM 2024Q4

[182] Calibrated Self-Rewarding Vision Language Models

NeurIPS 25min RL MLLM 2024Q2

[179] Aligning Large Multimodal Models with Factually Augmented RLHF

25min RL 2023Q3 MLLM Berkley

[177] Fine-grained Image Captioning with CLIP Reward

2022Q2 25min RL NAACL

[162] CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention

AAAI 2022Q3 25min CLIP

[161] MM-SHAP: A Performance-agnostic Metric for Measuring Multimodal Contributions in Vision and Language Models & Tasks

25min 2022Q4 XAI ACL

[159] Long-CLIP: Unlocking the Long-Text Capability of CLIP

25min CLIP 2024Q1

[152] Sigmoid Loss for Language Image Pre-Training

25min CLIP 2023Q1

[150] Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization

2016 25min XAI

[149] Noise-aware Learning from Web-crawled Image-Text Data for Image Captioning

ICCV 25min 2022Q4 kakao

[148] I Can't Believe There's No Images! Learning Visual Tasks Using only Language Supervision

ICCV 25min CLIP 2023Q3 AI2

[129] Grounding Language Models to Images for Multimodal Inputs and Outputs

ICML 25min 2023Q1 CMU

[126] ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

multimodal 2021Q1 25min kakao

[115] ImageBind: One Embedding Space To Bind Them All

multimodal 25min 2023Q2 meta

[110] Understanding the Role of Self Attention for Efficient Speech Recognition

2022Q1 ICLR 25min transformer

[106] Prefix-Tuning: Optimizing Continuous Prompts for Generation

2021Q1 25min finetuning LLM ACL

[102] Attention Augmented Convolutional Networks

attention 2019 25min

[94] Recipe for a General, Powerful, Scalable Graph Transformer

long NeurIPS graph 25min transformer

[93] Mining the Benefits of Two-stage and One-stage HOI Detection

2021Q2 NeurIPS 25min HOI

[92] Long-Tail Learning via Logit Adjustment

2020Q3 google 25min imbalance

[78] Localization Uncertainty Estimation for Anchor-Free Object Detection

2020Q2 25min uncertainty

[75] SESS: Saliency Enhancing with Scaling and Sliding

2022Q3 25min ECCV XAI

[74] “This is my unicorn, Fluffy”: Personalizing frozen vision-language representations

dataset 2022Q3 25min ECCV nvidia CLIP

[73] Simple Open-Vocabulary Object Detection with Vision Transformers

google object detection 2022Q2 25min ECCV OV

[71] Large Models are Parsimonious Learners: Activation Sparsity in Trained Transformers

25min sparse 2022Q4 transformer

[66] Pointly-Supervised Instance Segmentation

2022Q2 25min ECCV annotation segmentation

[65] Margin Calibration for Long-Tailed Visual Recognition

2021Q4 25min imbalance ECCV

[63] Masked Autoencoders Are Scalable Vision Learners

2021Q4 SSL 25min

[62] What to Hide from Your Students: Attention-Guided Masked Image Modeling

SSL 2022Q1 25min ECCV

[60] Efficient Sparsely Activated Transformers

MoE 2022Q3 25min AutoML

[59] MLP-Mixer: An all-MLP Architecture for Vision

backbone 2021Q2 google 25min

[58] MetaFormer Is Actually What You Need for Vision

2021Q4 backbone 25min

[57] Learning Transferable Architectures for Scalable Image Recognition

fundamental 2017 25min AutoML

[55] Position Prediction as an Effective Pretraining Strategy

ViT PE 2022Q2 25min apple

[54] Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language Models

LM MoE 2022Q3 25min

[48] SAC: Accelerating and Structuring Self-Attention via Sparse Adaptive Connection

2020Q1 long NeurIPS graph 25min

[47] Recovering the Unbiased Scene Graphs from the Biased Ones

SGG 25min 2021Q3 imbalance

[41] Panoptic Scene Graph Generation

dataset SGG 2022Q3 25min

[42] DETRs with Hybrid Matching

object detection 2022Q3 25min DETR