[208] FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models

2025년 3월 27일 · 1 분 · long8v · 

[206] Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

2025년 3월 12일 · 1 분 · long8v · 

[204] DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL

2025년 2월 19일 · 2 분 · long8v · 

[203] DeepSeek-V3 Technical Report

2025년 2월 13일 · 2 분 · long8v · 

[200] Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling

2025년 2월 3일 · 2 분 · long8v · 

[197] Free Process Rewards without Process Labels

2025년 1월 20일 · 1 분 · long8v · 

[195] STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning

2025년 1월 9일 · 1 분 · long8v · 

[189] Training Verifiers to Solve Math Word Problems

2024년 12월 9일 · 1 분 · long8v · 

[185] LLaVA-OneVision: Easy Visual Task Transfer

2024년 11월 12일 · 1 분 · long8v · 

[182] Calibrated Self-Rewarding Vision Language Models

2024년 10월 10일 · 1 분 · long8v · 

[179] Aligning Large Multimodal Models with Factually Augmented RLHF

2024년 9월 25일 · 1 분 · long8v · 

[177] Fine-grained Image Captioning with CLIP Reward

2024년 9월 6일 · 2 분 · long8v · 

[162] CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention

2024년 7월 11일 · 1 분 · long8v · 

[161] MM-SHAP: A Performance-agnostic Metric for Measuring Multimodal Contributions in Vision and Language Models & Tasks

2024년 7월 9일 · 1 분 · long8v · 

[159] Long-CLIP: Unlocking the Long-Text Capability of CLIP

2024년 5월 10일 · 1 분 · long8v · 

[152] Sigmoid Loss for Language Image Pre-Training

2024년 3월 12일 · 2 분 · long8v · 

[150] Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization

2024년 2월 13일 · 2 분 · long8v · 

[149] Noise-aware Learning from Web-crawled Image-Text Data for Image Captioning

2024년 2월 12일 · 1 분 · long8v · 

[148] I Can't Believe There's No Images! Learning Visual Tasks Using only Language Supervision

2024년 2월 11일 · 2 분 · long8v · 

[129] Grounding Language Models to Images for Multimodal Inputs and Outputs

2023년 9월 4일 · 1 분 · long8v · 

[126] ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

2023년 8월 9일 · 1 분 · long8v · 

[115] ImageBind: One Embedding Space To Bind Them All

2023년 5월 16일 · 1 분 · long8v · 

[110] Understanding the Role of Self Attention for Efficient Speech Recognition

2023년 4월 17일 · 2 분 · long8v · 

[106] Prefix-Tuning: Optimizing Continuous Prompts for Generation

2023년 3월 28일 · 1 분 · long8v · 

[102] Attention Augmented Convolutional Networks

2023년 2월 16일 · 1 분 · long8v · 

[93] Mining the Benefits of Two-stage and One-stage HOI Detection

2022년 12월 29일 · 1 분 · long8v · 

[78] Localization Uncertainty Estimation for Anchor-Free Object Detection

2022년 11월 10일 · 1 분 · long8v · 

[75] SESS: Saliency Enhancing with Scaling and Sliding

2022년 11월 8일 · 2 분 · long8v · 

[74] “This is my unicorn, Fluffy”: Personalizing frozen vision-language representations

2022년 11월 4일 · 2 분 · long8v · 

[71] Large Models are Parsimonious Learners: Activation Sparsity in Trained Transformers

2022년 10월 17일 · 1 분 · long8v · 

[65] Margin Calibration for Long-Tailed Visual Recognition

2022년 9월 19일 · 1 분 · long8v · 

[63] Masked Autoencoders Are Scalable Vision Learners

2022년 9월 7일 · 1 분 · long8v · 

[62] What to Hide from Your Students: Attention-Guided Masked Image Modeling

2022년 9월 6일 · 1 분 · long8v · 

[60] Efficient Sparsely Activated Transformers

2022년 9월 2일 · 1 분 · long8v · 

[58] MetaFormer Is Actually What You Need for Vision

2022년 8월 31일 · 1 분 · long8v · 

[57] Learning Transferable Architectures for Scalable Image Recognition

2022년 8월 30일 · 1 분 · long8v · 

[55] Position Prediction as an Effective Pretraining Strategy

2022년 8월 26일 · 1 분 · long8v · 

[54] Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language Models

2022년 8월 25일 · 2 분 · long8v · 

[48] SAC: Accelerating and Structuring Self-Attention via Sparse Adaptive Connection

2022년 8월 9일 · 1 분 · long8v · 

[47] Recovering the Unbiased Scene Graphs from the Biased Ones

2022년 8월 5일 · 1 분 · long8v · 

[41] Panoptic Scene Graph Generation

2022년 8월 1일 · 1 분 · long8v ·