[222] Qwen3-VL Technical Report

2026년 3월 9일 · 5 분 · long8v · 

[221] Scaling Synthetic Data Creation with 1,000,000,000 Personas

2026년 1월 19일 · 1 분 · long8v · 

[220] VideoRoPE: What Makes for Good Video Rotary Position Embedding?

2025년 11월 25일 · 2 분 · long8v · 

[219] GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

2025년 11월 12일 · 4 분 · long8v · 

[218] Qwen2.5-VL Technical Report

2025년 11월 10일 · 3 분 · long8v · 

[217] PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding

2025년 11월 3일 · 3 분 · long8v · 

[216] Emerging Properties in Unified Multimodal Pretraining

2025년 9월 4일 · 3 분 · long8v · 

[215] Group Sequence Policy Optimization

2025년 8월 1일 · 2 분 · long8v · 

[214] Learning to Model the World With Language

2025년 7월 17일 · 3 분 · long8v · 

[213] Skywork-R1V3 Technical Report

2025년 7월 11일 · 3 분 · long8v · 

[211] Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought

2025년 7월 2일 · 2 분 · long8v · 

[212] MiMo-VL Technical Report

2025년 7월 2일 · 2 분 · long8v · 

[210] Weight Ensembling Improves Reasoning in Language Models

2025년 5월 30일 · 2 분 · long8v · 

[209] SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

2025년 5월 21일 · 2 분 · long8v · 

[208] FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models

2025년 3월 27일 · 1 분 · long8v · 

[206] Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

2025년 3월 12일 · 1 분 · long8v · 

[207] MM-EUREKA: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning

2025년 3월 12일 · 2 분 · long8v · 

[205] LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!

2025년 2월 28일 · 2 분 · long8v · 

[204] DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL

2025년 2월 19일 · 2 분 · long8v · 

[203] DeepSeek-V3 Technical Report

2025년 2월 13일 · 2 분 · long8v · 

[201] VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment

2025년 2월 8일 · 2 분 · long8v · 

[200] Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling

2025년 2월 3일 · 2 분 · long8v · 

[199] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

2025년 1월 24일 · 2 분 · long8v · 

[197] Free Process Rewards without Process Labels

2025년 1월 20일 · 1 분 · long8v · 

[196] Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations

2025년 1월 17일 · 2 분 · long8v · 

[195] STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning

2025년 1월 9일 · 1 분 · long8v · 

[194] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

2025년 1월 3일 · 4 분 · long8v · 

[193] Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective

2024년 12월 30일 · 3 분 · long8v · 

[191] Critique-out-Loud Reward Models

2024년 12월 17일 · 2 분 · long8v · 

[190] Solving math word problems with process and outcome-based feedback

2024년 12월 16일 · 3 분 · long8v · 

[189] Training Verifiers to Solve Math Word Problems

2024년 12월 9일 · 1 분 · long8v · 

read torch titan

2024년 12월 4일 · 0 분 · long8v · 

[188] LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

2024년 12월 2일 · 1 분 · long8v · 

[187] Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization

2024년 11월 21일 · 2 분 · long8v · 

[186] The Llama 3 Herd of Models

2024년 11월 15일 · 6 분 · long8v · 

[185] LLaVA-OneVision: Easy Visual Task Transfer

2024년 11월 12일 · 1 분 · long8v · 

[184] Improve Vision Language Model Chain-of-thought Reasoning

2024년 10월 29일 · 2 분 · long8v · 

[183] MultiMath: Bridging Visual and Mathematical Reasoning for Large Language Models

2024년 10월 24일 · 2 분 · long8v · 

[182] Calibrated Self-Rewarding Vision Language Models

2024년 10월 10일 · 1 분 · long8v · 

[181] Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs

2024년 10월 7일 · 2 분 · long8v · 

[180] Phantom of Latent for Large Language and Vision Models

2024년 9월 30일 · 1 분 · long8v · 

[179] Aligning Large Multimodal Models with Factually Augmented RLHF

2024년 9월 25일 · 1 분 · long8v · 

[178] RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness

2024년 9월 23일 · 2 분 · long8v · 

[177] Fine-grained Image Captioning with CLIP Reward

2024년 9월 6일 · 2 분 · long8v · 

[176] Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive

2024년 9월 5일 · 2 분 · long8v · 

[175] Dense Reward for Free in Reinforcement Learning from Human Feedback

2024년 9월 4일 · 2 분 · long8v · 

[174] Evaluations for Object Hallucinations

2024년 9월 2일 · 2 분 · long8v · 

[171] CLIP-DPO: Vision-Language Models as a Source of Preference for Fixing Hallucinations in LVLMs

2024년 8월 30일 · 2 분 · long8v · 

[172] RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback

2024년 8월 30일 · 2 분 · long8v · 

[173] Detecting and Preventing Hallucinations in Large Vision Language Models

2024년 8월 30일 · 2 분 · long8v · 

[170] Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback

2024년 8월 27일 · 2 분 · long8v · 

[169] Direct Preference Optimization: Your Language Model is Secretly a Reward Model

2024년 8월 26일 · 1 분 · long8v · 

[168] Proximal Policy Optimization Algorithms

2024년 8월 21일 · 2 분 · long8v · 

[167] Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image Generation

2024년 7월 24일 · 2 분 · long8v · 

[166] Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

2024년 7월 23일 · 2 분 · long8v · 

[165] Rich Human Feedback for Text-to-Image Generation

2024년 7월 19일 · 2 분 · long8v · 

[163] What You See is What You Read? Improving Text-Image Alignment Evaluation

2024년 7월 18일 · 1 분 · long8v · 

[164] TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering

2024년 7월 18일 · 1 분 · long8v · 

[162] CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention

2024년 7월 11일 · 1 분 · long8v · 

[161] MM-SHAP: A Performance-agnostic Metric for Measuring Multimodal Contributions in Vision and Language Models & Tasks

2024년 7월 9일 · 1 분 · long8v · 

[160] ALOHa: A New Measure for Hallucination in Captioning Models

2024년 6월 15일 · 2 분 · long8v · 

[159] Long-CLIP: Unlocking the Long-Text Capability of CLIP

2024년 5월 10일 · 1 분 · long8v · 

[158] A Mathematical Framework for Transformer Circuits

2024년 5월 9일 · 3 분 · long8v · 

feat: add text span

2024년 5월 7일 · 1 분 · long8v · 

[156] Interpreting CLIP's Image Representation via Text-Based Decomposition

2024년 5월 6일 · 2 분 · long8v · 

[157] LeGrad: An Explainability Method for Vision Transformers via Feature Formation Sensitivity

2024년 5월 6일 · 2 분 · long8v · 

feat: add LeGrad

2024년 5월 6일 · 1 분 · long8v · 

[155] Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings

2024년 5월 3일 · 1 분 · long8v · 

feat: llava next hf implementation

2024년 4월 23일 · 1 분 · long8v · 

[154] Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment

2024년 4월 3일 · 2 분 · long8v · 

[153] Contrastive Explanations for Model Interpretability

2024년 4월 1일 · 2 분 · long8v · 

[152] Sigmoid Loss for Language Image Pre-Training

2024년 3월 12일 · 2 분 · long8v · 

[151] FOIL it! Find One mismatch between Image and Language caption

2024년 3월 3일 · 2 분 · long8v · 

[150] Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization

2024년 2월 13일 · 2 분 · long8v · 

[149] Noise-aware Learning from Web-crawled Image-Text Data for Image Captioning

2024년 2월 12일 · 1 분 · long8v · 

[148] I Can't Believe There's No Images! Learning Visual Tasks Using only Language Supervision

2024년 2월 11일 · 2 분 · long8v · 

[147] Generic Attention-model Explainability for Interpreting Bi-Modal and Encoder-Decoder Transformers

2024년 2월 7일 · 2 분 · long8v · 

[146] Transformer Interpretability Beyond Attention Visualization

2024년 2월 6일 · 3 분 · long8v · 

[145] CLIPScore: A Reference-free Evaluation Metric for Image Captioning

2024년 2월 5일 · 2 분 · long8v · 

[144] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

2023년 12월 26일 · 2 분 · long8v · 

[143] Honeybee: Locality-enhanced Projector for Multimodal LLM

2023년 12월 22일 · 3 분 · long8v · 

[142] Trust Region Policy Optimization

2023년 12월 17일 · 1 분 · long8v · 

[141] Alpha-CLIP: A CLIP Model Focusing on Wherever You Want

2023년 12월 15일 · 2 분 · long8v · 

[140] Improved Baselines with Visual Instruction Tuning

2023년 12월 12일 · 2 분 · long8v · 

[139] Davidsonian Scene Graph: Improving Reliability in Fine-Grained Evaluation for Text-to-Image Generation

2023년 12월 11일 · 2 분 · long8v · 

[138] ShareGPT4V: Improving Large Multi-Modal Models with Better Captions

2023년 12월 8일 · 2 분 · long8v · 

[137] mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

2023년 12월 5일 · 2 분 · long8v · 

[136] Visually-Situated Natural Language Understanding with Contrastive Reading Model and Frozen Large Language Models

2023년 11월 28일 · 2 분 · long8v · 

[135] Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved with Text

2023년 11월 23일 · 2 분 · long8v · 

[134] Asynchronous Methods for Deep Reinforcement Learning

2023년 10월 18일 · 3 분 · long8v · 

[133] DataComp: In search of the next generation of multimodal datasets

2023년 10월 5일 · 2 분 · long8v · 

[132] Hyperbolic Image-Text Representations

2023년 9월 26일 · 2 분 · long8v · 

[131] Re-labeling ImageNet: from Single to Multi-Labels, from Global to Localized Labels

2023년 9월 13일 · 2 분 · long8v · 

[129] Grounding Language Models to Images for Multimodal Inputs and Outputs

2023년 9월 4일 · 1 분 · long8v · 

[128] Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding

2023년 8월 21일 · 3 분 · long8v · 

[127] Linearly Mapping from Image to Text Space

2023년 8월 17일 · 2 분 · long8v · 

[126] ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

2023년 8월 9일 · 1 분 · long8v · 

[125] RILS: Masked Visual Reconstruction in Language Semantic Space

2023년 8월 2일 · 2 분 · long8v · 

feat: add sparse rcnn

2023년 7월 24일 · 1 분 · long8v · 

[124] LiT: Zero-Shot Transfer with Locked-image text Tuning

2023년 7월 6일 · 3 분 · long8v · 

[122] Neural Architecture Search without Training

2023년 6월 28일 · 2 분 · long8v · 

[121] Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities

2023년 6월 23일 · 3 분 · long8v · 

feat: add open-clip

2023년 6월 21일 · 1 분 · long8v · 

[120] Large-scale Bilingual Language-Image Contrastive Learning

2023년 6월 19일 · 3 분 · long8v · 

[118] PaLI-X: On Scaling up a Multilingual Vision and Language Model

2023년 6월 8일 · 3 분 · long8v · 

[117] Multimodal Chain-of-Thought Reasoning in Language Models

2023년 6월 7일 · 2 분 · long8v · 

[116] Data Distributional Properties Drive Emergent In-Context Learning in Transformers

2023년 5월 22일 · 2 분 · long8v · 

[115] ImageBind: One Embedding Space To Bind Them All

2023년 5월 16일 · 1 분 · long8v · 

[114] MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks

2023년 5월 9일 · 2 분 · long8v · 

[113] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

2023년 4월 27일 · 3 분 · long8v · 

[112] RoFormer: Enhanced Transformer with Rotary Position Embedding

2023년 4월 26일 · 1 분 · long8v · 

[111] Perceiver IO: A General Architecture for Structured Inputs & Outputs

2023년 4월 24일 · 2 분 · long8v · 

[110] Understanding the Role of Self Attention for Efficient Speech Recognition

2023년 4월 17일 · 2 분 · long8v · 

[109] 🦩 Flamingo: a Visual Language Model for Few-Shot Learning

2023년 4월 10일 · 3 분 · long8v · 

[108] Unsupervised Vision-Language Parsing: Seamlessly Bridging Visual Scene Graphs with Language Structures via Dependency Relationships

2023년 4월 4일 · 3 분 · long8v · 

[107] Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

2023년 3월 30일 · 2 분 · long8v · 

[106] Prefix-Tuning: Optimizing Continuous Prompts for Generation

2023년 3월 28일 · 1 분 · long8v · 

[103] Deep Sets

2023년 3월 20일 · 3 분 · long8v · 

[102] Attention Augmented Convolutional Networks

2023년 2월 16일 · 1 분 · long8v · 

[101] Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

2023년 1월 31일 · 2 분 · long8v · 

[100] An Overview of Multi-Task Learning in Deep Neural Networks

2023년 1월 26일 · 1 분 · long8v · 

[99] LinkNet: Relational Embedding for Scene Graph

2023년 1월 18일 · 1 분 · long8v · 

[98] Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection

2023년 1월 17일 · 1 분 · long8v · 

[95] Pixels to Graphs by Associative Embedding

2023년 1월 4일 · 2 분 · long8v · 

[93] Mining the Benefits of Two-stage and One-stage HOI Detection

2022년 12월 29일 · 1 분 · long8v · 

[91] Deep Residual Learning for Image Recognition

2022년 12월 25일 · 2 분 · long8v · 

[90] Neural Collaborative Graph Machines for Table Structure Recognition

2022년 12월 22일 · 1 분 · long8v · 

[89] Relational Attention: Generalizing Transformers for Graph-Structured Tasks

2022년 12월 15일 · 2 분 · long8v · 

[87] Bipartite Graph Network with Adaptive Message Passing for Unbiased Scene Graph Generation

2022년 12월 8일 · 2 분 · long8v · 

[86] Graph R-CNN for Scene Graph Generation

2022년 12월 6일 · 2 분 · long8v · 

[78] Localization Uncertainty Estimation for Anchor-Free Object Detection

2022년 11월 10일 · 1 분 · long8v · 

[77] Interpretable Image Classification with Differentiable Prototype Assignment

2022년 11월 9일 · 2 분 · long8v · 

[75] SESS: Saliency Enhancing with Scaling and Sliding

2022년 11월 8일 · 2 분 · long8v · 

[76] Long-tail Detection with Effective Class-Margins

2022년 11월 8일 · 2 분 · long8v · 

[74] “This is my unicorn, Fluffy”: Personalizing frozen vision-language representations

2022년 11월 4일 · 2 분 · long8v · 

[71] Large Models are Parsimonious Learners: Activation Sparsity in Trained Transformers

2022년 10월 17일 · 1 분 · long8v · 

[70] SSD: Single Shot MultiBox Detector

2022년 10월 12일 · 1 분 · long8v · 

[68] Iterative Scene Graph Generation

2022년 10월 5일 · 2 분 · long8v · 

[65] Margin Calibration for Long-Tailed Visual Recognition

2022년 9월 19일 · 1 분 · long8v · 

[63] Masked Autoencoders Are Scalable Vision Learners

2022년 9월 7일 · 1 분 · long8v · 

[62] What to Hide from Your Students: Attention-Guided Masked Image Modeling

2022년 9월 6일 · 1 분 · long8v · 

[61] Generative Modeling by Estimating Gradients of the Data Distribution

2022년 9월 3일 · 1 분 · long8v · 

[60] Efficient Sparsely Activated Transformers

2022년 9월 2일 · 1 분 · long8v · 

[58] MetaFormer Is Actually What You Need for Vision

2022년 8월 31일 · 1 분 · long8v · 

[57] Learning Transferable Architectures for Scalable Image Recognition

2022년 8월 30일 · 1 분 · long8v · 

[56] NICE: Non-linear Independent Components Estimation

2022년 8월 27일 · 1 분 · long8v · 

[55] Position Prediction as an Effective Pretraining Strategy

2022년 8월 26일 · 1 분 · long8v · 

[54] Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language Models

2022년 8월 25일 · 2 분 · long8v · 

[53] InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets

2022년 8월 20일 · 2 분 · long8v · 

[51] Structured Sparse R-CNN for Direct Scene Graph Generation

2022년 8월 19일 · 2 분 · long8v · 

[52] Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

2022년 8월 19일 · 2 분 · long8v · 

[49] Sparse Graph Attention Networks

2022년 8월 10일 · 2 분 · long8v · 

[48] SAC: Accelerating and Structuring Self-Attention via Sparse Adaptive Connection

2022년 8월 9일 · 1 분 · long8v · 

[47] Recovering the Unbiased Scene Graphs from the Biased Ones

2022년 8월 5일 · 1 분 · long8v · 

[45] BGT-Net: Bidirectional GRU Transformer Network for Scene Graph Generation

2022년 8월 3일 · 1 분 · long8v · 

[46] ReFormer: The Relational Transformer for Image Captioning

2022년 8월 3일 · 2 분 · long8v · 

[44] Context-Aware Scene Graph Generation With Seq2Seq Transformers

2022년 8월 2일 · 2 분 · long8v · 

[41] Panoptic Scene Graph Generation

2022년 8월 1일 · 1 분 · long8v · 

[43] Relation Transformer Network

2022년 8월 1일 · 3 분 · long8v · 

[40] Neural Discrete Representation Learning

2022년 7월 30일 · 1 분 · long8v · 

[38] Visual Relationship Detection Using Part-and-Sum Transformers with Composite Queries

2022년 7월 22일 · 2 분 · long8v · 

[37] Relationformer: A Unified Framework for Image-to-Graph Generation

2022년 7월 21일 · 2 분 · long8v · 

RelTR code reading

2022년 7월 21일 · 1 분 · long8v · 

[36] SGTR: End-to-end Scene Graph Generation with Transformer

2022년 7월 19일 · 2 분 · long8v · 

[35] RelTR: Relation Transformer for Scene Graph Generation

2022년 7월 18일 · 4 분 · long8v · 

[34] What Regularized Auto-Encoders Learn from the Data Generating Distribution

2022년 7월 16일 · 1 분 · long8v · 

[32] ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

2022년 6월 28일 · 1 분 · long8v · 

[31] GIT: A Generative Image-to-text Transformer for Vision and Language

2022년 6월 26일 · 2 분 · long8v · 

[28] Learning to Compare: Relation Network for Few-Shot Learning

2022년 5월 31일 · 1 분 · long8v · 

[27] Cross-Domain Few-Shot Classification via Learned Feature-Wise Transformation

2022년 5월 23일 · 2 분 · long8v · 

MoEBERT code reading

2022년 5월 23일 · 1 분 · long8v · 

[26] Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts

2022년 5월 13일 · 1 분 · long8v · 

Sparse MoE code reading

2022년 5월 10일 · 1 분 · long8v · 

[25] Intriguing Properties of Vision Transformers

2022년 4월 29일 · 2 분 · long8v · 

[24] DINO: Emerging Properties in Self-Supervised Vision Transformers

2022년 4월 26일 · 4 분 · long8v · 

[23] Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning

2022년 4월 25일 · 2 분 · long8v · 

[22] Transformers without Tears: Improving the Normalization of Self-Attention

2022년 4월 21일 · 2 분 · long8v · 

[19] Multimodal Explanations: Justifying Decisions and Pointing to the Evidence

2022년 4월 6일 · 1 분 · long8v · 

[18] Deep Learning with Differential Privacy

2022년 4월 4일 · 1 분 · long8v · 

[17] Membership Inference Attacks Against Machine Learning Models

2022년 3월 28일 · 1 분 · long8v · 

[16] Counterfactual Memorization in Neural Language Models

2022년 3월 25일 · 3 분 · long8v · 

[15] Quantifying Memorization Across Neural Language Models

2022년 3월 24일 · 3 분 · long8v · 

[14] Longformer: The Long-Document Transformer

2022년 2월 22일 · 2 분 · long8v · 

[9] SimCLR : A Simple Framework for Contrastive Learning of Visual Representations

2022년 1월 25일 · 3 분 · long8v · 

[8] SimVLM: Simple Visual Language Model Pretraining with Weak Supervision

2022년 1월 24일 · 1 분 · long8v · 

[7] SLIP: Self-supervision meets Language-Image Pre-training

2022년 1월 20일 · 1 분 · long8v · 

[6] Crossing the Format Boundary of Text and Boxes: Towards Unified Vision-Language Modeling

2022년 1월 18일 · 1 분 · long8v · 

[5] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

2022년 1월 13일 · 1 분 · long8v · 

[4] Conditional Positional Encodings for Vision Transformers

2022년 1월 12일 · 1 분 · long8v · 

[3] Twins: Revisiting the Design of Spatial Attention in Vision Transformers

2022년 1월 10일 · 1 분 · long8v · 

[2] ELSA: Enhanced Local Self-Attention for Vision Transformer

2022년 1월 7일 · 1 분 · long8v · 

[1] Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet

2022년 1월 5일 · 1 분 · long8v ·