NeurIPS | 🍎 Paper Today I Read 🦔

[182] Calibrated Self-Rewarding Vision Language Models

NeurIPS 25min RL MLLM 2024Q2

[167] Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image Generation

NeurIPS 2023Q4 generation

[163] What You See is What You Read? Improving Text-Image Alignment Evaluation

google NeurIPS 2023Q2 evaluation

[135] Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved with Text

multimodal dataset NeurIPS 2023Q2

[119] Visual Instruction Tuning

multimodal NeurIPS 2023Q2

[116] Data Distributional Properties Drive Emergent In-Context Learning in Transformers

DeepMind NeurIPS 2022Q2

[103] Deep Sets

[99] LinkNet: Relational Embedding for Scene Graph

NeurIPS 2017 SGG

[98] Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection

NeurIPS object detection 2022Q3 CLIP

[97] Contrastive Language-Image Pre-Training with Knowledge Graph

multimodal NeurIPS graph 2022Q4 CLIP

[96] Vision GNN: An Image is Worth Graph of Nodes

backbone 2022Q1 NeurIPS graph

[95] Pixels to Graphs by Associative Embedding

NeurIPS 2017 SGG one-stage

[94] Recipe for a General, Powerful, Scalable Graph Transformer

long NeurIPS graph 25min transformer

[93] Mining the Benefits of Two-stage and One-stage HOI Detection

2021Q2 NeurIPS 25min HOI

[48] SAC: Accelerating and Structuring Self-Attention via Sparse Adaptive Connection

2020Q1 long NeurIPS graph 25min

[25] Intriguing Properties of Vision Transformers

ViT WIP 2020Q2 NeurIPS