2023Q1 | 🍎 Paper Today I Read 🦔

[152] Sigmoid Loss for Language Image Pre-Training

25min CLIP 2023Q1

[129] Grounding Language Models to Images for Multimodal Inputs and Outputs

ICML 25min 2023Q1 CMU

[127] Linearly Mapping from Image to Text Space

multimodal ICLR 2023Q1

[125] RILS: Masked Visual Reconstruction in Language Semantic Space

CVPR CLIP 2023Q1

[121] Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities

multimodal CLIP 2023Q1 retrieval

[117] Multimodal Chain-of-Thought Reasoning in Language Models

multimodal 2023Q1

[114] MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks

multimodal google 2023Q1

[113] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

multimodal 2023Q1 salesforce

[107] Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models