[141] Alpha-CLIP: A CLIP Model Focusing on Wherever You Want

2023년 12월 15일 · 2 분 · long8v · 

[140] Improved Baselines with Visual Instruction Tuning

2023년 12월 12일 · 2 분 · long8v · 

[138] ShareGPT4V: Improving Large Multi-Modal Models with Better Captions

2023년 12월 8일 · 2 분 · long8v · 

[137] mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

2023년 12월 5일 · 2 분 · long8v · 

[136] Visually-Situated Natural Language Understanding with Contrastive Reading Model and Frozen Large Language Models

2023년 11월 28일 · 2 분 · long8v · 

[135] Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved with Text

2023년 11월 23일 · 2 분 · long8v · 

[127] Linearly Mapping from Image to Text Space

2023년 8월 17일 · 2 분 · long8v · 

[126] ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

2023년 8월 9일 · 1 분 · long8v · 

[121] Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities

2023년 6월 23일 · 3 분 · long8v · 

[118] PaLI-X: On Scaling up a Multilingual Vision and Language Model

2023년 6월 8일 · 3 분 · long8v · 

[117] Multimodal Chain-of-Thought Reasoning in Language Models

2023년 6월 7일 · 2 분 · long8v · 

[115] ImageBind: One Embedding Space To Bind Them All

2023년 5월 16일 · 1 분 · long8v · 

[114] MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks

2023년 5월 9일 · 2 분 · long8v · 

[113] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

2023년 4월 27일 · 3 분 · long8v · 

[111] Perceiver IO: A General Architecture for Structured Inputs & Outputs

2023년 4월 24일 · 2 분 · long8v · 

[109] 🦩 Flamingo: a Visual Language Model for Few-Shot Learning

2023년 4월 10일 · 3 분 · long8v · 

[32] ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

2022년 6월 28일 · 1 분 · long8v · 

[31] GIT: A Generative Image-to-text Transformer for Vision and Language

2022년 6월 26일 · 2 분 · long8v · 

[19] Multimodal Explanations: Justifying Decisions and Pointing to the Evidence

2022년 4월 6일 · 1 분 · long8v · 

[8] SimVLM: Simple Visual Language Model Pretraining with Weak Supervision

2022년 1월 24일 · 1 분 · long8v · 

[7] SLIP: Self-supervision meets Language-Image Pre-training

2022년 1월 20일 · 1 분 · long8v · 

[6] Crossing the Format Boundary of Text and Boxes: Towards Unified Vision-Language Modeling

2022년 1월 18일 · 1 분 · long8v ·