2022Q2 | 🍎 Paper Today I Read 🦔

[177] Fine-grained Image Captioning with CLIP Reward

2022Q2 25min RL NAACL

[116] Data Distributional Properties Drive Emergent In-Context Learning in Transformers

DeepMind NeurIPS 2022Q2

[73] Simple Open-Vocabulary Object Detection with Vision Transformers

google object detection 2022Q2 25min ECCV OV

[66] Pointly-Supervised Instance Segmentation

2022Q2 25min ECCV annotation segmentation

[55] Position Prediction as an Effective Pretraining Strategy

ViT PE 2022Q2 25min apple

[31] GIT: A Generative Image-to-text Transformer for Vision and Language

multimodal microsoft 2022Q2

[30] CoCa: Contrastive Captioners are Image-Text Foundation Models

multimodal backbone google 2022Q2