Backbone | 🍎 Paper Today I Read 🦔

[96] Vision GNN: An Image is Worth Graph of Nodes

backbone 2022Q1 NeurIPS graph

[59] MLP-Mixer: An all-MLP Architecture for Vision

backbone 2021Q2 google 25min

[58] MetaFormer Is Actually What You Need for Vision

2021Q4 backbone 25min

[30] CoCa: Contrastive Captioners are Image-Text Foundation Models

multimodal backbone google 2022Q2

[6] Crossing the Format Boundary of Text and Boxes: Towards Unified Vision-Language Modeling

multimodal 2021Q4 backbone multitask

[5] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

ViT backbone 2021Q1 re-read

[3] Twins: Revisiting the Design of Spatial Attention in Vision Transformers

ViT backbone 2021Q1

[1] Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet

2021Q4 ViT backbone