2021Q2 | 🍎 Paper Today I Read 🦔

[145] CLIPScore: A Reference-free Evaluation Metric for Image Captioning

2021Q2 CLIP emnlp evaluation AI2

[112] RoFormer: Enhanced Transformer with Rotary Position Embedding

[111] Perceiver IO: A General Architecture for Structured Inputs & Outputs

multimodal 2021Q2 ICLR DeepMind MTL

[105] LoRA: Low-Rank Adaptation of Large Language Models

2021Q2 microsoft finetuning LLM

[93] Mining the Benefits of Two-stage and One-stage HOI Detection

2021Q2 NeurIPS 25min HOI

[85] Dynamic Head: Unifying Object Detection Heads with Attentions

2021Q2 CVPR microsoft object detection

[59] MLP-Mixer: An all-MLP Architecture for Vision

backbone 2021Q2 google 25min

[38] Visual Relationship Detection Using Part-and-Sum Transformers with Composite Queries

ICCV 2021Q2 SGG one-stage

[32] ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

multimodal 2021Q2 naver

[24] DINO: Emerging Properties in Self-Supervised Vision Transformers

ViT SSL 2021Q2 facebook

[8] SimVLM: Simple Visual Language Model Pretraining with Weak Supervision

multimodal SSL 2021Q2 zero-shot