image

paper

TL;DR

  • task : image classification / object detection / instance segmentation / vision backbone
  • problem : transformer의 token간 information 정보를 mixing하는 attention 모듈을 MLP로 바꿨더니 잘되더라는 선행연구.
  • idea : 위의 self-attention 또는 mlp같은 token mixer를 abstract한 모듈로 두어보자.
  • architecture : token -> token embedding -> “token mixer” -> FFN. 여기서 token mixer를 pooling으로 하는 걸 제안(PoolFormer)
  • objective : 각각의 task에 맞는 loss
  • baseline : RSB-ResNet, ViT, DeiT, PVT, MLP-Micer, ResMLP, Swin-Mixer,…
  • data : ImageNet-1K, COCO, ADE20K
  • result : SOTA 모델들과 비슷한 성능. ImageNet10K top-1 accuracy는 DeiT나 ResMLP보다 더 낮은 파라미터로 더 높은 성능
  • contribution : MLP mixer를 일반적으로 풀었다?

Details

image