[59] MLP-Mixer: An all-MLP Architecture for Vision

TL;DR

task : image classification
problem : vision backbone without CNN and transformer
idea : ViT의 input 방식을 따라가되, attention이나 convolution 없이 MLP로만 해보자!
architecture : 이미지를 겹치지 않는 패치 단위로 자르고, 하나의 projection으로 C차원으로 보냄. 그러면 S개의 C차원의 matrix $\mathbb{R}^{S\times C}$ 가 생기는데 이를 열 차원에서 하면 “token-mixing MLP”, 행 차원에서 하면 “channel-mixing MLP"이 되게 됨.
objective : CrossEntropy Loss
baseline : BiT-R, Mixer-L, HaloNet
data : ILSVRC2012 ImageNet, CIFAR-10/100, Oxford-IIIT-pets, JFT-30
result : 비슷한 성능, 높은 throughput, FLOPS
contribution : O(n) complexity, simple architecture, MLP revisited!
limitation or 이해 안되는 부분 :