
paper
TL;DR#
- task : image classification
- problem : vision backbone without CNN and transformer
- idea : ViT์ input ๋ฐฉ์์ ๋ฐ๋ผ๊ฐ๋, attention์ด๋ convolution ์์ด MLP๋ก๋ง ํด๋ณด์!
- architecture : ์ด๋ฏธ์ง๋ฅผ ๊ฒน์น์ง ์๋ ํจ์น ๋จ์๋ก ์๋ฅด๊ณ , ํ๋์ projection์ผ๋ก C์ฐจ์์ผ๋ก ๋ณด๋. ๊ทธ๋ฌ๋ฉด S๊ฐ์ C์ฐจ์์ matrix $\mathbb{R}^{S\times C}$ ๊ฐ ์๊ธฐ๋๋ฐ ์ด๋ฅผ ์ด ์ฐจ์์์ ํ๋ฉด “token-mixing MLP”, ํ ์ฐจ์์์ ํ๋ฉด “channel-mixing MLP"์ด ๋๊ฒ ๋จ.
- objective : CrossEntropy Loss
- baseline : BiT-R, Mixer-L, HaloNet
- data : ILSVRC2012 ImageNet, CIFAR-10/100, Oxford-IIIT-pets, JFT-30
- result : ๋น์ทํ ์ฑ๋ฅ, ๋์ throughput, FLOPS
- contribution : O(n) complexity, simple architecture, MLP revisited!
- limitation or ์ดํด ์๋๋ ๋ถ๋ถ :
Details#
