
TL;DR
- I read this because.. : CS330 ๊ฐ์์์ ์ธ๊ธ๋จ. #118 ์์๋ Perceiver ์ฌ์ฉํ๋ค๊ณ ํด์ IO ๋ถ์๊ฑด ๋ญ๊ฐ ๋ค๋ฅด์ง ํ๊ณ ๋ด
- task : image classification, language modeling, optical flow, StarCraft II, …
- problem : ๊ฐ๊ฐ์ ๋๋ฉ์ธ / ํ์คํฌ์ ๋ํ ๋ชจ๋ธ๋ค์ด ๊ฐ๊ฐ ์์. ํ๋์ NN์ผ๋ก ์ฒ๋ฆฌํ๋ฉด ์ธ์์ด ํธํ ํ ๋ฐ
- idea : transformer encoder-decoder ๊ตฌ์กฐ์ธ๋ฐ Perceiver๊ตฌ์กฐ(CA๋ก input modality๊ฐ ๋ค์ด๊ฐ๋ ํํ) + output query๋ฅผ ์ฌ์ฉํ์
- input : (encoder) N x D์ฐจ์์ latent array (decoder) positional embedding or task embedding
- output : (encoder) context vector (decoder) class(for image classification), token id(for MLM), …
- architecture : ๊ทผ๋ฐ encoder๊ฐ Perceiver ํํ(ํ ์คํธ, ์ด๋ฏธ์ง, ๋น๋์ค๋ฑ์ด CA๋ก ๋ค์ด๊ฐ๋) / decoder๋ encoder context vector๋ output query๊ฐ์ CA๋ง ์๋
- objective : ๊ฐ ํ์คํฌ์ ๋ง๋ ๋ชฉํ ํจ์
- baseline : GLUE(BERT), Image Classification(ViT-B), Optical Flow(PWCNet, RAFT), StarCraft(Transformer), AudioSet Classification(Perceiver IO)
- data : English Wikipedia + C4, ImageNet, JFT….
- result : GLUE์์ BERT๋ ๋์ผ FLOPS ๋๋น ๋ ๋์ ์ฑ๋ฅ. Optical flowใ ๋ ๋ฒ ์ด์ค๋ผ์ธ ๋๋น ๋ช๊ฐ Metric ๋๋น ์ข์ ์ฑ๋ฅ. ๋๋จธ์ง๋ ์ฑ๋ฅ์ด ๊ทธ๋ญ์ ๋ญ์ด์ง best๋ ์๋.
- contribution : ์๋นํ ๋ง์ modality์ ๋ํด test. decoder์ task embedding / PE embedding์ ๋ฃ๋ ๋ฐฉ์์ด contribution point๊ฐ ์๋๊ฐ?! ๋๋จธ์ง๋ ๋ง ์๋ก์ด ๋๋์ ์๋๋ฏ
- etc. :
Details
Architecture

Output Queries

- ์ด๋ฏธ์ง ๋ถ๋ฅ ๊ฐ์ classification์ ๊ทธ๋ฅ task embedding
- multi task์ธ ๊ฒฝ์ฐ task embedding ๋ค ์ฌ๋ฌ๊ฐ
- MLM์ ๊ฒฝ์ฐ 2048๊ฐ์ Positional Embedding
์ํคํ ์ณ ์ธ๋ถ

Result
task๋ค

GLUE

introduction์์๋ ๊ทธ๋ ๊ณ UTF-8 byte๋ก ํ ๊ฑธ ๊ฐ์กฐํ๋๋ฐ ์ด๊ฒ์์ฒด๋ contribution์ธ์ง ๋ชจ๋ฅด๊ฒ ๊ณ (BBPE ๊ฐ์ ์ ํ์ฐ๊ตฌ๊ฐ ์์ผ๋?) ์ ๋๋ฌธ์ max_len์ด ๊ธธ์ด์ง๋๋ฐ $$O(n**2)$$์ด ์๋๊ณ ๊ตฌ์กฐ์ linearํ๊ฒ ๋ณต์ก๋๊ฐ ๋์ด๋๋๊ฒ contribution์ธ๋ฏ! ์ด ํ์์๋ ๊ทธ๋ ๊ณ BERT๋ณด๋ค ํ๋ผ๋ฏธํฐ๋ ํจ ํฐ๋ฐ FLOPS๊ฐ ๋ ๋ฎ์. ํ๋ผ๋ฏธํฐ๋ hidden dim์ ์ค์ด๊ณ Depth๋ฅผ ์์ฒญ ๋๋ ธ๋น ์ด๊ฑด ์์ง BERT๋ ๋น๊ตํ์ ๋ max_len์ 512 -> 2048๋ก ๋๋ ธ๊ณ vocab size๋ 256๋ก ์ค์๋ค๊ณ ํจ.
- image classification

ViT-B/16์ ๋น๊ตํ์ ๋ ๋ฑํ ์ข์๋ณด์ด์ง ์๋๋ .. ์ผ๋จ ViT๋ณด๋จ ์์ข์๋ฏ ์ฑ๋ฅ JFT pretraining ํ๊ฒ 86.4์ ์ธ๋ฐ ViT-H/14์ 88.6์ ์ด๋ ์ฐจ์ด๊ฐ ์ข ์์ด๋ณด์ธ๋น(ํ๋ผ๋ฏธํฐ ์๋ 1/3์ด๊ธด ํจ) ๊ฒฐ๊ตญ ์ต์ข ์ ์ธ best ์ฑ๋ฅ์ Conv ๋ถ์ธ ๊ฒ๋ ์ข ๊ทธ๋ผ ๊ทธ ์ธ ์ผ๋จ ์ ์ Perceiver๋ณด๋ค ์ข์์ก๋ค ์ ๋ ๋ณผ ์ ์๋๋ฏ?
AudioSet Classification

StarCraft II
