
Abstract
ViT์ multi-head self-attention์ ์ด๋ฏธ์ง ํจ์น๋ค์ ์ํ์ค๋ค์ ์ ์ฐํ๊ฒ ์ฐธ์กฐํ๋ค. ์ค์ํ ์ ์ ๊ทธ๋ฌ ์ ์ฐํจ์ด ์์ฐ์ด๋ฏธ์ง์์์ nuisances(๋ฐฉํด๋ฌผ)์ ์ด๋ป๊ฒ ์ ์ด์ฉํ๋์ด๋ค. ์ฐ๋ฆฌ๋ ๋ค์ํ ์คํ๋ค์ ํตํด CNN๊ณผ ๋น๊ตํ์ฌ ViT๋ฅ๋ค์ด ์ด๋ค ํน์ฑ์ ๊ฐ์ง๊ณ ์๋์ง ์คํํด๋ณด์๋ค.
(a) ํธ๋์คํฌ๋จธ๋ ์ฌํ occlusion, perturbation, domain shift์ ๊ฐํ๋ค. ๊ฐ๋ น ์ด๋ฏธ์ง์ 80%๋ฅผ occlusion์ผ๋ก ์ ๊ฑฐํด๋ 60%์ top-1 accuracy๋ฅผ ๋ฌ์ฑํ๋ค.

(b) (a)๋ texture bias๋๋ฌธ์ด ์๋๊ณ , ViT๊ฐ local texture์ ๋ bias ๋์๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ๋ณด์๋ค. shape-based feature๋ฅผ encodeํ๋๋ก ์ ํ์ตํ๋ฉด, ์ด์ ์ฐ๊ตฌ์์ ๋ฐํ์ง์ง ์์์ง๋ง ์ธ๊ฐ์ ๋ฅ๋ ฅ๊ณผ ์ ์ฌํ ์ ๋์ shape recognition ๋ฅ๋ ฅ์ด ์์๋ค.
(c) ViT๋ฅผ shape ํํ์ encodeํ๊ฒ ์ฌ์ฉํ๋ฉด, pixel-level์ supervision ์์ด๋ ์ ํํ semantic segmentation์ ํ ์ ์์๋ค.
(d) ํ๋์ ViT๋ชจ๋ธ์์ Off-the-shelf ํผ์ณ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ๋ค๋ฅธ ํผ์ณ ์์๋ธ์ ๋ง๋๋๋ฐ ์ฌ์ฉ๋ ์ ์์๊ณ , ๋ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ค.
์ฐ๋ฆฌ๋ ViT์ ์ ์ฐํ๊ณ ๋ค์ด๋๋ฏนํ receptive field๊ฐ ViT์ ํจ๊ณผ์ ์ธ feature์์ ๋ฐํ๋ค.
Intriguing Properties of Vision Transformer
Are Vision Transformer Robust to Occlusions
Occlusion Modeling :
์ด๋ฏธ์ง x๊ฐ ์ฃผ์ด์ง๊ณ label y๊ฐ ๋ค์ด์ค๋ฉด ์ด๋ฏธ์ง x๋ N๊ฐ์ patch sequence๋ก ํํ๋๋ค. ์ฐ๋ฆฌ๋ ์ด N๊ฐ์ค์ M๊ฐ์ ์ด๋ฏธ์ง ํจ์น๋ฅผ ๊ณจ๋ผ์ 0์ผ๋ก ๋ฐ๊พธ์ด x’๋ฅผ ๋ง๋๋ ๋ฐฉ๋ฒ(๋
ผ๋ฌธ์์ PatchDrop๋ก ๋ถ๋ฆ)์ ์ ํํ๋ค. ์ด PatchDrop์ ์๋ ์ธ๊ฐ์ ์ข
๋ฅ๋ก ์ ์ฉ์ ํ๋ค.

Robust Performance of Transformer Against Occlusions
- ํ์ต์ ImageNet์ผ๋ก ๋ถ๋ฅ ๋ฌธ์ ๋ฅผ ํ์๊ณ , validation set์ ์ ํ๋๋ก ํ๊ฐํ๋ค.
- Information Loss : ์ ์ฒด ํจ์น์ค ๋๋๋ ํจ์น์ ๋น์จ์ IL๋ก ์ ์ (= M / N)
- ์๋ ๊ทธ๋ํ๋ฅผ ๋ณด๋ฉด CNN๋ณด๋ค ViT๊ฐ ํจ์ฌ ๊ฐ๊ฑดํ๋ค.

ViT Representations are Robust against Information Loss
occlusion์ ๋ํ ๋ชจ๋ธ์ ๋ฐ์์ ๋ ์ ํ์
ํ๊ธฐ ์ํ์ฌ, ๋ค๋ฅธ ๋ ์ด์ด์ ๊ฐ ํค๋๋ค์ ์ดํ
์
์ ์๊ฐํํด๋ณด์๋ค. ์ด๋ฐ์ ๋ ์ด์ด์์๋ ๋ชจ๋ ์์ญ์ attendํ์ง๋ง ๊น์ด์ง ์๋ก ์ด๋ฏธ์ง์์ occlude๋์ง ์์ ์์ญ์ ์ง์คํ๋ ๊ฒ์ ๋ณผ ์ ์์๋ค.

์์์ ๋งํ ๋ ์ด์ด๊ฐ ๊น์ด์ง ๋ ๋ฌ๋ผ์ง๋ ๋ณํ์ ๋ํด token invariance๊ฐ ์๋์ง ํ์ธ ํด๋ณด๊ณ ์ ํ๋ค.
์ฐ๋ฆฌ๋ ์๋ ์ด๋ฏธ์ง์ occlude๋ ์ด๋ฏธ์ง์ ๋ํด feature(๋๋ token)๊ฐ์ correlation coefficient๋ฅผ ๊ณ์ฐํ์๋ค. ResNet50์ ๊ฒฝ์ฐ์, logit ๋ ์ด์ด ์ ์ feature๋ฅผ ์ฌ์ฉํ๊ณ , ViT์ ๊ฒฝ์ฐ ๋ง์ง๋ง transformer block์ class ํ ํฐ์ ๊ฐ์ ธ์๋ค. ResNet์ ๋นํด ViT์ class token์ ๋ ๊ฐ๊ฑดํ๋ค.(=correlation์ด ๋์๋ค) ์ด๋ฌํ ์ฑํฅ์ ๋น๊ต์ ์์ object๋ฅผ ๊ฐ์ง ๋ค๋ฅธ ๋ฐ์ดํฐ์
์์๋ ๋์ผํ๋ค.
