TL;DR
- I read this because.. : CLIP spurious cues๋ก ๊ฒ์ํ๋ค๊ฐ ๋์ด
- task : CLIP ViT์ layer, head์ ํ ์คํธ ํํ ๋ฝ๊ธฐ
- idea : human + GPT๋ก 3948๊ฐ์ ์ผ๋ฐ์ ์ธ ํํ ๋ฌธ์ฅ์ ๋ง๋ ๋ค์ ์ด๋ฏธ์ง ํํ๊ณผ์ ๋ด์ ์์ variance๊ฐ์ฅ ๋์ row๋ฅผ ๊ณ ๋ฅธ ๋ค ์ด๋ฅผ projection์ ์ถ๊ฐํ๋ ๋ฐฉ์
- input/output : {image, model} -> text explanation of ViT layer and heads
- architecture : ViT-B-16, ViT-L-14, ViT-H-14
- baseline : LRP, Partial-LRP, rollout, raw attention, GradCAM, Chefer2021
- data : ImageNet(mean ablation), Waterbirds dataset(reducing spurious cues), ImageNet-Segmentation(zs-segmentation)
- evaluation : accuracy(imagenet), worst-group accuracy(waterbird), pixel accuracy/mIoU/mAP (zs-segmenatation)
- result : ๋ง์ง๋ง 4๊ฐ์ MSA layer๋ง ์ต์ข ์์ธก์ ์ํฅ์ ์ฃผ๊ณ ๋ค๋ฅธ ๋ ์ด์ด๋ค์ ์ํฅ์ ๋ณ๋ก ์ ์ค, qualitativeํ๊ฒ ๋งค์ฐ ์ฌ๋ฐ๋ ๊ฒฐ๊ณผ, zs-segmentation์์ sota
- contribution : CLIP์ ๊ฐ ํํ์ text๋ก ์ค๋ช ๊ฐ๋ฅํ๊ฒ ์๊ณ ๋ฆฌ์ฆ ์ ์.
- etc. :
Details
related work
- Multimodal neurons in artificial neural networks https://openai.com/index/multimodal-neurons
- CLIP์ ๋ ์ด์ด, ํค๋ ๋ณ๋ก ํ์ต๋ ํํ์ด ๋งค์ฐ ํด์ ๊ฐ๋ฅํ๋ค๋ ๋ ผ๋ฌธ
- Disentangling visual and written concepts in CLIP
- ์์ ๋ฐฉ๋ฒ๋ก ์ ํ์ฉํด์ ์ด๋ฏธ์ง ํํ์ ๊ธ์๋ฅผ ์ฐ๊ณ ์ง์ฐ๊ณ ํ๋ ๋ ผ๋ฌธ
Preliminary findings
last 4 layer์ MSA๋ง ์ฑ๋ฅ์ ์ํฅ์ ์ฃผ๊ณ MLP๋ ๊ทธ์ ์ MSA ๋ ์ด์ด๋ค์ mean ablate๋ฅผ ํด๋ ์ฑ๋ฅ์ ํฐ ์ํฅ์ด ์์๋ค.
Decomposition to head
MSA๋ฅผ ์์ ๊ฐ์ด ํํํ ์ ์์ $\alpha$๋ attention score
์ฌ๊ธฐ์ projection $P$ ๊น์ง ํฌํจํด์ ํํํ๋ฉด ์์ ๊ฐ์ ์์ด ๋จ. ์ฆ ๋ ์ด์ด, head, patch ๋ณ๋ก projection๊ณผ attention ์ฐ์ฐ $c_{i, j, h}$๋ฅผ summationํ์ฌ ๊ฐ ๋ ์ด์ด, ํค๋ ๋ฑ์ ํํ์ ๊ตฌํ ์ ์์
TextSpan algorithm
๋ณต์กํด ๋ณด์ด๋๋ฐ ๋ณ๊ฑฐ ์์
- layer, head ๋ณ attention output $C\in\mathbb{R}${K\times d’}$์ text representation $R\in\mathbb{R}^{M\times d’}$์ ํ๋ ฌ ๊ณฑ ํ๋ค์์ ๊ฐ์ฅ ๋ถ์ฐ์ ๋๊ฒ ํ๋ ํํ j๋ฅผ ์ฐพ์ ๋ค ์ด $\tau$๋ฅผ projection์ ์ถ๊ฐํจ. ๊ทธ๋ฆฌ๊ณ ์ด ํํ์ C์ R์ ์ ๋ฐ์ดํธํด์ฃผ์ด์ ์ด ํํ์ด ๋ค์ ํํ๊ณผ orthogonal ํ๊ฒ ํํ์ ๋ฐ๊ฟ์ค (PCA์ ๋น์ทํ ๋๋)
์ด๋ ๊ฒ ๋์จ layer / head ๋ณ ํํ๋ค