[156] Interpreting CLIP's Image Representation via Text-Based Decomposition

a.k.a TextSpan paper , code

TL;DR

I read this because.. : CLIP spurious cues로 검색하다가 나옴
task : CLIP ViT의 layer, head의 텍스트 표현 뽑기
idea : human + GPT로 3948개의 일반적인 표현 문장을 만든 뒤에 이미지 표현과의 내적에서 variance가장 높은 row를 고른 뒤 이를 projection에 추가하는 방식
input/output : {image, model} -> text explanation of ViT layer and heads
architecture : ViT-B-16, ViT-L-14, ViT-H-14
baseline : LRP, Partial-LRP, rollout, raw attention, GradCAM, Chefer2021
data : ImageNet(mean ablation), Waterbirds dataset(reducing spurious cues), ImageNet-Segmentation(zs-segmentation)
evaluation : accuracy(imagenet), worst-group accuracy(waterbird), pixel accuracy/mIoU/mAP (zs-segmenatation)
result : 마지막 4개의 MSA layer만 최종 예측에 영향을 주고 다른 레이어들은 영향을 별로 안 줌, qualitative하게 매우 재밌는 결과, zs-segmentation에서 sota
contribution : CLIP의 각 표현을 text로 설명 가능하게 알고리즘 제안.
etc. :

Multimodal neurons in artificial neural networks https://openai.com/index/multimodal-neurons
- CLIP의 레이어, 헤드 별로 학습된 표현이 매우 해석 가능하다는 논문
Disentangling visual and written concepts in CLIP
- 위의 방법론을 활용해서 이미지 표현에 글자를 쓰고 지우고 하는 논문

last 4 layer의 MSA만 성능에 영향을 주고 MLP나 그전의 MSA 레이어들은 mean ablate를 해도 성능에 큰 영향이 없었다.

MSA를 위와 같이 표현할 수 있음 $\alpha$는 attention score

여기에 projection $P$ 까지 포함해서 표현하면 위와 같은 식이 됨. 즉 레이어, head, patch 별로 projection과 attention 연산 $c_{i, j, h}$를 summation하여 각 레이어, 헤드 등의 표현을 구할 수 있음

복잡해 보이는데 별거 없음

layer, head 별 attention output $C\in\mathbb{R}${K\times d’}$와 text representation $R\in\mathbb{R}^{M\times d’}$와 행렬 곱 한다음에 가장 분산을 높게 하는 표현 j를 찾은 뒤 이 $\tau$를 projection에 추가함. 그리고 이 표현을 C와 R에 업데이트해주어서 이 표현이 다음 표현과 orthogonal 하게 표현을 바꿔줌 (PCA와 비슷한 느낌)

이렇게 나온 layer / head 별 표현들