[162] CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention

TL;DR

I read this because.. : AAAI CLIP
task : zs classification
problem : 학습없이 CLIP의 zs classification 능력을 높이고 싶음
idea : 학습 없이 중간에 image / text encoder의 feature들을 교환하자
input/output : {image, text} -> score
architecture : CLIP ResNet variant
objective : 학습 없이 변경 or few-shot finetune한 버전도 있음
baseline : CoOp, CLIP linear probing, CLIP adaptor
data : ImageNet, Caltech101, OxfordPets, StanfordCars, Flower102, … (CLIP zs)
evaluation : zs, few-shot accuracy
result : 학습 전혀 없이 더 높은 성능!
contribution : fine-grained 하게 더 잘 하겠다고 중간 레이어부터 SA를 넣는다던지, 마지막에서 모든 seq을 본다던지 하는 연구들이 많았는데 이 연구는 그렇게 커 보이지 않는 연산으로 성능을 높인게 좋음
etc. :