TL;DR
- I read this because.. : AAAI CLIP
- task : zs classification
- problem : ํ์ต์์ด CLIP์ zs classification ๋ฅ๋ ฅ์ ๋์ด๊ณ ์ถ์
- idea : ํ์ต ์์ด ์ค๊ฐ์ image / text encoder์ feature๋ค์ ๊ตํํ์
- input/output : {image, text} -> score
- architecture : CLIP ResNet variant
- objective : ํ์ต ์์ด ๋ณ๊ฒฝ or few-shot finetuneํ ๋ฒ์ ๋ ์์
- baseline : CoOp, CLIP linear probing, CLIP adaptor
- data : ImageNet, Caltech101, OxfordPets, StanfordCars, Flower102, … (CLIP zs)
- evaluation : zs, few-shot accuracy
- result : ํ์ต ์ ํ ์์ด ๋ ๋์ ์ฑ๋ฅ!
- contribution : fine-grained ํ๊ฒ ๋ ์ ํ๊ฒ ๋ค๊ณ ์ค๊ฐ ๋ ์ด์ด๋ถํฐ SA๋ฅผ ๋ฃ๋๋ค๋์ง, ๋ง์ง๋ง์์ ๋ชจ๋ seq์ ๋ณธ๋ค๋์ง ํ๋ ์ฐ๊ตฌ๋ค์ด ๋ง์๋๋ฐ ์ด ์ฐ๊ตฌ๋ ๊ทธ๋ ๊ฒ ์ปค ๋ณด์ด์ง ์๋ ์ฐ์ฐ์ผ๋ก ์ฑ๋ฅ์ ๋์ธ๊ฒ ์ข์
- etc. :
Details
motivation
architecture
projection ํ์ง ์์ feature์ ๋ํด attention์ ํ ๋ค์์ feature์ ๊ณฑํด์ฃผ๋ ํํ
์ต์ข
์ ์ธ ์์ธก์ ์ด๋ ๊ฒ ๋ modality๋ฅผ aggregateํ ๊ฒ์ ๋ํ weighted sum