TL;DR
- I read this because.. : aka noc. ๋ญ๊ฐ CLIP score์ ๋ํด ๋ถ์์ ์ ํ์ ๊ฒ ๊ฐ์์ ์ฝ์.
- task : captioning with noisy image-text label
- problem : COCO, Visual Genome ๊ฐ์ ๋ฐ์ดํฐ๋ scalableํ์ง ์์. ๊ทธ๋ ๋ค๊ณ web-crawled pair๋ฅผ ์ฐ์๋ noisyํ ์ ์๊ณ ์ด๊ฑธ CLIP score๋ก filtering ํ์๋ ๋ ๋ฐ์ดํฐ์ ์๋น์๊ฐ ์ฌ๋ผ์ง.
- idea : CLIP score๋ฅผ binning ํ ๋ค ์๋ฒ ๋ฉํ์ฌ captioningํ ๋ ์ ๊ณตํ๊ฒ ํ๊ณ inference ๋จ๊ณ์์๋ ๊ฐ์ฅ ์ align ๋ score๋ฅผ ์ฃผ๊ณ ์ถ๋ก ํ๊ฒ ํจ
- input/output : image, clip score of {image, text} pair -> text
- architecture : CLIP ViT-L/14 + 6-layer transformer(94.5M)
- objective : cross-entropy loss
- baseline : no filtering, filtering(clip score 0.3), loss reweighting(loss์ clip score๋ฅผ ๊ณฑํด์ค), ZeroCap, Socratic Model, DeCAP
- data : CC3M (noisyํ ์ถ์ ์ํ๋ ๊ตฌ๋.!), ablation์ผ๋ก COYO๋ ํด๋ด
- evaluation : COCO, nocaps์ ๋ํด BLEU, METEOR, CIDEr, SPICE, CLIPScore // self-retrieval R@1(ํน์ ์ด๋ฏธ์ง๋ก ์์ฑํ caption์ผ๋ก retrieval ํ์ ๋ ๊ทธ ์ด๋ฏธ์ง๊ฐ ๋์ค๋์ง)
- result : BLEU ๋นผ๊ณ sota
- contribution : ๊ฐ๋จํ๊ณ ์ง๊ด์ ์~
- etc. : ์ํ๋ ๊ฑด ๋ชป ์ป์์ง๋ง ์ฌ๋ฐ๊ฒ ์ฝ์๋ค~ ๊ฐ์ฅ ๋น์ทํ๊ฑด BLIP์ด๋ผ๋๋ฐ ์๊ฐํด๋ณด๋๊น ๊ทธ๋ผ.. BLIP ์ฐธ ์ ๊ตฌ์ ์ธ ์ฐ๊ตฌ์ธ๋ฏ
Details
- motivation
architecture
results
ablations
qualitative