TL;DR
- I read this because.. : clip score์ ๊ด์ฌ ์์ด์
- task : evaluation for captioning
- problem : ์ด์ ์ reference ๊ธฐ๋ฐ์ evaluation์ ์น์ํ ๋จ์ด์ bias๋์ด ์๋ ๊ฒฝํฅ์ด ์๋ค
- idea : CLIP score ์จ์ ํ๊ฐํ์!
- input/output : {image, caption, (optionally) references} -> score
- architecture : CLIP ViT-B/32
- baseline : BLEU-1, BLEU-4, ROUGE-L, BERT-score, CIDEr, SPICE
- data : Flickr8K-Expert, Flickr-CF, Pascal-50S, FOIL hallucination detection,
- evaluation : kendall correlation with human judgement(Flickr8K-Expert, Flickr-CF). accuracy(Pascal-50S, FOIL)
- result : human judgement์ ๊ฐ์ฅ ๋์ correlation, ๋์ accuracy, captioning score๋ค๋ก forward selection ํ์ ๋ ํญ์ ์ ํ๋๋ metric๋ค ์ค ํ๋.
- contribution : ๊ฐ๋จํ๊ณ ์ด์ referecne๊ธฐ๋ฐ์ ํ๊ฐ๋ฅผ ๊ฐ์ ํ๋ metric ์ ์! ๋ถ์์ ์์ฒญ massiveํ๊ฒ ํจ.
- etc. : ์์ด๋์ด๊ฐ ๊ฐ๋จํ๋ฉด ์ด์ ๋ ๋ถ์์ ํด์ผ ๋ ผ๋ฌธ์ ๋ผ ์ ์๊ตฌ๋..
Details
motivation
CLIPScore
- c: caption์ CLIP text embedding
- v: image์ CLIP vision embedding
- w is set to 2.5 ๊ทธ๋ฅ ํด์์ ์ฉ์ด์ฑ์ ์ํด ์ถ๊ฐํ rescaling scalar.
- cosine์ ์ด๋ก ์ [-1, 1] scale์ ๊ฐ์ ธ์ผํ์ง๋ง ํ๋ฒ๋ negative๋ฅผ ๋ณธ์ ์ด ์๋ค๊ณ
- score๊ฐ ํญ์ [0, 0.4] ์ฌ์ด์์ ์์นํ๋๊ฑธ๋ก ๋ณด์ฌ์ [0, 1]๋ก ๋ง๋๋ ค๊ณ 2.5๋ฅผ ๊ณฑํจ footnote์ region-leval/token-level correspondence models(maybe FILIP?!)์ด ์ฑ๋ฅ์ด ๋ ์ข์ง ์์๋ค๊ณ ์์ .
RefCLIP-s
referecne caption๋ ํ์ฉํ๋ ๋ฒ์ .
- r: referecnes์ CLIP text embedding
Caption-level likert judgements
- Flickr8K-Expert
5664๊ฐ์ ์ด๋ฏธ์ง์ ๋ํด 17K๊ฐ์ “expert” human์ด caption์ ๋ํ ์ ์๋ฅผ 1์ ๋ถํฐ 4์ ์ผ๋ก ๋งค๊ธด ๊ฒ(1์ unrelated~4์ ์๋ฌ๊ฐ ์์ด ์ ํ๊ฐํ๋ค)
leaderboard ์ค ์ด ๋ฒค์น๋งํฌ 1์๊ฐ ๋ค์ด๋ฒ ๋ ผ๋ฌธ์ด๋น .. Mutual Information Divergence: A Unified Metric for Multimodal Generative Models
Flickr8K-CF 1K์ ์ด๋ฏธ์ง์ ๋ํด 48K์ {image, caption} pair์ ๋ํด binary๋ก judgement๋ฅผ crowd sourcing์ผ๋ก ๋ชจ์ ๋ฐ์ดํฐ์
Composite https://arxiv.org/pdf/1511.03292.pdf MSCOCO, Flickr8K, Flickr30K์ ๋ํ 12K์ human judgement
System-level correlation for MSCOCO
COCO captioner๋ค ๊ฒฐ๊ณผ๋ ๋น๊ตํ๋? ๋ฐ์ดํฐ๊ฐ 12๊ฐ ๋ฐ์ ์๋ค๊ณ ํจ
Sensitivity of CLIP-S to hallucination
์ฌ๋์ ํ๊ฐ๊ฐ “speicificity"๋ณด๋ค “correctness"์ ๋ ๋ง์ ์ํฅ์ ์ค๋ค๊ณ ํจ ์ด๋ฅผ ํ๊ฐํ๊ธฐ ์ํด hallucination ๋ฐ์ดํฐ์ ์ธ FOIL(https://arxiv.org/pdf/1705.01359.pdf )๋ก ํ๊ฐ MSCOCO์์ single noun phrase์์ ๋ช ์ฌ๋ฅผ ๋น์ทํ ๋จ์ด๋ก ์นํ์ ํ๋ ํํ (e.g., switching โmotorcycle” for โbicycle”) 32K์ sentence์ ๋ํด ์นํํ ๋ฌธ์ฅ์ด ๊ทธ๋ ์ง ์์ ๋ฌธ์ฅ๋ณด๋ค ๋ ๋์ score๋ฅผ ์ฃผ์๋์ง๋ก ํ๊ฐ.
Sensitivity of CLIP-S to memorization
ํน์ CLIP ํ์ต ๊ณผ์ ์์ caption์ ๋ฐฐ์ด ๊ฑธ๊น๋ด ์ง์ ๋ฐ์ดํฐ์ ๋ชจ์์ ํจ
Which metrics should I report?
- R2๋ฅผ ๊ธฐ์ค์ผ๋ก 10๊ฐ์ Metric์ ๋ํด forward selection ์งํ.
- BLEU-1, BLEU-4, METEOR, CIDEr, ROUGE-L, SPICE, BERT-S(RoBERTa-F), TIGEr, ViLBERTScore-F, and CLIP-S
์ ์ด๋ ์์ 4๊ฐ๊ฐ์์ ์ ํ๋จ์ ํ์ธ ๋ํ metric๋ผ๋ฆฌ correlate๋์ด ์์ง๋ง redundantํ์ง๋ ์์์ ํ์ธ. SPICE ๊ฐ์ reference ๊ธฐ๋ฐ์ด๋ ๊ฐ์ด ์ฐ๋๊ฒ ๋ ์ข์ ๊ฒ ๊ฐ๋ค๊ณ ํจ