TL;DR
- I read this because.. : CLIP reward
- task : captioning with reward
- problem : ๊ธฐ์กด์ metric(cider, ..)๋ค์ ๊ฐ์ฅ salientํ object์ ๋ํด annotate ๋์ด์๋ ์บก์ ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฏ๋ก finegrainedํ ์ ๋ณด๋ฅผ ๋ด์ง ๋ชปํ๋ค
- idea : CLIP-Score๋ฅผ reward๋ก ์ฌ์ฉํ์
- input/output : image -> caption
- architecture : CLIP-Res50 + encoder-decoder transformer(6 layer)
- objective : REINFORCE objective with CLIP-S
- baseline : MLE, CIDEr, CLIP-S, CIDEr-CLIP-S, CLIP-S + Grammar
- data : MS COCO karpathy split
- evaluation : Text-Based(BLEU, CIDEr, METOR, ROUGE-L, BERT-S), Image Based(CLIP-S, RefCLIP-S), T2I retrieval, FineCapEval(proposed), human eval
- result : text based๋ณด๋จ ๋น์ฐํ ์์ข์ง๋ง Image eval์ ๋ํด์๋ ์ฐ์ธํ ์ฑ์ . ํนํ background ๋ฑ ์ธ๋ฐํ ๋ถ๋ถ์ ๋ํ ๋ฒค์น๋งํฌ์ธ FineCapEval์์ MLE, CIDEr based๋ณด๋ค ์ข์ ์ฑ์
- contribution : motivation – ์คํ – ํ๊ฐ๊ฐ ์ ์ด์ด์ง
- etc. : LM์ agent๋ก ๋ณด๋๊ฒ ์๋ ๋ถํฐ ์์๊ตฌ๋,, ์๋ ๋ ผ๋ฌธ๋ ์ข ์ฝ์,,
Details
Preliminary
teacher-forcing ์ด ์๋๋ผ captioning model์ ์ผ์ข
์ agent๋ก ๋ณด๋ ๊ฒ์ ์๋ฅ๋ ์ด ๋
ผ๋ฌธ
Sequence Level Training with Recurrent Neural Networks(ICLR'16, https://arxiv.org/pdf/1511.06732
)
REINFORCE ์๊ณ ๋ฆฌ์ฆ์ผ๋ก BLEU, ROUGE-L ๋ฅผ reward๋ก ํ๋ captioning model
reward๊ฐ variance๊ฐ ๋๋ฌด ์ปค์ ๋ฒ ์ด์ค๋ผ์ธ์ ๋นผ๋๊ฑด ์๋ ๋
ผ๋ฌธ
Self-critical Sequence Training for Image Captioning(CVPR'16 https://arxiv.org/pdf/1612.00563
)
์๋ REINFORCE with baseline์ ๋ํ ์ผ๋ฐ์ ์ธ ์์์ด๊ณ $r(w^s)$๋ ์ํ๋ง decoding, b๋ greedy decodeํ sequence์ reward๋ฅผ ์ฌ์ฉํจ
proposed
- $R(I,c)=CLIP-S(I,c)$
๊ทผ๋ฐ ์ด๋ ๊ฒ ํ ๊ฒฝ์ฐ CLIP text encoder๊ฐ ๋ฌธ๋ฒ์ ๋ํด์๋ ์ฝํด์ ๋ฌธ๋ฒ์ด ํ๋ฆฐ ์บก์ ์ ์์ฑํ๋ ๊ฒฝ์ฐ๊ฐ ์์์. ๊ทธ๋์ ์ผ๋ถ๋ฌ ๋ฌธ๋ฒ์ ํ๋ฆฌ๊ฒํ ๋ฌธ์ฅ์ ์์๋ก ๋ง๋ค์ด์ ๋ฌธ๋ฒ์ด ๋ง๋์ง ์๋ง๋์ง์ ๋ํด head๋ก ๋ถ์ฌ binary๋ก ์์ธกํ๊ฒ ํจ. ๊ทธ๋ฆฌ๊ณ ์์ฑ๋ ์บก์ ์ grammar ์ ์๋ Reward์ ์ถ๊ฐํจ
MLE๋ก 15์ํญ ๋จผ์ ํ์ตํ๊ณ 25 ์ํญ์ ๊ฐ๊ฐ์ Reward๋ก ํ์ต
Result
proposed FineCapEval
Human evaluation result