[177] Fine-grained Image Captioning with CLIP Reward

TL;DR

I read this because.. : CLIP reward
task : captioning with reward
problem : 기존의 metric(cider, ..)들은 가장 salient한 object에 대해 annotate 되어있는 캡션을 기반으로 하므로 finegrained한 정보를 담지 못한다
idea : CLIP-Score를 reward로 사용하자
input/output : image -> caption
architecture : CLIP-Res50 + encoder-decoder transformer(6 layer)
objective : REINFORCE objective with CLIP-S
baseline : MLE, CIDEr, CLIP-S, CIDEr-CLIP-S, CLIP-S + Grammar
data : MS COCO karpathy split
evaluation : Text-Based(BLEU, CIDEr, METOR, ROUGE-L, BERT-S), Image Based(CLIP-S, RefCLIP-S), T2I retrieval, FineCapEval(proposed), human eval
result : text based보단 당연히 안좋지만 Image eval에 대해서는 우세한 성적. 특히 background 등 세밀한 부분에 대한 벤치마크인 FineCapEval에서 MLE, CIDEr based보다 좋은 성적
contribution : motivation – 실험 – 평가가 잘 이어짐
etc. : LM을 agent로 보는게 옛날부터 있었구나,, 옛날 논문도 좀 읽자,,

Details

Preliminary

teacher-forcing 이 아니라 captioning model을 일종의 agent로 보는 것의 원류는 이 논문 Sequence Level Training with Recurrent Neural Networks(ICLR'16, https://arxiv.org/pdf/1511.06732 )

REINFORCE 알고리즘으로 BLEU, ROUGE-L 를 reward로 하는 captioning model reward가 variance가 너무 커서 베이스라인을 빼는건 아래 논문 Self-critical Sequence Training for Image Captioning(CVPR'16 https://arxiv.org/pdf/1612.00563 )

위는 REINFORCE with baseline에 대한 일반적인 수식이고 $r(w^s)$는 샘플링 decoding, b는 greedy decode한 sequence의 reward를 사용함

proposed

$R(I,c)=CLIP-S(I,c)$

근데 이렇게 할경우 CLIP text encoder가 문법에 대해서는 약해서 문법이 틀린 캡션을 생성하는 경우가 있었음. 그래서 일부러 문법을 틀리게한 문장을 임의로 만들어서 문법이 맞는지 안맞는지에 대해 head로 붙여 binary로 예측하게 함. 그리고 생성된 캡션의 grammar 점수도 Reward에 추가함

MLE로 15에폭 먼저 학습하고 25 에폭은 각각의 Reward로 학습

Result

proposed FineCapEval

Human evaluation result

TL;DR#

Details#

Preliminary#

proposed#

Result#

TL;DR

Details

Preliminary

proposed

Result