TL;DR
- I read this because.. : #169 의 전작.
- task : text-to-image alignment evaluation
- problem : text-to-image, image-to-text generation 모델을 평가하는데 두 이미지와 텍스트가 semantic하게 잘 align됐는지 확인하는건 중요하다.
- idea : (zs) LLM + VQA 파이프라인 제안 / (finetune) VNLI model
- input/output : {image, text} -> score
- architecture : VQ^2(spacy, T5-XXL, PALI-17B), VNLI(BLIP2, PALI-17B)
- baseline : CLIP, BLIP, BLIP2, PALI, TIFA
- data : VNLI 학습용으로 44K 데이터셋 Congen으로 만듦
- evaluation : SeeTrue Benchmark(proposed) -> AUC ROC
- result : TIFA보다 좋음
- contribution : VQ^2를 처음 낸듯? TIFA랑 동시대에 나왔나 모르겠음.
Details
Proposed SeeTRUE benchmark
- EditBench : 여기서 만든 것. COCO caption과 drawbench의 캡션을 가지고 SD v1.4와 2.1로 만듦
- COCO-Con : COCO 캡션에 대해서 아래의 ConGen 방법으로 contradiction caption을 만든 것
- PickaPic-Con : PickaPic image에 BLIP2로 캡션 단것
SeeTrue generation
- ConGen : PaLM 모델에게 contradict caption을 만들라고 한 뒤에 NLI model을 사용해서 가장 contradiction score가 높은 걸 채택.
VQ^2
answer를 먼저 만들고 question generation(QG) model을 사용하고 QA model로 필터링. 이후 VQA model에 질답을 한 뒤에 VQA 대답이 answer의 confidence를 평균을 내서 점수 매김
- answer span만드는건 SpaCy의 POS + dependancy parse tree
- QG는 SQuAD1.1에서 학습된 T5-XXL
- QA 모델은 SQuAD2.0과 Natural Question으로 학습된 T5-XXL
- VQA 모델은 PALI-17B
E2E VNLI model
BLIP2, PALI-17B를 ConGen으로 생성한 44K의 데이터로 추가학습
Result
winoground result
human과의 correlation
rerank에도 쓰일 수 있다