image

paper

TL;DR

  • I read this because.. : #169 의 전작.
  • task : text-to-image alignment evaluation
  • problem : text-to-image, image-to-text generation 모델을 평가하는데 두 이미지와 텍스트가 semantic하게 잘 align됐는지 확인하는건 중요하다.
  • idea : (zs) LLM + VQA 파이프라인 제안 / (finetune) VNLI model
  • input/output : {image, text} -> score
  • architecture : VQ^2(spacy, T5-XXL, PALI-17B), VNLI(BLIP2, PALI-17B)
  • baseline : CLIP, BLIP, BLIP2, PALI, TIFA
  • data : VNLI 학습용으로 44K 데이터셋 Congen으로 만듦
  • evaluation : SeeTrue Benchmark(proposed) -> AUC ROC
  • result : TIFA보다 좋음
  • contribution : VQ^2를 처음 낸듯? TIFA랑 동시대에 나왔나 모르겠음.

Details

image

Proposed SeeTRUE benchmark

image
  • EditBench : 여기서 만든 것. COCO caption과 drawbench의 캡션을 가지고 SD v1.4와 2.1로 만듦
  • COCO-Con : COCO 캡션에 대해서 아래의 ConGen 방법으로 contradiction caption을 만든 것
  • PickaPic-Con : PickaPic image에 BLIP2로 캡션 단것

SeeTrue generation

image
  • ConGen : PaLM 모델에게 contradict caption을 만들라고 한 뒤에 NLI model을 사용해서 가장 contradiction score가 높은 걸 채택.

VQ^2

answer를 먼저 만들고 question generation(QG) model을 사용하고 QA model로 필터링. 이후 VQA model에 질답을 한 뒤에 VQA 대답이 answer의 confidence를 평균을 내서 점수 매김 image

  • answer span만드는건 SpaCy의 POS + dependancy parse tree
  • QG는 SQuAD1.1에서 학습된 T5-XXL
  • QA 모델은 SQuAD2.0과 Natural Question으로 학습된 T5-XXL
  • VQA 모델은 PALI-17B

E2E VNLI model

BLIP2, PALI-17B를 ConGen으로 생성한 44K의 데이터로 추가학습

Result

image
  • winoground result image

  • human과의 correlation image

  • rerank에도 쓰일 수 있다 image