[163] What You See is What You Read? Improving Text-Image Alignment Evaluation

2024년 7월 18일 · 1 분 · long8v · | 번역:

En

View original issue on GitHub →

목차

TL;DR
Details
Result

TL;DR

I read this because.. : #169 의 전작.
task : text-to-image alignment evaluation
problem : text-to-image, image-to-text generation 모델을 평가하는데 두 이미지와 텍스트가 semantic하게 잘 align됐는지 확인하는건 중요하다.
idea : (zs) LLM + VQA 파이프라인 제안 / (finetune) VNLI model
input/output : {image, text} -> score
architecture : VQ^2(spacy, T5-XXL, PALI-17B), VNLI(BLIP2, PALI-17B)
baseline : CLIP, BLIP, BLIP2, PALI, TIFA
data : VNLI 학습용으로 44K 데이터셋 Congen으로 만듦
evaluation : SeeTrue Benchmark(proposed) -> AUC ROC
result : TIFA보다 좋음
contribution : VQ^2를 처음 낸듯? TIFA랑 동시대에 나왔나 모르겠음.

Details

Proposed SeeTRUE benchmark

EditBench : 여기서 만든 것. COCO caption과 drawbench의 캡션을 가지고 SD v1.4와 2.1로 만듦
COCO-Con : COCO 캡션에 대해서 아래의 ConGen 방법으로 contradiction caption을 만든 것
PickaPic-Con : PickaPic image에 BLIP2로 캡션 단것

SeeTrue generation

ConGen : PaLM 모델에게 contradict caption을 만들라고 한 뒤에 NLI model을 사용해서 가장 contradiction score가 높은 걸 채택.

VQ^2

answer를 먼저 만들고 question generation(QG) model을 사용하고 QA model로 필터링. 이후 VQA model에 질답을 한 뒤에 VQA 대답이 answer의 confidence를 평균을 내서 점수 매김

answer span만드는건 SpaCy의 POS + dependancy parse tree
QG는 SQuAD1.1에서 학습된 T5-XXL
QA 모델은 SQuAD2.0과 Natural Question으로 학습된 T5-XXL
VQA 모델은 PALI-17B

E2E VNLI model

BLIP2, PALI-17B를 ConGen으로 생성한 44K의 데이터로 추가학습

Result

winoground result
human과의 correlation
rerank에도 쓰일 수 있다