[97] Contrastive Language-Image Pre-Training with Knowledge Graph

TL;DR

I read this because.. : NeurIPS 2023, graph
task : multi-modal training -> image retrieval, VQA, Visual Entailment, Image Classification, GLUE
problem : CLIP은 너무 간단하게 “match”, “not matched” 두 레이블로만 있어서 텍스트와 이미지간의 semantic한 정보를 담고 있지 않다
idea : CLIP + knowlege graph. 인풋이 텍스트-이미지 페어가 아니라 {head, relation, tail} triplet을 받음. head나 Tail은 이미지 또는 텍스트 둘다 될 수 있음.
architecture : CLIP 아키텍쳐를 가져가되, pooling을 하지 않고 concat + Transformer Encoder 쌓아서 Feature 뽑음
objective : triplet에서 relation 또는 tail(또는 Head)을 지우고 예측하도록 함. 1) relation을 지울 땐 그냥 분류 문제(E2R loss) 2) tail을 지웠을 땐 tail의 표현과 head, relation의 표현이 같은 triplet을 가지고 있을 경우 가까워지도록(E2E Loss) 3) GNN 붙여서 tail에 대한 표현이 GNN 통과한 표현과 트랜스포머에 대한 표현이 비슷해지도록(E2G Loss) 4) CLIP teacher와의 KL divergence로 KD(KD Loss)
baseline : CLIP, UNITER, OSCAR, ViLT, … 외 다수
data : VisualSem(WordNet + ImageNet), Visual Genome, ConceptNet, COCO Caption, CC3M
result : SOTA.
contribution : triplet 형태의 데이터를 CLIP 학습할 수 있게 formulation.