
TL;DR
- I read this because.. : NeurIPS 2023, graph
- task : multi-modal training -> image retrieval, VQA, Visual Entailment, Image Classification, GLUE
- problem : CLIP์ ๋๋ฌด ๊ฐ๋จํ๊ฒ “match”, “not matched” ๋ ๋ ์ด๋ธ๋ก๋ง ์์ด์ ํ ์คํธ์ ์ด๋ฏธ์ง๊ฐ์ semanticํ ์ ๋ณด๋ฅผ ๋ด๊ณ ์์ง ์๋ค
- idea : CLIP + knowlege graph. ์ธํ์ด ํ ์คํธ-์ด๋ฏธ์ง ํ์ด๊ฐ ์๋๋ผ {head, relation, tail} triplet์ ๋ฐ์. head๋ Tail์ ์ด๋ฏธ์ง ๋๋ ํ ์คํธ ๋๋ค ๋ ์ ์์.
- architecture : CLIP ์ํคํ ์ณ๋ฅผ ๊ฐ์ ธ๊ฐ๋, pooling์ ํ์ง ์๊ณ concat + Transformer Encoder ์์์ Feature ๋ฝ์
- objective : triplet์์ relation ๋๋ tail(๋๋ Head)์ ์ง์ฐ๊ณ ์์ธกํ๋๋ก ํจ. 1) relation์ ์ง์ธ ๋ ๊ทธ๋ฅ ๋ถ๋ฅ ๋ฌธ์ (E2R loss) 2) tail์ ์ง์ ์ ๋ tail์ ํํ๊ณผ head, relation์ ํํ์ด ๊ฐ์ triplet์ ๊ฐ์ง๊ณ ์์ ๊ฒฝ์ฐ ๊ฐ๊น์์ง๋๋ก(E2E Loss) 3) GNN ๋ถ์ฌ์ tail์ ๋ํ ํํ์ด GNN ํต๊ณผํ ํํ๊ณผ ํธ๋์คํฌ๋จธ์ ๋ํ ํํ์ด ๋น์ทํด์ง๋๋ก(E2G Loss) 4) CLIP teacher์์ KL divergence๋ก KD(KD Loss)
- baseline : CLIP, UNITER, OSCAR, ViLT, … ์ธ ๋ค์
- data : VisualSem(WordNet + ImageNet), Visual Genome, ConceptNet, COCO Caption, CC3M
- result : SOTA.
- contribution : triplet ํํ์ ๋ฐ์ดํฐ๋ฅผ CLIP ํ์ตํ ์ ์๊ฒ formulation.
Details
Motivation

Dataset

์ถ๊ฐ๋ก ์ด๋ฏธ์ง-ํ
์คํธ ํ์ด์ ๊ฒฝ์ฐ is a image of, is a caption of์ ๊ฐ์ด relation์ ์์๋ก ์ง์ ํด์ triplet์ผ๋ก ๋ง๋ฆ
Architecture

- $f$๋ text ๋ image encoder


relation์ ๋ํ ํํ์ ๊ทธ๋ฅ ์ธ๋ฑ์ฑํ๋ฉด ๋จ
Loss
- Triplet based loss mlm ์ฒ๋ผ Triplet ์์์ ์ผ๋ถ๋ฅผ ๊ฐ๋ ค๋๊ณ ๋ง์ถ๋ผ๊ณ ํ ๊ฑฐ์
E2E loss
entity (head or tail)์ ๊ฐ๋ ค๋จ์ ๊ฒฝ์ฐ ์๋์ ๊ฐ์ด loss ์ถ์

๊ฐ๋ฆฌ๋๊ฑด ๊ทธ๋ฅ 0 ๋ฒกํฐ catํ๋ ํ์

tail์ ํํ๊ณผ ํด๋น tail๊ณผ ๊ฐ์ triplet์ ์ํด์๋ Head, relation์ ํํ์ด ๊ฐ๊น์์ง๋๋ก ํ๋ ๊ฒ
E2R loss
relation ๋ง์ถ๋๊ฑด ๊ทธ๋ฅ ๋ถ๋ฅ๋ฌธ์

- Graph-based loss
GNN ํต๊ณผ์ํจ๊ฑฐ๋ transformer ํต๊ณผ์ํจ๊ฑฐ๋ entity ํํ์ด ๋น์ทํด์ง๋๋ก

Continuous Learning
Pretrained CLIP์ ๊ฒฐ๊ณผ์ KL Divergence

Experiement setup

Result
Image Retrieval

VQA, SNLI_VE

snli_ve๋ ์ด๋ฐ ๋ฐ์ดํฐ๋ผ๊ณ ํ๋น
https://github.com/necla-ml/SNLI-VE
GLUE

Image Classification

Ablation

- CLIP + KG๋ณด๋ค ์ฑ๋ฅ์ด ์ข๋น
motivation์์ ๋์จ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋?

VQA์์ ์๊น๊ณผ ๊ฐ์ property๋ฅผ ๊ฐ์ง VQA์ ๋ํด์๋ง ํ๊ฐ๋ฅผ ๋ค์ ํด๋ดค๋๋ฐ ์ฑ๋ฅ์ด ๋ ์ข์๋ค๊ณ ํ๋ค