TL;DR
problem : ์ข์ vision backbone ๋ง๋ค๊ธฐ. ๋ถ๋ฅ ๋ ์ด๋ธ์ ๋ํ ์ด๋ฏธ์ง ํ๋ฆฌํธ๋ ์ด๋, ์ด๋ฏธ์ง-ํ
์คํธ pair๋ฅผ ๋ฐ์ contrastive loss๋ก ํ์ต๋๋ dual-encoder model, image ์ธ์ฝ๋๊ฐ ์๊ณ text decoder๊ฐ cross-attention์ผ๋ก ์ด๋ฏธ์ง ํผ์ณ๋ฅผ ๋ฐ์ classification, VQA๋ฑ์ ํ๋ encoder-decoder model ์ธ๊ฐ๋ฅผ ํตํฉํ์ฌ scratch ๋ถํฐ ํ์ตํ ์ ์๋ ๋ชจ๋ธ์ ๋ง๋ค๊ณ ์ถ๋ค.
solution : ์ด๋ฏธ์ง ํ
์คํธ ํ์ด๊ฐ ์ฃผ์ด์ก์ ๋, ์ด๋ฏธ์ง ์ธ์ฝ๋ ํ
์คํธ ๋์ฝ๋ ๋ฐ๋ก ์ธํ์ ๋ฐ๊ณ ์ด๋ฏธ์ง ์ธ์ฝ๋์์ ๋์จ ๋ง์ง๋ง ํ ํฐ๊ณผ ํ
์คํธ ๋์ฝ๋์ cls-token์ผ๋ก contrastive loss, ํ
์คํธ ๋์ฝ๋ ์์ ์ด๋ฏธ์ง ์ธํ๊ณผ ํฌ๋ก์ค ์ดํ
์
์ด ์๋ multi-model text decoder๋ฅผ ์์ ๋ค captioning loss. ๋ loss์ ํฉ์ผ๋ก ํ๋ฆฌํธ๋ ์ด๋
result : ๋ค์ํ task ์์ SOTA

Details
Architecture

loss
captioning loss

dual encoder contrastive loss

- Attentional Poolers : contrastive loss๋ฅผ ๊ณ์ฐํ ๋, ์ด๋ฏธ์ง์์ ํ๋์ ํ ํฐ๋ง์ ์ฌ์ฉํ์ง๋ง ์ธ์ฝ๋-๋์ฝ๋์ ์บก์ ๋ ํ์คํฌ๋ฅผ ํ ๋๋ ์ ์ฒด ์ด๋ฏธ์ง ํ ํฐ ์ํ์ค๋ฅผ ์ฌ์ฉํ๋ค. ์ด๋ ์๋น์คํ์์ visual recognition task๋ฅผ ํ ๋์๋ ํ๋์ pooled image๊ฐ ๋ ์ฑ๋ฅ์ด ์ข์๊ณ , ๋ฉํฐ๋ชจ๋ฌ์ ํ ๋์๋ region-level feature๋ฅผ ์ฐธ๊ณ ํ๋ฉด ์ข์์ ๋ ๋ง์ ํ ํฐ์ ๋ณด๋ ๊ฒ์ด ์ ๋ฆฌํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด ๋๋ฌธ์ task-specific attentional pooling์ ์ฌ์ฉํ์ฌ downstream task๋ง๋ค ๋ค๋ฅธ visual representation์ ํ ์ ์๊ฒ ํ๋ค. pooler๋ n๊ฐ์ learnable query๋ฅผ ๊ฐ์ง single multi-head attention ๋ ์ด์ด์ด๋ค. (์ด๋ key์ value๋ encoder output) ์ด๋ฅผ ํตํด ๋๊ฐ์ ๋ค๋ฅธ loss์ ๋ํด, ๋ค๋ฅธ ๊ธธ์ด์ ์ฟผ๋ฆฌ๋ฅผ ๊ฐ๊ฒ ํ์ต๋ ์ ์๋ค. ์์ฐ์ค๋ฝ๊ฒ ์ด learnable query๋ task adaptor ์ญํ ๋ ํ๊ฒ ๋๋ค.