
paper
, code
TL;DR#
- task : Vision-and-Language Pretraining(VLP)
- problem : ๊ธฐ์กด VLP์์ CNN backbone, object detector๋ฅผ ํ์์ ์ผ๋ก ์ฌ์ฉํ๊ณ visual encoder๋ฅผ ํค๋นํ๊ฒ ๋ง๋ค์ด์ ์ฑ๋ฅ์ ๋ฝ๊ธด ์ข์ง๋ง ์ค์ application์ ์ ์ฉํ๊ธฐ์ ์ ํฉํ์ง ์๋ค.
- idea : CNN ์์ด ํตํฉ๋ VLP ๋ชจ๋ธ์ ๋ง๋ค์.
- architecture : visual ์๋ฒ ๋ฉ์ ViT์ฒ๋ผ, word embedding์ BERT ๋ฐฉ์์ผ๋ก. ๊ฐ๊ฐ์ ์ธ์ฝ๋์์ ๋์จ ์๋ฒ ๋ฉ์ ๊ฐ์ modal-type ์๋ฒ ๋ฉ๊ณผ ํฉํ๋ค ํ๋์ ํธ๋์คํฌ๋จธ ์ธ์ฝ๋์ ๋ฃ๊ณ ๋์จ output์ผ๋ก ์๋ pretraining task๋ก ํ์ต.
- objective : Image Text Matching(์ด๋ฏธ์ง-ํ
์คํธ ํ์ด์์ ์ด๋ฏธ์ง๋ฅผ 50% ํ๋ฅ ๋ก ๋ค๋ฅธ ์ด๋ฏธ์ง๋ก ๋ฐ๊พธ๊ณ ์๋์ pair๊ฐ ๋ง๋์ง binary๋ก ํ์ต), MLM, whole word masking(ํ ํฐ ๋จ์๊ฐ ์๋๋ผ ์๋ word ๋จ์ด๋ฅผ ๋ง์คํน.
gi, ##raf, ##fe์์ ๊ฐ์ด๋ฐ๋ง ๋ง์คํนํ๋ฉด ๋น์ฅฌ์ผ ์ ๋ณด ์์ด ํ
์คํธ ์ ๋ณด๋ง์ผ๋ก ์์ธก์ด ๊ฐ๋ฅํจ.) - baseline : ViLBERT, UNITER, PixelBERT …
- result : time(ms)๋ฅผ benchmark ๋๋น 4~60๋ฐฐ ๊ฐ์ ํ๋ฉด์ ์ฑ๋ฅ๋ ใฑใ
- contribution : 1) deep visual encoder์์ด ๋ง๋ค์ด runtime / ํจ์จ์ฑ ๊ฐ์ 2) region feature๋ deep convolution์์ด ๋จ์ํ ์ํคํ
์ณ๋ก ๋น์ทํ ์ฑ๋ฅ 3) word masking, image augmentation์ด VLP ์ฑ๋ฅ์ ๊ฐ์ ํจ์ ๋ณด์
- data : (pretraining) MSCOCO, Visual Genome, SBU captions
, Google Conceptual Captions
(downstream)
VQA v2, NLVR2(Natural Language for Visual Reasoning, ๋ ์ด๋ฏธ์ง์ ๋ ์ด๋ฏธ์ง๊ฐ ๊ด๊ณ(triplet)์ด ์ฃผ์ด์ง๊ณ ์ง๋ฌธ์ด ์ฃผ์ด์ก์ ๋ binary classification),
Retrieval MSCOCO, Flickr30k for image-to-text, text-to-image retrieval
Details#
