arxiv
Problem : Vision-Language Pretraining(VLP)๋ฅผ ํ๊ธฐ ์ํด์๋ ์ด๋ฏธ์ง์ bounding box, label์ ๋ฌ์์ผ ํ์ฌ annotation์ ๋น์ฉ์ด ๋ง์ด ๋ค๋ฉฐ zero-shot์ผ๋ก ์ ํ์ด ์ฝ์ง ์์
Solution : ์ด๋ฏธ์ง๋ CoAtNet
์ผ๋ก ์ธ์ฝ๋ฉํ๊ฑธ ํ
์คํธ ์ธ์ฝ๋ฉ๋ ๊ฐ์ prefix๋ก ๋์ด์ encoder-decoder ๊ตฌ์กฐ๋ก ํ์ต. ์ด ๋์ ๋ฐ์ดํฐ๋ ALIGN(noisyํ ์ด๋ฏธ์ง-ํ
์คํธ ํ์ด ๋ฐ์ดํฐ)์ C4(text-only)๋ฅผ ์ฌ์ฉํ์๋ค. finetuning์ image captioning, visual reasoning, VQA, multimodal translation์ ์งํํจ
Result : ๋ค์ํ finetuning task์์ SOTA, zero-shot์์๋ ๊ด์ฐฎ์ ์ฑ๋ฅ
์ด๋ฏธ์ง ์บก์
ํ์คํฌ์์ finetuning์ ์ํด๋(zero-shot), ํ๋ฆฌํธ๋ ์ด๋ ์๋ ๋ชจ๋ธ๊ณผ ์ ์ฌํ ์ฑ์
Vison-Lanugage ๋ชจ๋ธ์ ํ์ตํ ๋์ ํ
์คํธ๋ง ์๋ corpus๋ฅผ ๋ฃ๋๊ฒ์ด ์ ์ฉํ๋ค๋ ๊ฒ์ ํ์ธํจ(decoder์ generation ๋ฅ๋ ฅ์ ๊ฐํ)
etc :
- VQA๋ฅผ ํ ๋์ CIDEr ๋ผ๋ loss๊ฐ ๋ฐ๋ก ์์
- VQA๋ ์ด๋ฏธ์ง๋ฅผ ์ธ์ฝ๋์ ํ ์คํธ๋ฅผ ๋์ฝ๋์ ๋ฃ์ ๋ค ๋์ฝ๋์ ๋ง์ง๋ง ํ ํฐ์ output์ FCN์ ๋ถ์ฌ ํ์ต๋จ
- multimodal translation์ ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ก์ ๋์ ์ค๋ช ์ ๋ํด ์ธ์ด๋ฅผ ๋ฐ๊พธ๋ ํ์คํฌ
- ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ๊ฐ decoder-only ๊ตฌ์กฐ๋ณด๋ค ์ข์๋ค
- PrefixLM์ prefix์ ๋ํด์๋ bi-direction์ผ๋ก ๋ณด๊ณ ์ดํ๋ก๋ LM์ผ๋ก ๋ณด๋ ํน์ฑ(prefixLM์ด๋ ๊ฒ ์ด ๋ ผ๋ฌธ์์ ์ฒ์ ๋์จ๊ฑด๊ฐ?)