TL;DR
- I read this because.. : very recent VLM model
- task : VLM + LLM
- problem : multi-modal task๋ LLM freeze ์ํค๊ณ ์ฌ์ค์ V+L์ ์ํ๋ ค๊ณ ํ๋ ์๋๊ฐ ๋ง์๋ฐ V/L ๋๋ค ์ํ๊ฒ ํ๊ณ ์ถ๋ค
- idea : ์ ๋ฐ์ ์ผ๋ก BLIP-2 style. ์ด๋ LLM์ modality๋ณ๋ก $W_K$, $W_V$, Norm์ ๋ค๋ฅด๊ฒ ํ๋๊ฒ ๋ค๋ฅธ ์ . ๊ทธ๋ฆฌ๊ณ LLM๋ ๊ฐ์ด tuning.
- input/output : text + image -> text
- architecture : CLIP ViT-L/14 + vision abstractor(=Q-former) + LLaMA-2 w/ Modality-Adaptive Module(MAM)
- objective : ce loss
- baseline : 7B LLM ๊ธฐ๋ฐ์ ๋ชจ๋ธ๋ค. BLIP-2, MiniGPT-4, LLAVA, mPLUG-Owl, InstructBLIP, Otter, Qwen-VL-Chat, LLaVA-1.5
- data : 400M samples from {CC3/12M, COCO, COYO, LAION-en, DataComp} for pretraining / {captioning(TextCaps, COCO), VQA(VQAv2, OKVQA, OCR-VQA, GQA, A-OKVQA), region-aware(RefCOCO, VisualGenome), multi-modal instruction(LLaVa-instruct-150k), text-only instruction data(ShareGPT80-K, SlimOrca)}
- evaluation : caption / vqa / multimodal benchmark(MME, MMBench, MM-Vet, SEED-Bench, Q-Bench) / text benchmark(MMLU, BBH, AGIEval, ARC-c, ARC-e)
- result : 7B model ๋ค ์ค์ ๊ฑฐ์ ๋ค sota. textual instruction๋ ๊ฐ์ด ์ + MAM์ ๋ฐ๋ผ pure text benchmark์์๋ LLaMA2๋ณด๋ค ์ฑ๋ฅ ๊ฐ์
- contribution : VLM ๋ชจ๋ธ์ด text ์ฑ๋ฅ๋ ๊ฐ์ ํ๋๊ฑด ์๋ง ์ฒ์?
- etc. : alibaba ๋ ๋ง์๋ฏ..
Details
Architecture
- Vision Abstractor๋ ๊ฒฐ๊ตญ Q-former
- Modality-Adaptive Module์ ๊ฒฐ๊ตญ input์ modality์ ๋ฐ๋ผ weight / norm์ ๋ค๋ฅด๊ฒ ํ๊ฒ ๋ค๋ ์ . ๊ทผ๋ฐ query weight๋ ๊ฐ์. ์ฌ๊ธฐ์ ์ด๋ฏธ์ง์ ๋ํ W๋ ์๋ก initialize๋์๊ธฐ ๋๋ฌธ์ step-1 pretraining ๋ ํ์ต๋๋ ๋ถ๋ถ.
- ํ์ต ๋จ๊ณ๋ ๋ ๋จ๊ณ์ธ๋ฐ
- Pre-training ๋๋ {CC3/12M, COCO, COYO, LAION-en, DataComp} ์ด๋ฐ ๊ฑธ๋ก vision encoder / q-former / language decoder์ ์ด๊ธฐํ๋ ๋ถ๋ถ์ ํ์ต. BLIP-2 ๋ ๋น๊ต ํ๋ฉด ์ฌ๋ฐ์ ๊ฒ ๊ฐ์๋ฐ, BLIP-2์์๋ CLIP ViT ๊ฐ์ ธ์์ vision encoder freeze. ๊ทธ๋ฆฌ๊ณ ์ฌ์ฉํ๋ ์ด๋ฏธ์ง๋ ๋น์ทํ ์์ค์ ์๋ก ์บก์ ๋๋ ๋ฐ์ดํฐ(CapFilt) ์ฌ๊ธฐ์๋ vision encoder freeze ํ์ง ์๊ณ ์๋์ ์ผ๋ก Noisyํ alt-text๋ฅ๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉ! ์ด๋ป๊ฒ ๋ณด๋ฉด CLIP์์ ๋ณธ ์ข ๋ฅ์ ๋ฐ์ดํฐ๋ฅผ generation ํํ๋ก ๋ค์ ํ์ตํ๋ ๊ผด.
- joint-instruction tuning ๋๋ ๋ค unfreezeํ๊ณ instruction data๋ก๋ง ํ์ต. ์ด๋ text instruction data๋ ๋ฃ์๊ฒ ๋ค๋ฅธ ์ .
๋ ๋จ๊ณ์์ ๋ฌ๋ผ์ง๋๊ฑฐ resolution / LLM seq len
Result
caption, VQA / multi-modal benchmark
pure text benchmark
์ด๊ฑด MAM ๋๋ถ์ด๋ค๋ผ๊ณ ๋งํจ
- instruction data๋ฅผ ๋ modality๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ํจ๊ณผ + MAM์ ํจ๊ณผ
text intstruction data์ฌ์ฉํ๋ฉด mm ์ฑ๋ฅ์ด ์์ข๊ณ mm instruction ์ฌ์ฉํ๋ฉด text๊ฐ ์ ์ข์์ง๋๋ฐ ๋๋ค ์ฌ์ฉํ๋ฉด ๊ฐ์ ์ฌ์ฉํ ๊ฒ๋ณด๋ค ์ฑ๋ฅ์ด ์ฝ๊ฐ ์์ข์ + MAM ์ฐ๋ฉด ๋๋ค ์ข์์ง
vision encoder freeze ํจ๊ณผ
num queries
text VQA๊ฐ ๋ง์ด ํ์
- resolution
textVQA๊ฐ ์๋์ ์ผ๋ก ํจ๊ณผ๊ฐ ์ข๋น ใ ใ
Qualitative Result
MAM ๋๋ถ์ ์ด๊ธฐ ๋ ์ด์ด์ ํ ์คํธ, ํ๋ฐ ๋ ์ด์ด์ ์ด๋ฏธ์ง๋ฅผ ๋ณธ๋ค๊ณ ์ฃผ์ฅ -> ๋ญ๊ฐ ์ข์๊ฑด์ง ์(?)
๊ด๋ จ์๋ ์ด๋ฏธ์ง๋ ํ ์คํธ ์ฃผ์ด์ก์ ๋ MAM ๊ฐ ์์ ๊ฒฝ์ฐ ํ ์คํธ์ ์ง์คํ๋ค๊ณ ์์ ๋๋ค ํ๋ฆฐ ๊ฒ ๊ฐ๊ธดํ๋ฐ.. MAM ์์ผ๋ฉด ์ ์ด๋ 7๊ฐ ๋งํ๊ธด ํจ ใ ใ