TL;DR
- I read this because.. : ์๊ณํ ๋ ผ๋ฌธ ์ฝ๊ธฐ..
- task : MLLM
- problem : chinese๋ ๋๋ multi-lingual MLLM. finegrained task(grounding)๋ ํ์
- idea : training ๋จ๊ณ๋ฅผ ์ธ๊ฐ๋ก ๋๋ ์ ํ์ต.
- input/output : image, text -> text
- architecture : ViT-G/14 + Q-former + Qwen-7B
- objective : CE loss
- baseline : Flamingo, UnifiedIO, Kosmos, BLIP-2, InstrcutBLIP, Shikra, Pix2Struct, …
- data : captioning(LAION-en/zh, Datacomp, COYO, CC, SBU, COCO, in-house data), VQA(GQA, VGQA, VQAv2, DVQA, OCR-VQA, DocVQA, TextVQA, ChartQA, AI2D), Grounding(GRIT, VG, RefCOCO(+, g), OCR(synthDoG, Common Crawl…)), Pure-text (in-house)
- evaluation : benchmarks, instruction-following benchmarks(TouchStone, SEED, MME)
- result : sota
- contribution : multi-lingual lvlm
- etc. : filtering ์ ๋ต์ด ์ค์ํ๊ฑด๊ฐ? text only data๋ ์ผ๋๋ฐ ํ์ต์ด ๋ค ์๋ฃ๋๊ฑธ ์๊ฐ์ ธ์์.. ์๋๊ฐ ๊ทธ๊ฒ ์คํ๋ ค ์ฑ๋ฅ ๋ ์ข์์ง๋๋ฐ ๊ธฐ์ฌํ๋.. ์ฌ๋ฌ๋ชจ๋ก ๋ญ๊ฐ ablation์ด ์์๋ผ์ ์ด๋ ต๊ตฐ
Details
- performance
architecture
256์ด ๊ฐ์ฅ ์ข์๋ค๊ณ ํจ
Inputs / Outputs
๋ณ๋์ instruction์ด ํฌ๊ฒ ์์ฐ์๊ตฐ.
<ref>๋ <box>๊ฐ์ special token์ด ์ฐ์๊ณ ์์ bbox ์ขํ ๊ฐ์๊ฑด ๋ฐ๋ก ์คํ์
ํ ํฐ ์์ผ๋ค๊ณ ํจ
training pipeline
- ๋ฌ๋ผ์ง๋ hparam
resolution up / seq len up
- stage๋ง๋ค ๋ฌ๋ผ์ง๋ ๋ฐ์ดํฐ์
pre-training stage
COYO๊ฐ alt-text๋ฅ ์ค์ ๊ฐ์ฅ ์ด์๋จ์ ๋น์จ์ด ๋์๊ฒ ํฅ๋ฏธ๋กญ๊ตฐ ๋ฑ ์ด๋ฏธ์ง ํ๋ฒ์ฉ๋ง ๋ดค๋ค๊ณ ํจ ใ ใ ์ด filtering rule์ ์์ธํ๊ฒ ์์ ํ์๋๋ฐ appendix์์ ์๋์ ๊ฐ์ด
clip score๋ฅผ ์์ฃผ ๊ฐํ๊ฒ ๋จ๊ฒผ๋ค๊ณ ํ๋น..
Multi-task Pre-training
Supervised Finetuning
์ด๊ฒ๋ ์์ธํ ์๋์ ์๋๋ฐ manual annotation, model generation, ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ concatํด๊ฐ์ง๊ณ multi-turn์ผ๋ก ๋ง๋ค์๋ค๊ณ ํจ (์ค์ํ ๊ฒ ๊ฐ์๋ฐ.. ใ
ใ
)
Result
๋ฒค์น๋งํฌ ์ฑ๋ฅ๋ค์ ์๋ต
instruction following benchmark
Few-shot ability
text only benchmark
Qwen LM์ ํ์ต๋ ์ค๊ฐ ๊ป ์ผ๋๋ฐ ๋ค๋ฅธ ์ด์ ๋ ์๊ณ ๊ทธ๋ฅ ๋์ด ๊ฑฐ์ ๋์์ ๊ฐ๋ฐ์ค์ด์๋ค๊ณ ใ ใ