TL;DR
- I read this because.. : ๋์ mathvista ์ฑ๋ฅ
- task : MLLM
- problem : multi-image, video ๊น์ง ํ๋ฒ์ ์ปค๋ฒํ๋ VLM
- idea : anyres๋ฅผ domain ๋ณ๋ก ์กฐ๊ธ์ฉ ๋ค๋ฅด๊ฒ ์ค์ . ๋ฐ์ดํฐ ์ ๋ชจ์์ ํ์ต!
- input/output : {image or images or video, question} -> answer
- architecture : SigLIP SO400M + 2 layer MLP + Qwen2 {0.5B, 7.6B, 72.7B}
- objective : CE loss
- baseline : QwenVL, Gemini-Pro, Claude 3.5 Sonnet, GPT4V, GPT4o, VILA, Cambrian, InternVL
- data : stage 1.0(์ฌ์ ํ LCS-553K), stage 1.5(3.5M llava recap, UReader, SynDog, chinese ShareGPT4V), stage 2.0(curated Single Image 3.2M and OneVision 1.6M)
- evaluation : AI2D, ChartQA, DocVQA, InfoVQA, Mathverse, Mathvista, MMBench, MME, MMStar, MMMU, MMVet, SeedBench, ScienceQA, ImageDC, RealWorldQA, … Multi-image benchs(5), Video Benchs(9)
- result : single image eval ๊ด๋ จํด์ ๋์ผ ์ค์ผ์ผ์ธ Intern2-VL-8B์ ๋น๊ตํด๋ดค์ ๋ ์ ์๋ฏธํ๊ฒ ๋์๊ฑด MathVista ์ ๋ ์ธ๋ฏ? (63.2), multi-image, video bench์์ ์ค์ํ ์ฑ๋ฅ
- contribution : ๋น ๋ฅด๊ฒ ๋น๋์ค ๋ฒค์น ์ฐ์.
- etc. :
Details
thumbnail
anyres ๋ณ๊ฒฝ์
modality๋ณ anyres ์ ์ฉ๋ฐฉ์
stage 1: ์ฌ์ ํ LCS
stage 1.5
stage 2
stage 1์์๋ anyres๋ฅผ ์ ์ฉ ์ํจ ์ ์ sequence length๊ฐ ๊ธธ์ด์ง๋ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ฃ์