see llava https://github.com/long8v/PTIR/issues/128#issue-1749571159 here
TL;DR
- I read this because.. : aka LLaVA1.5 / ShareGPT4V์์ LLaVA1.5 ๋ ์ํผ๋ฅผ ๋ฐ๋๋ค๊ณ ํด์ ์ค๊ฒ ๋จ
- task : LVLM
- problem : LLaVA๋ reasoning๋ ๋ฐ์ด๋๊ณ real-world instruction following๋ ์ํ์ง๋ง benchmark์ ๋ํด์๋ ์ฑ๋ฅ์ด ๋จ์ด์ง๋๋ฐ ์ด๋ฅผ ๊ฐ์ ํด๋ณด์
- idea : ์ฌ๋ฌ ๊ฐ์ง scale up / VQA ๊ฐ์ ๋จ๋ต์ ๋ํด์๋ prompt๋ฅผ ์ข ๋ ์ ์ฃผ๋๋ก ํ์!
- input/output : image + question -> answer
- architecture : ViT-L/14(336 resolution) + LLaMA 13B
- objective : ce loss
- baseline : llava, Qwen-VL, Shikra, BLIP-2, IDEFICS, instructBLIP
- data : (alignment) LCS-558K(LAION-CC-SBU with BLIP caption) / (end-to-end finetuning) LLaVA instruction data + VQA(OKVQA, A-OKVQA), OCR(OCRVQA, TextCaps), region-level VQA(Visual Genome, RefCOCO)
- evaluation : GQA, MME, MM-Vet, VQA, GQA, VisWiz, SQA, VQA, POPE, …
- result : VQA๋ฅ๋ฅผ finetuningํ ๋ ๋ฃ์ผ๋ ๊ฐ์ , format prompt๋ฅผ ํ๋ ๊ฐ์ , linear๋์ 2-layer mlp๋ฅผ ๋ฃ์ผ๋ ๊ฐ์ , resolution์ ๋์ด๋ ๊ฐ์ , ShareGPT ๋ฑ ๋ค์ํ ๋ฐ์ดํฐ ๋ฃ์ผ๋ ๊ฐ์ (ShareGPT๋ฅผ ๋ฃ์ด์ multilingual ๋ฅ๋ ฅ๋ ์๊น)
- contribution : ์ ์ ๋ฆฌ์์ค, open data๋ง์ผ๋ก ๊ด๋ชฉํ ๋งํ ์ฑ๋ฅ์ ๋ธ ๊ฒ.
- etc. :
Details
contribution
์ต์ํ์ tuning(1.2M scale์ public data๋ก 8 A100 days๋ก ๋๋๋)์ผ๋ก ์ข์ ์ฑ๋ฅ
Dataset
alignment learning LCS-558K(LAION-CC-SBU with BLIP caption) ์ค๊ฐ์ llava-lightning์ด๋๊ฒ ์์๊ณ ์๋ ด์ ์ข ๋ ๋นจ๋ฆฌ ํ๊ธฐ ์ํ variant์ธ ๋ฏํ๋ค. https://github.com/haotian-liu/LLaVA/issues/86#issuecomment-1533346022 ๋ฅผ ๋ณด๋ฉด CC๋ ๋๋ต์ ์ผ๋ก ์๋์ ๋ง์ท๊ณ much larger concept converage ํด์ ์๋ ด์ ๋ ๋นจ๋ฆฌ ํ๋ค๊ณ ํ๋ค. CC๋ blip caption์ text ํํ๊ฐ ๋ง์ด ๋ค๋ฅผ ๊ฒ ๊ฐ๊ธด ํ๋ฐ.. ใ ใ ์ฝ๊ฐ ๋ฒค์น๋งํฌ๋ฅผ ์ฐ๊ธฐ ์ํ ์ ๋ณด์ด์ง ์๋ trick์ด ์๋์ง? llava 1.5๊ฐ conservation์ ๋ํ ์ฑ๋ฅ์ ์ ์ฐ๊ฒ ์์ฝ๋ค ์๋ง ํจ์ฌ ๋ฎ๊ฒ ๋์ค์ง ์์์๊น?
end-to-end finetuning LLaVA instruction data + VQA(OKVQA, A-OKVQA), OCR(OCRVQA, TextCaps), region-level VQA(Visual Genome, RefCOCO) ๋ชฐ๋๋๋ฐ Visual Genome์ด VQA๊ฐ ์์๊ตฌ๋ญ.. https://paperswithcode.com/dataset/visual-genome
Improved baseline of LLaVA
- LLaVA๊ฐ ๋ฒค์น๋งํฌ์์ ์ฑ๋ฅ์ด ์์ข์๋ ์ด์
VQA๋ ๋จ๋ต์ผ๋ก ํ ๋ ๋จ์ด๋ก ๋๋ด์ผ ํ๋๋ฐ LLaVA๋ ๊ทธ๋ฐ ์์ผ๋ก ํ์ต๋์ง ์์ / ๋ฐ์ดํฐ๋ฅผ ์กฐ๊ธ ๋ด
-> “response formatting format”
VQAv2 ๊ฐ์ ๊ฑธ ๋ฃ์ ๋
Q: {Question} A: {Answer}๋์Answer the question using a single word or phrase๋ผ๊ณ prompt๋ฅผ ์ค. ์ด๋ ๊ฒ ํด์ ๋จ์ํ VQAv2๋ฅผ training data์ ๋ฃ์ผ๋๊น ํนํ MME๋ผ๋ ๋ฒค์น๋งํฌ์์ ์ฑ๋ฅ์ด 2๋ฐฐ๊ฐ ๋จ 502 -> 1197
Result / Ability
๊ด๋ จ ์๋ ์ด๋ฏธ์ง์ ๋ํด์๋ ์ ๋๋ต
json ๋ฝ๊ธฐ ๊ฐ๋ฅ! (ocr ๋ฅ๋ ฅ)
zs multi-lingual ShareGPT(https://sharegpt.com/ )๋ผ๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด์์ธ์ง multilingual instruction์ ๋ฐ๋ฅด๋๋ผ ์ฌ์ฉ์๊ฐ ์๊ธฐ๊ฐ ์ฌ์ฉํ chatGPT ์ง๋ต์ ์ฌ๋ฆด ์ ์๋ ํ๋ซํผ ์๋ง language only ์ธ๋ฏํ๋ค. ํนํ MMBench-CN์์ ์ค์ ๋ก chinese instruction data๋ฅผ ํ์ฉํ Qwen-VL-Chat์ ์ด๊ฒผ๋ค (์ ๊ธฐํ๋ค)
computational cost 6 hours for pretraining / 20 hours for visual instruction tuning using 8A100s
limitation
- resolution์ ๋ฐ๋ผ image seq len์ด ๋์ด๋๋ค๋ ์ . q-former๊ฐ ๊ทธ๋ฐ๊ฑธ ๋์ฒดํ๋๋ฐ ์ด๊ฑด ์๋ ด์ด ๋๋ฆฐ ๊ฒ ๊ฐ๋๋ผ. ํจ์จ์ ์ผ๋ก q-former๋ฅผ ํ์ตํ ์ ์๋ ์ฐ๊ตฌ๊ฐ ์งํ๋์ด์ผ
- multi image ์ฒ๋ฆฌ ๋ถ๊ฐ. ๋ฐ์ดํฐ๊ฐ ์๋ค.
- ์ฌ์ ํ ํ๊ฒ ๋๋ฉ์ธ์ ํ์ ๋์ด ์๋ค
- hallucination์ด ์๋ค
- d–etails