TL;DR
- I read this because.. : GPT4-V๋ฅผ ํ์ฉํ ๋ฐ์ดํฐ๋ก ํ์ตํ ๋ชจ๋ธ
- task : VLM
- problem : instruction data๊ฐ ๋๋ฌด noisyํ๋ค
- idea : GPT4-V๋ก ๋ฐ์ดํฐ ๋ชจ์ผ์! ํ์ captioner ํ์ตํด์ ๋์จ ์ ๋ค์ ๊ฐ์ง๊ณ ์๋ฅผ alignment ํ ๋ ์ฐ์
- input/output : image - (api call) -> GPT4V caption => LLaVA1.5 style๋ก ํ์ต
- architecture : LLaVA-1.5
- objective : ce loss
- baseline : ๋ฐ์ดํฐ์ ํจ๊ณผ๋ฅผ ๋ณด๊ธฐ ์ํด LLaVA-7B / LLaVA-1.5-7B(13B) / Qwen-VL-Chat-7B์ ์ถ๊ฐํ์ฌ ํ์ต, LLaVA 1.5 ์ํคํ ์ณ ๊ทธ๋๋ก ๊ฐ์ ธ์์ ํ์ต ๋ํ ์ผ ์กฐ๊ธ ๋ฐ๊พธ๊ณ pretraining - finetuning ํ์ ๋ ๋ชจ๋ ๊ฒฝ์ฐ์์ sota
- data : image={LAION-400M, COCO, SBU, SAM, TextCaps}, text={GPT4-V call}
- evaluation : SEED, VizWiz, VQA-v2, SQA, QBench, MM-Vet, MMBench-CN, MMBench, MME_cog, MME_per, LLaVA-Bench
- result : sota~
- contribution : ๋ฐ์ดํฐ ๊ณต๊ฐ. ๋ชจ๋ธ ๊ณต๊ฐ. ์ํคํ ์ณ๋ณด๋ค ๋ฐ์ดํฐ๊ฐ ์ค์ํ๋ค!!!๋ฅผ ๊ฐ์กฐ
- etc. :
Details
thumnail (caption example / performance)
caption style / error
Data
- dataset statistics
etc: SAM, TextCaps, WikiArt + 1K images from webcrawled data (split evenly between images of landmarks and images of celebrities). (์ถ๊ฐ์ ์ผ๋ก ๊ธ์ ๋ฏ)
- data collection
๋ฐ์ดํฐ ์ข
๋ฅ๋ณ๋ก prompt๋ฅผ ๋ค๋ฅด๊ฒ ์คฌ๋ค๊ณ ํจ
์ด๋ ๊ฒ 100K์์ง
- ShareGPT4V-PT
ShareCaptioner๋ผ๋ ๋ชจ๋ธ์ ๋ฐ๋ก ๋ง๋ค์ด์ 1.2M ๋ฐ์ดํฐ์
์ ๋ง๋ฆ.
44 A100 GPU days ๊ฑธ๋ ธ๋ค๊ณ ํจ. ๋ชจ๋ธ์ ๋ํ ์ ๋ณด๊ฐ ์๋๊ฑธ ๋ด์ ShareGPT4V-7B ๋ชจ๋ธ์ด๋ ๊ฐ์๊ฒ ์๋๊น? ์์ธํ๊ฒ ์ถ๊ฐ๋ก ์ ์ ํ๋ค๋์ง ํ๋ ์ ๋ณด๋ ์์.
์ด๋ ์ฌ์ฉํ ๋ฐ์ดํฐ
3๊ฐ์ ๋ํ human evaluation
more analysis
- ์ด ๋ฐ์ดํฐ์
์ ๋ํ ๋ชจ๋ธ ์ฑ๋ฅ ๊ฐ์
๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด ์๋ ์ค๋ค ํ์ตํ ๋ ์์๋ data recipe ์ค์ ‘detailed caption’์ ํด๋นํ๋ 100K์ ๋ฐ์ดํฐ๋ฅผ ๋นผ๊ณ ์ด ๋ฐ์ดํฐ๋ฅผ ๋ฃ์
ShareGPT4V-7B model
- LLaVA-1.5
- ViT-L/14 336x336 / Vicuna-v1.5 7B
- training
- pretraining:
- w/ ShareGPT4V-PT
- image encoder(latter half๋ง ํ์ต) + projector + llm all finetune
- bs 256 / 4700 steps
- supervised finetuning:
- LLaVA์์ detailed caption 23k๊ฐ ๋ค์ด๊ฐ๋๋ฐ ์ด๊ฑธ ShareGPT4V์์ ์ํ๋งํด์ ์ฌ์ฉ
- vision encoder freeze / projector์ llm finetune
- pretraining:
Ablations
๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ฃ์ด์ ํ์ตํ๋ ๊ฒ์ ํจ๊ณผ
latter half๋ง ํ์ตํ ๊ฒ์ ํจ๊ณผ