TL;DR
- I read this because.. : github follow ํ๋ ๋ถ์ด Star ๋๋ฌ์ ์๊ฒ๋จ
- task : CLIP with long context
- problem : CLIP์ด 77 ํ ํฐ ๊ฐ์๋ก ์ ํ๋๊ฒ ํ์ต๋์ด ์๊ณ ์ด ์ค์ ์ ํจํ๊ฒ ์ฌ์ฉ๋๋ ํ ํฐ์ 20๊ฐ์ด๋ค.
- idea : ๊ธด CLIP์ ํ์ต ํ์. PE๋ฅผ interpolate ํ๋ ์ ํจ ํ ํฐ 20๊ฐ๋ ๋จ๊ธฐ๊ณ ๋๋จธ์ง๋ง Interpolate ํ์
- input/output : {image, text} -> score
- architecture : CLIP ViT-B/16, ViT-L/14
- objective : infoNCE
- baseline : CLIP
- data : ShareGPT4V 1M
- evaluation : ImageNet, COCO, FLICKR retrieval, ShareGPT4V retrieval (long context retreival)
- result : ์ ๋์ ์ผ๋ก ์ข์ ์ฑ๋ฅ. ํจ์ฌ context๋ฅผ ์ ํ์ ํ๋ ๋ฏํ ๋๋.
- contribution :
- etc. :