TL;DR
- I read this because.. : multilingual clip
- task : multimodal alignment
- problem : multilingual clip์ ํ์ตํ๊ณ ์ถ๋ค. ๋ฒ์ญ์ผ๋ก ๋ง๋ ๊ฑด ๊ทธ ๋๋ผ์ ๋ฌธํ / ์ดํ์ ํน์ฑ์ ์ก์ง ๋ชปํ๋ค
- idea : ๋ฐ์ดํฐ ๋ชจ์์ ํ์ต
- input/output : image + text / similiarity score(for clip)
- architecture : image encoder(ViT-B/32) and text encoder(transformer)
- objective : MSE(for MAE) and infoNCE(for CLIP)
- baseline : CLIP, UNITER, Visual N-Gram, ImageBERT
- data : web์์ korean {image-text} pair ์์ง + ๊ฐ์ฉํ english {image-text pair} ์์ง
- evaluation : image classification / retrieval
- result : clip ๋ณด๋ค ์์ด์์๋ ๋ ๋์ ์ฑ๋ฅ
- contribution : ํ๊ตญ์ด CLIP. ํ์ต ๊ด๋ จ ๋ช๊ฐ์ง Finding. result ๋ถ๋ถ์ diffusion๋ ํ์๊ณ .. ์ ์๊ฐ ๋๋ช ์ธ๋ฐ ์ฌ๋ฌ ๋ถ์ bb
- etc. :
Details
motivation
- multi-lingual CLIP์ ๋ง๋ค๊ณ ์ถ์
- ์ฃผ๋ก ํ๋ approach๋ ๊ทธ๋ฅ text๋ฅผ machine translation ๋๋ ค์ ํ๋๋ฐ ์ด๊ฑด ๊ทธ ๋๋ผ๋ง์ ์ดํ๋ ๋ฌธํ๋ฅผ ๋ด์ ์ ์๋ค
- english-korean bilingual ํ์ต
- ๋ฐ์ดํฐ์ ์ ์
- training scheme ์ ์
- MAE๋ก 1๋จ๊ณ๋ก ํ์ต
- multi crop๊ธฐ๋ฒ ์ฌ์ฉ
- ๋ช๊ฐ์ง finding
- ์ง์ bilingual supervision์ ์์ฃผ๋๋ผ๋ image๋ฅผ ํตํด์ embedding space๊ฐ ๋ง์ถฐ์ง๋๋ผ
- SimCLR์์ ์ฌ์ฉ๋๋ strong augmentation ์คํ๋ ค ๋ฐฉํด๋๋๋ผ
training scheme
- CLIP๊ณผ ๋ค๋ฅธ ๋ ๊ฐ์ง
- ๋ฐ๋ก contrastive๋ก ํ์ตํ๋๊ฒ ์๋๋ผ MAE๋ก ๋จผ์ vision encoder๋ฅผ ํ์ต
- multi-crop augmentation ์ฌ์ฉ
- standard resolution 224 x 224 / low resolution 96 x 96
- ์ ๋๊ฐ์ง์ ๋ํ ablation
dataset
- english {image-text} pair
- CUB200
- 37.4M์ WIT (108 languages)
- YFCC15M (clip์ด 100M์์ filteringํ)
- CC3M
- CC12M
- LAION400M
- LAION์ด ๋ง๋ ๋ฐฉ์์ ๋ฐ๋ผ cc web dump์์ 70M์ ์ถ๊ฐ์ ์ผ๋ก ๋ง๋ฆ
- korea {image - text} pair : 708M ๊ท๋ชจ
- ๊ทธ๋ฅ ํฌ๋กค๋ง ํ๋ค๊ณ ์จ์ ธ์๋น
- 50M์ ์ฐ์์ธ ์ผ๊ตด๊ณผ ์ด๋ฆ ํฌํจ
- korea wikipedia ํฌํจ
- LAION400M์ด๋ CLIP์ WIT 400M๋ณด๋ค ํจ์ฌ ํผ
- ์ด ํฉ์ณ์ โฅ 1B ์ ๋ ๋ฐ์ดํฐ์ ์ด ๋ ๋ฏ
training detail
implementation : ๋ค๋ฅธ๊ฑฐ ์์ฐ๊ณ pytorch๋ก๋ง
text encoder
GPT-2 style transformer(?) / 63M / 12 layesr / hid dim 512 / 8 heads
gpt-2 style transformer
Layer normalization (Ba et al., 2016) was moved to the input of each sub-block, similar to a pre-activation residual network (He et al., 2016) and an additional layer normalization was added after the final self-attention block. A modified initialization which accounts for the accumulation on the residual path with model depth is used. We scale the weights of residual layers at initialization by a factor of 1/ โN where N is the number of residual layers.
tokenizer : 2M์ english / 1.5M korean์ผ๋ก ํ์ตํ BPE 98K vocab size
- (โ CLIP์ 49K)
visual encoder
- ViT-B/32
- 256 x 256 ?
๊ธฐํ hparams
- training
- half precision
- 80๊ฐ์ A100 โ MAE ํ์ตํ๋๋ฐ 16์๊ฐ / multimodal trainingํ๋๋ฐ 362์๊ฐ (15์ผ?)
Benchmark Dataset
- zs-classification
- benchmark์ english label์ ํ๊ตญ์ด๋ก ๋ฒ์ญํด์ ์ฌ์ฉํ์
- ImageNet / Cifar10 / Cifar100 / CLEVER Counts / Describable Textures Dataset / EuroSAT / FER2013 / Food101 / GTSRB / MNIST / RESIC45 / StanfordCars
- (in-house data) WebKorean
- 36,826 images โ 428 Korean labels
- zs-retrieval
- Flickr30k / MSCOCO(english) / MSCOCO(korean)
result
- zero-shot classification
- CLIP๋ณด๋ค ํ๊ท 3.3% ๋์ ์ฑ๋ฅ
- ํ๊ตญ์ด๋ CLIP ์ฑ๋ฅ ์ฒ์ฐธ
- clip์ด a photo of { }๋ ๊ฐ์ฅ ๊ฐ๊น์ด ๊ฑธ๋ก ๋ถ๋ฅํด์ ๊ทธ๋ผ
- ํ๊ตญ์ด ๋ฐ์ดํฐ๊ฐ ์์ ์์๋ ๊ฑด ์๋๋ฐ ๋๋ฌด ์ ์ด์
- zero-shot retrieval
- ์์ด ํ๊ตญ์ด ๋๋ค ์ฑ๋ฅ ๊ตฟ๊ตฟ
findings
- color ์๊ณก ๋ฑ strong augmentation์ด classification ๋ฑ์ ๋ ์ฑ๋ฅ์ ๋์ด์ง๋ง ๋ ๋์ ์ฐจ์์ ๋ฌธ์ ์ธ retrieval์ ๋ ๋ชปํ๋๋ผ
- ๋ ์ธ์ด๊ฐ ์ง์ contrastive loss๋ฅผ ๋ฃ์ง ์์๋๋ฐ๋ image๋ฅผ ๊ฐ์ด ๋ณด๊ณ ์์ด์ ๊ทธ๋ฐ์ง ๊ณต๊ฐ์ด ๋ง์ถฐ์ง๋๋ผ
- diffusion์ ๋ถ์ฌ์ ํด๋ดค๋๋ฐ ํ์คํ ํ๊ตญ์ด๊ฐ ๋ค๋ฅธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ด๋๋ผ?
- ์ด๊ฑด ์์ ๊ฒฐ๊ณผ๋ ์ข ๋ค๋ฅธ๊ฑฐ ์๋๊ฐ ใ ใ similiarity๊ฐ 1.0์ ์๋๋๊น ๊ทธ๋ฐ๊ฑด๊ฐ