[120] Large-scale Bilingual Language-Image Contrastive Learning

TL;DR

I read this because.. : multilingual clip
task : multimodal alignment
problem : multilingual clip을 학습하고 싶다. 번역으로 만든 건 그 나라의 문화 / 어휘의 특성을 잡지 못한다
idea : 데이터 모아서 학습
input/output : image + text / similiarity score(for clip)
architecture : image encoder(ViT-B/32) and text encoder(transformer)
objective : MSE(for MAE) and infoNCE(for CLIP)
baseline : CLIP, UNITER, Visual N-Gram, ImageBERT
data : web에서 korean {image-text} pair 수집 + 가용한 english {image-text pair} 수집
evaluation : image classification / retrieval
result : clip 보다 영어에서도 더 높은 성능
contribution : 한국어 CLIP. 학습 관련 몇가지 Finding. result 부분에 diffusion도 하시고 .. 저자가 두명인데 여러 분석 bb
etc. :

multi-crop augmentation 사용
- standard resolution 224 x 224 / low resolution 96 x 96
위 두가지에 대한 ablation

english {image-text} pair
- CUB200
- 37.4M의 WIT (108 languages)
- YFCC15M (clip이 100M에서 filtering한)
- CC3M
- CC12M
- LAION400M
- LAION이 만든 방식을 따라 cc web dump에서 70M을 추가적으로 만듦
korea {image - text} pair : 708M 규모
- 그냥 크롤링 했다고 써져있넹
- 50M의 연예인 얼굴과 이름 포함
- korea wikipedia 포함
- LAION400M이나 CLIP의 WIT 400M보다 훨씬 큼
총 합쳐서 ≥ 1B 정도 데이터셋이 될듯

training
- half precision
- 80개의 A100 → MAE 학습하는데 16시간 / multimodal training하는데 362시간 (15일?)

zs-classification
- benchmark의 english label을 한국어로 번역해서 사용했음
- ImageNet / Cifar10 / Cifar100 / CLEVER Counts / Describable Textures Dataset / EuroSAT / FER2013 / Food101 / GTSRB / MNIST / RESIC45 / StanfordCars
- (in-house data) WebKorean
  - 36,826 images ↔ 428 Korean labels
zs-retrieval
- Flickr30k / MSCOCO(english) / MSCOCO(korean)

zero-shot classification
- CLIP보다 평균 3.3% 높은 성능
- 한국어는 CLIP 성능 처참
  - clip이 a photo of { }랑 가장 가까운 걸로 분류해서 그럼
  - 한국어 데이터가 아예 없었던 건 아닌데 너무 적어서
zero-shot retrieval
- 영어 한국어 둘다 성능 굿굿

color 왜곡 등 strong augmentation이 classification 등은 더 성능을 높이지만 더 높은 차원의 문제인 retrieval은 더 못하더라

diffusion을 붙여서 해봤는데 확실히 한국어가 다른 결과를 보이더라?
- 이건 위의 결과랑 좀 다른거 아닌가 ㅋㅋ similiarity가 1.0은 아니니까 그런건가