image

paper

TL;DR

  • task : image pretraining
  • problem : simple and effective pretraining
  • idea : PE를 input에 넣어주지 말고 output으로 예측하도록 하자!
  • architecture : 기본적으로 ViT. n개의 patch 중에 m개의 context patch를 뽑고 Q=all patches, K=V=context patches인 cross-attention.
  • objective : Cross Entropy Loss
  • baseline : ResNext, ViT-S, MOCOv3, MAE
  • data : CIFAR-100, ImageNet, ImagNet-1K
  • result : 효율적인 프리트레이닝(모든 patch를 안봐서), 100에폭에서 ViT-S나 MOCO보다 좋은 성능.(ResNeXT보단 낮음). MAE보다도 성능이 낮은데 앙상블 했더니 1600에폭 학습한 MAE 보다 성능이 더 좋았다고 하면서 다른 representation을 학습한거라고 주장
  • contribution : simple!
  • limitation or 이해 안되는 부분 :

Details

image

image

image

image