
TL;DR
- task : self-supervised learning -> image classification, object detection, image segmentation
- problem : SSL์์ ์ฌ์ฉํ๊ณ ์๋ Masked Image Modling(MIM)์์ mask๋๋ ํ ํฐ์ ์ ํํ๋ ์ ๋ต์ ๋ํด ์๊ฐํด๋ณด์
- idea : ViT์ ๋ฃ์์ ๋ attention score๊ฐ ๋๊ฒ ๊ฑธ๋ฆฌ๋ ๊ฑธ ๋ง์คํนํ์!
- architecture : teacher ViT๊ฐ ๋ชจ๋ input tokens๋ฅผ ๋ฐ๊ณ attention score๊ฐ ๋์๊ฑธ masking. student๋ MIM ํ์คํฌ๋ฅผ ํ. teacher์ weight๋ student์ weight์ exponential moving average(EMA)๋ก ์ ๋ฐ์ดํธ ๋จ. ์ํคํ ์ณ๋ ViT-S/16
- objective : MIM loss(=reconstruction loss), distillation loss(student๊ณผ teacher์ [CLS] ํ ํฐ์ ๋ํ output ์ฐจ์ด)
- baseline : iBOT, DINO, MST
- data : ImageNet-1k for pretraining, CIFAR-10, CIFAR-100, Oxford Flower, COCO, ADE20K
- result : random masking๋ณด๋ค ๋์ ์ฑ๋ฅ
- contribution : MIM์์ masking strategy ํ์
- limitation or ์ดํด ์๋๋ ๋ถ๋ถ :
Details
