[5] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

paper paper summary implementation

problem : fully self-attention인 구조로, 기존 Transformer의 구조에서 변경을 최소화하면서 이미지 분류 문제를 풀어보자 solution : 이미지를 P x P개의 패치를 자르고, flatten한 뒤 linear projection으로 D차원으로 만들어 줌. 이 결과로 나온 패치 임베딩을 트랜스포머 인코더 인풋에 넣음. [CLS] 토큰을 추가하여 output에 MLP를 얹어 프리트레이닝, 이후 분류 MLP만 변경하여 파인튜닝.
result : 적은 데이터에서는 ResNet계열보다 성능이 안좋았지만 큰 데이터에 대해 학습했을 때는 ResNet보다 빠르게 학습하고 SOTA