image

paper

TL;DR

  • task : transformer가 얼마나 sparse한지, 어떤 상황일 때 sparse한지 살펴보자
  • architecture : T5, ViT-B16
  • data : C4, ImageNet-21K
  • contribution : transformer의 sparsity 측정

Details

  • ViT, T5 encoder decoder 상관없이 sparsity가 높음 첫 레이어말고는 다 10%내외. image

이는 몇몇 neuron들이 활성화되지 않았기 때문이 아님을 보임. 뉴런들이 활성화될 확률은 아래와 같았음 image

  • 레이어가 더 깊을수록, 넓을 수록 sparsity가 높아짐. image

    1. label에 human annotation bias가 있어서인지? 2) natural image에 bias가 있어서 인지? 3) 모델이 데이터보다 capacity 높아서인지? image

위의 세가지를 확인하기 위해 1) label을 random으로 만들고 2) 이미지를 random으로 주고 3) 데이터를 무한대로 만들었을때의 sparsity는 눈에띄게 변화하지 않았음. 즉 sparsity는 transformer가 내재하고 있는 본성임.

  • sparsity 덕분에 FLOP이 떨어짐 image

  • sparsity를 top-K로 제한했을 때, 성능이 그냥 트랜스포머와 비슷하며 robustness와 confidence에 대한 성능이 좋아짐.

image image

ECE : expected calibration error. model prediction에 대한 확률과 실제 그 prediction이 맞았는지에 대한 차이