[71] Large Models are Parsimonious Learners: Activation Sparsity in Trained Transformers

2022년 10월 17일 · 1 분 · long8v · | 번역:

En

View original issue on GitHub →

목차

TL;DR
Details

TL;DR

task : transformer가 얼마나 sparse한지, 어떤 상황일 때 sparse한지 살펴보자
architecture : T5, ViT-B16
data : C4, ImageNet-21K
contribution : transformer의 sparsity 측정

Details

ViT, T5 encoder decoder 상관없이 sparsity가 높음 첫 레이어말고는 다 10%내외.

이는 몇몇 neuron들이 활성화되지 않았기 때문이 아님을 보임. 뉴런들이 활성화될 확률은 아래와 같았음

레이어가 더 깊을수록, 넓을 수록 sparsity가 높아짐.
1. label에 human annotation bias가 있어서인지? 2) natural image에 bias가 있어서 인지? 3) 모델이 데이터보다 capacity 높아서인지?

위의 세가지를 확인하기 위해 1) label을 random으로 만들고 2) 이미지를 random으로 주고 3) 데이터를 무한대로 만들었을때의 sparsity는 눈에띄게 변화하지 않았음. 즉 sparsity는 transformer가 내재하고 있는 본성임.

sparsity 덕분에 FLOP이 떨어짐
sparsity를 top-K로 제한했을 때, 성능이 그냥 트랜스포머와 비슷하며 robustness와 confidence에 대한 성능이 좋아짐.

ECE : expected calibration error. model prediction에 대한 확률과 실제 그 prediction이 맞았는지에 대한 차이