[60] Efficient Sparsely Activated Transformers

TL;DR

task : lanugage modeling
problem : transformer가 너무 크고 무겁다. inference latency 목표에 맞게 알아서 네트워크가 구성되면 좋겠다.
idea : NAS 써서 latency가 주어졌을 때, Transfomer-XL의 FFN, MHA, MoE FFN 레이어를 설계.
architecture : Transformer-XL, NAS가 block을 선택할 때 GumbelSoftmax 사용 + reinforcement 기반의 search.
objective : cross-entropy loss + latent loss(=각 super block이 선택될 확률과 그 super block의 latency), latency loss는 목표 latency보다 높아질 경우에만 부가됨.
baseline : Transformer-XL, PAR Transformer, Sandwich Transformer
data : wt103, enwiki8
result : 비슷한 성능에 2배 빠른 latency. 같은 크기의 MoE 적용안한(iso-parametric setting) 모델과 비교했을 때 PPL 대비 높은 normalized latency.
contribution : NAS for inference latency
limitation or 이해 안되는 부분 : MHA는 다들 MoE로 건드릴 생각을 안하네..왜징 -> runtime overhead introduced by dynamic behavior라고 나와있는데 뭔말인지 모르겠음.