
TL;DR
- task : lanugage modeling
- problem : transformer๊ฐ ๋๋ฌด ํฌ๊ณ ๋ฌด๊ฒ๋ค. inference latency ๋ชฉํ์ ๋ง๊ฒ ์์์ ๋คํธ์ํฌ๊ฐ ๊ตฌ์ฑ๋๋ฉด ์ข๊ฒ ๋ค.
- idea : NAS ์จ์ latency๊ฐ ์ฃผ์ด์ก์ ๋, Transfomer-XL์ FFN, MHA, MoE FFN ๋ ์ด์ด๋ฅผ ์ค๊ณ.
- architecture : Transformer-XL, NAS๊ฐ block์ ์ ํํ ๋ GumbelSoftmax ์ฌ์ฉ + reinforcement ๊ธฐ๋ฐ์ search.
- objective : cross-entropy loss + latent loss(=๊ฐ super block์ด ์ ํ๋ ํ๋ฅ ๊ณผ ๊ทธ super block์ latency), latency loss๋ ๋ชฉํ latency๋ณด๋ค ๋์์ง ๊ฒฝ์ฐ์๋ง ๋ถ๊ฐ๋จ.
- baseline : Transformer-XL, PAR Transformer, Sandwich Transformer
- data : wt103, enwiki8
- result : ๋น์ทํ ์ฑ๋ฅ์ 2๋ฐฐ ๋น ๋ฅธ latency. ๊ฐ์ ํฌ๊ธฐ์ MoE ์ ์ฉ์ํ(iso-parametric setting) ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ ๋ PPL ๋๋น ๋์ normalized latency.
- contribution : NAS for inference latency
- limitation or ์ดํด ์๋๋ ๋ถ๋ถ : MHA๋ ๋ค๋ค MoE๋ก ๊ฑด๋๋ฆด ์๊ฐ์ ์ํ๋ค..์์ง -> runtime overhead introduced by dynamic behavior๋ผ๊ณ ๋์์๋๋ฐ ๋ญ๋ง์ธ์ง ๋ชจ๋ฅด๊ฒ ์.
Details
ํธ๋์คํฌ๋จธ์ ๊ฐ ๋ ์ด์ด ๋ณ latency

MSA / FFN ๊ฐ ํ์ดํผํ๋ผ๋ฏธํฐ ๋ณ๊ฒฝํ ๋์ latency ๋น๊ต

NAS๊ฐ ์์นํ ๋ชจ๋ธ ์ํคํ ์ณ ๊ตฌ์ฑ๋ค

MHA๋ ์ด์ด์ ๊ฐ์์ ์ฐจ์์ ์ค์ด๊ณ , MoE๋ FFN์ ์ถ๊ฐํ๋ ์์.
MoE

search space for NAS
