
paper
TL;DR#
- task : efficient Transformer -> Machine Translation, Language Modeling, Representation leaning in Graph, Image Classification
- problem : self-attention ์ฐ์ฐ์ $O(n^2)$์ด ๋นํจ์จ์ ์ด๋ค
- idea : ์ธํ ์ํ์ค๋ฅผ ๊ทธ๋ํ๋ก ๋ณด๊ณ attention ์ฐ์ฐ์ ์ฐ๊ฒฐ๋ node์ ๋ํด์๋ง ํ์
- architecture : LSTM์ ํตํด source node๊ฐ ์ฃผ์ด์ก์ ๋ target edge predicting, ์ดํ ์ฐ๊ฒฐ๋ edge๋ค์ ๋ํด์๋ง self-attention ์ํ
- objective : ground truth edge๋ฅผ ์ ์ ์๊ธฐ ๋๋ฌธ์ edge training์ ํ ๋์๋ self-attention ๊น์ง ํ ํ์ ์ฑ๋ฅ์ reward๋ก ์ฃผ๋ policy gradient ๋ฅผ ์ ์ฉ. self-attention์ ๊ฒฝ์ฐ ๊ฐ task์ ๋ง๋ loss.
- baseline : Transformer, Sparse Graph Attention Networks
, Reformer
- data : newstest2013(WMT), Enwiki8/Text8(LM), CIFAR100/ImageNet(Image Classification)
- result : SOTA์ ๊ฒฌ์ค๋ณผ๋งํ ์ฑ๋ฅ. memory cost๋ ๋งค์ฐ ์ค์.
- contribution : ํธ๋์คํฌ๋จธ์ quadratic์ graph๋ก ๋ฐ๊พผ ์
- limitation or ์ดํด ์๋๋ ๋ถ๋ถ : ํ์ต์ด ์์ฒญ ๊น๋ค๋ก์ธ ๊ฒ ๊ฐ๋ค. LSTM์์ edge prediction ํ ๋ latency๊ฐ ์์ฒญ ์๊ธฐ์ง ์์๊น?
Details#

