
TL;DR
- I read this because.. : ๋ ผ๋ฌธ ๋ชจ์์ ๋ฐ์ ๋จ. SA์ ํน์ฑ ๋ถ์์ด๋ผ ์ฌ๋ฐ์ด ๋ณด์ด๋น~
- task : ASR
- problem : ASR์ transformer๊ฐ ์ฌ์ฉ๋๋ self-attention์ด ์ด๋ค ํน์ฑ์ ๊ฐ์ง๊ณ ์๋์ง๋ ๋ถ์๋ ๋ฐ๊ฐ ์์
- idea : diagonality๋ฅผ ์ธก์ ํ๋ measure๋ฅผ ์ธก์ ํ์ฌ ๋ ์ด์ด ๋ณ๋ก ๋น๊ต / ๋น์ทํ ์์๋ผ๋ฆฌ attend ํ๋ ๊ฒฝํฅ ๊ด์ฐฐ / ๋ ์ด์ด๋ณ phoneme ๋ถ๋ฅ ํ์คํฌ -> attention map ์ฌ์ฌ์ฉํ ์ ์์๋ฏ
- architecture : Conformer-M + attention map reuse
- objective : CTC loss
- baseline : Conformer-M w/o reuse
- data : LibriSpeech
- evaluation :
- result : 1.96 times of speedup in inference and 33% reduced training time
- contribution : ASR ๋ถ์ผ์์ SA ์ต์ด๋ก ๋ถ์! ์ด ๋ถ์ ๋ฐฉ๋ฒ๋ก ์ผ๋ก ๋ค๋ฅธ ๋๋ฉ์ธ์๋ ์ ์ฉ์ด ๊ฐ๋ฅํ๋ ค๋?
- limitation / things I cannot understand : ์ํคํ ์ณ์ ๋ํ ์์ธํ ๋ด์ฉ์ ๋ชจ๋ฆ
Details

- cumulative attention diagonality


audio-to-text transition์ ํ ๋ ๊ทผ์ฒ์ ์๋ (neighbor) ๊ฒ๋ค์ attendํ๋ ๊ฒฝํฅ์ด ์๋ค. -> neighbor์ ๋ง์ด attendํ๋ฉด diagonality๊ฐ ์ปค์ง ๊ทผ๋ฐ upper layers์์ diagnolatiy๊ฐ ์ฒ์น๋ฏ๋ก ์์ ๋ ์ด์ด์์ linguistic์ ๋ณด๊ณ ์์์ ์ ์ ์๋ค
๊ทธ๋ฌ๋ฉด ๋ฐ์ layer๋ค์ ๋ญ ๋ด๋นํ๋๋ฉด Phoneme์ ๋ด๋นํ๋๋ฐ ์ด๊ฑด ์๋ ๋๊ฐ ๊ทธ๋ฆผ์ ๋ณด๋ฉด ์ ์ ์๋ค

์์ ๋จ์๋ก attention map์ ๋ดค๋๋ฐ ๋น์ทํ ๋ฐ์๋ผ๋ฆฌ attendํ๋ ๊ฒฝํฅ์ด ์์ ๋ ์ด์ด์์๋ ์๋ํ๋จ
(์์๋จ์๋ก attention map ์ธก์ ํ๋ ์์
)

์๋ ๋ ์ด์ด๋ค์ด Phoneme classification๋ฅผ ๋ ์ํจ. ์์ ๋ ์ด์ด ๊ฐ์ ์ฑ๋ฅ์ด ์์ข์์ง.
์ด๋ฌํ ๋ฐ๊ฒฌ๋ค์ ๊ธฐ๋ฐ์ผ๋ก SA๋ฅผ ์ฌ์ฌ์ฉํ๋ ์ํคํ
์ณ๋ฅผ ์ ์ํ๋ค.

attention map reuse๋ ์ฌ๊ธฐ์ ์ฒ์ ์ ์๋๊ฑด ์๋๊ณ NLP ์ชฝ์๋ ์์๋๋ฐ ์ ์ฌ์ฌ์ฉ๋๋์ง๋ ๋ถ์์ ์ํ๋ค. ๊ทผ๋ฐ ์ด ๋ ผ๋ฌธ์์๋ ๋ถ์ํ์ผ๋ ์๋ฏธ๊ฐ ์๋ค.

V๋ง ๋ ์ด์ด๋ณ๋ก ์๋ก project๋๋ ๊ผด Sharing Attention Weights for Fast Transformer
https://arxiv.org/pdf/1906.11024.pdf
c.f. ConFormer
conv + SA + conv
