
TL;DR
- task : large language modeling, domain incremental learning
- problem : ์์ด๋์ด๋ DeMix์ ๊ฑฐ์ ์ ์ฌ! ๊ทผ๋ฐ multi-node synchronize ํ๋ ๋ถ๋ถ์ ์ปค๋ฎค๋์ผ์ด์ ์ ์ค์ด๊ณ ์ถ๋ค.
- idea : ๋๋ฉ์ธ ๋ณ๋ก ํ๋ผ๋ฏธํฐ๋ฅผ ๊ณต์ ํ์ง ์๋ expert LM์ ๋ง๋ค๊ณ (์ด์ MoE LM๋ค์ FFN๋ง ๋ฐ๋ก ์ฐ๊ณ ๋๋จธ์ง๋ ๊ณต์ ํจ) Branch-Train-Merge(BTM)์ ์ฌ์ฉํด์ ํ์ตํจ. BTM์ ์ฃผ์์์ด๋์ด๋ ์๋ก์ด ๋๋ฉ์ธ์ด ์ ์ ๋์ ๊ฒฝ์ฐ ๊ฐ์ฅ ๊ฐ๊น์ด LM์ ์ฐพ์๋ค ํ๊ท ์ ๋ด์ initialize ํ์ฌ branch๋ฅผ ๋ฐ์ ํ์ต์ด ๋๊ณ branch forest์ ์ถ๊ฐํจ. inference ์์๋ ์ด๋ค ๋๋ฉ์ธ์ธ์ง bayes rule์ ํตํด posterior๋ฅผ ์ถ์ ํ๋ค weighted sum์ผ๋ก ์ต์ข ์์ธก๋๋ค.
- architecture : vanilla Transformer..
- objective : cross-entropy loss
- baseline : Transformer LM(GPT), DeMix
- data : Wikipedia, C4, StackOverflow, JavaScript, … ๋ฑ๋ฑ
- result : out-of-domain์์ ๋ ์ข์ perplexity, 64๊ฐ์ domain์ ๋ํด incremental learningํ์ ๋ 2.5๋ฐฐ์ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง Transformer LM๊ณผ ๋น์ทํ ์ฑ๋ฅ.
- contribution : MoE without shared parameters.
- limitation or ์ดํด ์๋๋ ๋ถ๋ถ :
Details
Batch-Train-Merge(BTM)

Inference

๋ชจ๋ ELM์ forward ํด์ผํ๋๊ฑด ๋ง์ง๋ง ์ ํ๋๋ ELM์ด sparseํ๊ฒ ๊ตฌ์ฑ๋จ์ ํ์ธํ ์ ์์์.
Data..

DeMix
DeMix, 2021
- https://arxiv.org/pdf/2108.05036.pdf

- problem : ์ฌ๋ฌ ๋๋ฉ์ธ์ corpus๋ฅผ ํ๋์ LM์ผ๋ก ํ์ตํ ๋์ perplexity๋ฅผ ๋ฎ์ถ๊ณ ์ถ๋ค. ์ด๋ ์ฐ๋ฆฌ๋ ๊ฐ ๋ฐ์ดํฐ์ ๋๋ฉ์ธ์ ์๊ณ ์๋ค.
- solution : corpus์ ๋๋ฉ์ธ ๋ณ๋ก FFN(switch Transformer์ฒ๋ผ)์ expert๋ก ๋์ด ํ์ต์ํจ๋ค. inference ์์ ์๋ก์ด ๋๋ฉ์ธ์ด ์ถ๊ฐ ๋์์ ๋, 1) ๋ชจ๋ FFN์ forward๋ฅผ ํ์ฌ ๋ฒ ์ด์ฆ๋ฃฐ๋ก weighted sumํ์ฌ ๊ฒฐ๊ณผ๋ฅผ ๋ด๊ฑฐ๋ 2) ํด๋น ๋๋ฉ์ธ์ ์ํ FFN์ ์ถ๊ฐํ ์ ์๋ค.
- result : ํ์ต ํจ์จ์ ๋๋ฆฌ๋ฉด์ LM perplexity ๊ฐ์ , ์ด์ expert๋ค์ forgetting ์์ด ์๋ก์ด ๋๋ฉ์ธ์ ์ถ๊ฐํ๊ฑฐ๋ ์ ๊ฑฐํ ์ ์์์ ๋ณด์.