
paper problem : multi-lingual ์ ํ ์์ BPE๋ฅผ ํ๋ฉด, ์ ๋์ค์ง ์๋ ์บ๋ฆญํฐ๋ค ๋๋ฌธ์ vocab์๋ฅผ ์ก์๋จน๋๋ค. ์ค๊ตญ์ด์ ๊ฒฝ์ฐ์๋ ๊ธ์๊ฐ ๋ค๋ฅธ ๊ธ์์ ์ผ๋ถ์ธ ๊ฒฝ์ฐ๋ ์๋๋ฐ(่ซ, ่ฒ), ์บ๋ฆญํฐ ๋ ๋ฒจ์์๋ ์ด๋ฌํ ๊ด๊ณ๋ฅผ ์๊ธฐ ์ด๋ ต๋ค. solution : ๊ธ์๋ค์ ‘utf-8’๋ก ์ธ์ฝ๋ฉํ ๋ค์ BPE๋ฅผ ์ ์ฉํ์. result : 1) ๋ ์ ์ ํ๋ผ๋ฏธํฐ๋ก BPE์ ๋น์ทํ ์ฑ๋ฅ 2) BPE๋ณด๋ค ๋ ์งง์ sequence length์ ๋ง๋ค์ด train / inference ์๋์๋ ์ฉ์ด 3) transfer learning์ ์ฉ์ด(OOV๋ฌธ์ ๋ฅผ ํด๊ฒฐ) details :
- multi-lingual์ ํ ๋, ์ค๊ตญ์ด๋ ์ผ๋ณธ์ด์์ ์ ๋์ค์ง ์๋ ์บ๋ฆญํฐ๋ค ๋๋ฌธ์ vocab์๋ฅผ ์ก์๋จน์.
>>> '่ฒ'.encode('utf-8')
b'\xe8\x9f\xb2'
>>> '่ซ'.encode('utf-8')
b'\xe8\x99\xab'
>>> '์'.encode('utf-8')
b'\xec\x95\x88'
>>> '์'.encode('utf-8')
b'\xec\x95\x8a'
utf-8 ์ธ์ฝ๋ฉ์ ํ ๋ค, n-gram์ ํตํ BPE vocab set์ ๋ง๋ฆ
encoding์ transformer๋ฅผ ์ฌ์ฉํจ
decoder๋ encoder์ ๋นํด BBPE๋ฅผ ์ ์ฉํ๊ธฐ๊ฐ ์ด๋ ค์ด๋ฐ, ๋ชจ๋ ์บ๋ฆญํฐ๋ byte sequence๋ก ํํํ ์ ์์ง๋ง, ๋ฐ๋์ ๊ฒฝ์ฐ์๋ invalidํ byte sequence๊ฐ ๋์ฌ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ํ์ต๋ ๋ชจ๋ธ์์ ์ด๋ฌํ ํ์์ ๊ฑฐ์ ๋ฐ์ํ์ง ์์๋ค.
- ํ์ต ์ค๊ฐ์๋ ๋ถํ์ํ๊ฒ byte๋ฅผ ๋ฐ๋ณตํ๋ ํ์์ด ์์๋๋ฐ, ์ฐ๋ฆฌ๋ ์ด๋ฌํ error pattern์ ์ต๋ํ ๋ง์ character๋ก ์๋ณตํ๋ ์์คํ ์ ๋ง๋ค์๋ค.
์ฌ๋ฌ MT ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ตํ๊ณ , beam search 4 ์ฌ์ฉ, ํ๊ฐ๋ก๋ tokenized BLEU(sacreBLEU )๋ฅผ ์ฌ์ฉํ๋ค.
Symbol Frequency Distribution : ๊ฐ๋ก๊ฐ symbol, ์ธ๋ก๊ฐ frequency. BBPE๊ฐ frequency์์ ๋ consistentํ distribution์ ๊ฐ์ง.

Cross-Lingual Sharing : ๋ค๋ฅธ ์ธ์ด ์ฌ์ด์์๋ writing ํ๋ ๋ฐฉ๋ฒ์ด ๋ค๋ฅด์ง๋ง ๊ฐ์ symbol์ ๊ณต์ ํ๋ ๊ฒฝ์ฐ๊ฐ ์๊น.

Impact on Sequence Length : BPE์ ๋ฌ๋ฆฌ BBPE๋ ๋จ์๊ฐ ์งง๊ธฐ ๋๋ฌธ์, sequence๊ฐ ๊ธธ์ด์ง๊ณ ์ด์ ๋ฐ๋ผ train, inference๊ฐ ๋ ์ค๋ ๊ฑธ๋ฆฐ๋ค. ํ์ง๋ง BPE์ ๋ง์ฐฌ๊ฐ์ง๋ก ์์ถ์ ํ๊ธฐ ๋๋ฌธ์, BPE๋ณด๋ค ๋ ์งง์ ์ํ์ค๋ฅผ ๊ฐ์ง ์ ์๋ค. (X-En์ ๊ฒฝ์ฐ 1/5)
BBPE on Nosiy Character Set : En-De์์๋ nosiy ํ ๋ฌธ์ฅ์ด ๋ช๊ฐ ์์๋๋ฐ, En-De ๋ชจ๋ 30๊ฐ์ ์ํ๋ฒณ์ผ๋ก ์ด๋ฃจ์ด์ ธ์๊ธฐ ๋๋ฌธ์ ๋ ๋ญ๋น๊ฐ ์ฌํ๋ค. BBPE๋ฅผ ํตํด 2K, 4K๋ก ๋ง๋ค์์ ๋ BPE 32K๋ก ๋ง๋ ๊ฒ๊ณผ ๋ชจ๋ธ ํฌ๊ธฐ๋ ์์ง๋ง ๋น์ทํ ์ฑ๋ฅ์ ๋ด๋ ๊ฒ์ ํ์ธํ๋ค.

BBPE on Character-Rich Languages ์ค๊ตญ์ด๋ ์ผ๋ณธ์ด ๊ฐ์ ๊ฒฝ์ฐ์ 50K์ ๊ธ์๋ฅผ ๊ฐ์ง๊ณ ์์ง๋ง ์ผ๋ถ๋ถ๋ง ๋ง์ด ์ฌ์ฉ๋๋ค. Ja-En ๋ฐ์ดํฐ์ ์์ 7.9K์ ์บ๋ฆญํฐ ์ค์ 2.4K์ ์บ๋ฆญํฐ๊ฐ ๋น๋์ 99.99%๋ฅผ ์ฐจ์งํ๋ค. BBPE๋ก ์ ์ฒด ์บ๋ฆญํฐ์ ๋ฐ์ธ 4K๋ฅผ ์ฌ์ฉํ๋ค. ์ด๋ BPE 16K๋ฅผ ์ฌ์ฉํ ๊ฒ๊ณผ ์ฑ๋ฅ์ด ์ ์ฌํ์ผ๋ฉฐ, big model์์๋ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์๋ค.

BBPE on Many-to-En Translation multilingual setting์์ BBPE๋ BPE๋ณด๋ค ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๊ฒ ์ฐ๋ฉด์ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ค. ์ด๋ BBPE๊ฐ sequence length๊ฐ ๋ ์งง๊ธฐ ๋๋ฌธ์ผ ์๋ ์์ง๋ง, ์ด์จ๋ ์ฑ๋ฅ๊ณผ ์๋๊ฐ ๋ ์ข๊ธฐ ๋๋ฌธ์ ๊ด์ฐฎ๋ค ^^

Transfer Learning on Unseen Characters BBPE๋ ๋ชจ๋ utf-8 bytes๋ฅผ ๊ฐ์ง๊ณ ์๊ณ , OOV token์ด ์๊ธฐ ๋๋ฌธ์, BBPE ๋ชจ๋ธ์ ๋ค๋ฅธ ์ธ์ด๋ก transfer๊ฐ ๊ฐ๋ฅํ๋ค. ๋ฐ๋ฉด์ character-based vocab์ ์๋ก์ด character๊ฐ ์ถ๊ฐ๋๋ฉด vocab์ ๋ฐ๊พธ๊ณ ์ฒ์๋ถํฐ ๋ค์ ํ์ตํด์ผํ๋ค. X-En์ ์๋ ์บ๋ฆญํฐ ์ ์ธ Si(Sinhala)-En ๋ฐ์ดํฐ๋ก BBPE ๋ชจ๋ธ๋ก transfer-learning์ ํ ๊ฒ์ (์ฌ์ง์ด ๊ณต์ ํ๋ char ์๋๋ฐ๋) baseline ๋ณด๋ค ์ฑ๋ฅ์ด ์ข์๋ค.
