
Details
Multi-task Learning
์ ์๋๋๊ฐ?
- ํ ํ์คํฌ์ ๋ํ ์ค๋ฒํผํ ์ ๋ง์ผ๋ฉฐ 2) ๋ฐ์ดํฐ ์ด๊ทธ๋ฉํ ์ด์ ํจ๊ณผ 3) “inductive bias"๋ฅผ ํ์ต 4) ์ข์ feature๋ฅผ ํ์ต
hard parameter sharing vs soft parameter sharing
- hard parameter sharing

๋ณดํต ์๊ฐํ๋ MTL ๋ชจ๋ธ ๊ตฌ์กฐ
- soft parameter sharing

๊ฐ๊ฐ ํ์คํฌ์ ๋ง๋ ๋คํธ์ํฌ๋ฅผ ์๊ณ ๊ฐ ๋คํธ์ํฌ์ ํ๋ผ๋ฏธํฐ๊ฐ ๋๋ฌด ๋ฌ๋ผ์ง์ง ์๋๋ก L2 norm loss๋ฅผ ๋ถ๊ณผ
Recent work on MTL for deep learning
Deep Relationship Networks FCN์ matrix prior๋ฅผ ๋ถ๊ณผํด์ ๋ชจ๋ธ์ด ํ์คํฌ ๊ฐ์ relationship์ ํ์ตํ ์ ์๊ฒ ํจ

Cross-stitch network

ํ์คํฌ๋ณ๋ก ๋ณ๋์ ๋คํธ์ํฌ๊ฐ ์๊ณ ๊ฐ ๋คํธ์ํฌ์ ํ๋ผ๋ฏธํฐ๊ฐ ํ์ต ๊ฐ๋ฅํ $\alpha$๋งํผ linear combination ๋๋๋ก
- Weighting losses with uncertainty

๊ฐ task์ Uncertainty๋ฅผ ์ธก์ ํ๊ณ multi-task loss function์ ์๋์ ์ธ weight ์ถ๊ฐ -> ์ด๊ฑฐ ์ฝ์ผ๋ฉด ์ข์๋ฏ!
Auxiliary tasks
- related task ๊ด๋ จ ์๋ ํ์คํฌ๋ฉด ๋ ์ข์
- adversarial ๊ฐ๊ณ ์ถ์ ๊ฒ์ ๋ฐ๋๋ฅผ ํตํด์ ํ์ต. ๊ฐ๋ น Domain adaptation์์ ์ธํ์ ๋๋ฉ์ธ์ ์์ธกํ๊ณ adversarial task์ ๊ทธ๋๋์ธํธ๋ฅผ Reverseํด์ ์ฌ์ฉํ๋ ์ฐ๊ตฌ? Ganin, 2015
- ํํธ ์กฐ๊ธ ๋ ์ฌ์ด ํ์คํฌ๋ฅผ ์ฌ์ฉ. ๊ฐ๋ น ๋ฌธ์ฅ์ ๊ฐ์ ์์ธก์ ํ๋ ํ์คํฌ๋ฅผ ๊ธ์ /๋ถ์ ์ผ๋ก ๋๋ ์ ํ์ต -> connectivity ์คํ ์๊ฐ๋๋น!
- Representation learning ๊ฒฐ๊ตญ ์ข์ ํํ์ ๋ง๋ค๊ธฐ ์ํจ์ด๋ Representation์ ์๋ง๋๋ ๊ฒ๋ auxiliary task๊ฐ ๋ ์ ์์. ๊ฐ๋ น language modeling์ด๋ autoencoder๊ฐ ๊ทธ ์์.
๊ฑ ๋๋ ์
BERT๊ฐ ์ ๋ง ํ๊ดด์ ์ด๊ตฌ๋ ๋๋ ใ ใ