
TL;DR
problem : few-shot classification์ ๊ฐ์ domain(=ImageNet ๋ด์์ unseen label์ ์์ธก)์์๋ ์ ์๋๋์ง๋ง, ๋ค๋ฅธ ๋๋ฉ์ธ์ผ๋ก few-shot์ ํ ๊ฒฝ์ฐ ์ ์๋๋์ง ์์(ImageNet์ผ๋ก ํ๋ จ๋๊ฒ CUB ๋ฐ์ดํฐ๋ก few-shot test๋ฅผ ํ๋ฉด ์ ์๋์ด) solution : feature encoder์ feature-wise transformation layer(affine ๋ณํ)๋ฅผ ์ถ๊ฐํ์๊ณ ์ด๋์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ learning-to-learn ๋ฐฉ๋ฒ๋ก ์ผ๋ก ํ์ต๋จ. result : MatchingNet, RelationNet, Graph Neural Network์ ์์ feature-wise transformation์ ์ ์ฉํ์ ๋ generalization ์ฑ๋ฅ์ด ์ข์์.
details
- domain adaption / generalization์ ์ฐจ์ด๋ generalization์ ๊ฒฝ์ฐ ํ์ต ๋จ๊ณ์์ unseen domain์ ์ฌ์ฉํ์ง ์๊ณ generalize ํด์ผ ํจ.
- ์ฐ๋ฆฌ๋ domain generalization ๋ฌธ์ ๋ฅผ few-shot ์ ํ ์์ novelํ ํด๋์ค๋ฅผ ๋ถ๋ฅํ๋ ๋ฌธ์ ๋ก ๋ฐ๊ฟ.
3.1. Preliminaries
few-shot terms
- N_w : # of categories
- N_s : # of labeled examples for each categories
์๋ ๊ทธ๋ฆผ์ 3 way 3 shot few shot์ ์์

metric-based์ ์๊ณ ๋ฆฌ์ฆ์ feature encoder E์ metric function M์ผ๋ก ๊ตฌ์ฑ๋์ด ์์.
๊ฐ iteration์์ N_w๊ฐ์ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ๋ฝ๊ณ task T๋ฅผ ๋ง๋ ๋ค. input image๋ฅผ X, ์ด์ ํด๋นํ๋ label์ Y๋ผ๊ณ ํ๊ณ . task T๋ support set์ธ S={(X_s, T_s)}์ query set์ธ {(X_q, Y_q)}๋ก ๊ตฌ์ฑ๋๋ค.
feature encoder E๋ support์ query ์ด๋ฏธ์ง์ feature๋ฅผ ๋ฝ๊ณ metric function M์ ๋ฃ์ด support image์ label์ ์ฐธ๊ณ ํ์ฌ query image์ ์นดํ ๊ณ ๋ฆฌ๋ฅผ ์์ธกํ๋ค.

ํ์ต ๋ชฉํ ํจ์๋ query set์ ๋ํ ์ด๋ฏธ์ง์ classification loss์ด๋ค.

๋ค์ํ metric-based ์๊ณ ๋ฆฌ์ฆ์ ์ฃผ์ํ ์ฐจ์ด์ ์ ์ด๋ฏธ์ง ํผ์ณ๋ฅผ ๋ฝ๋ E์ ์ํคํ ์ณ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค. ๊ฐ๋ น MatchingNet์ LSTM, RelationNet์ CNN, GNN์ GCN
ํ์ตํ ๋ seen domain๋ค๋ก trainingํ๊ณ ํ๊ฐ๋ unseen domain์ ๋ํ์ฌ ํ์๋ค.
3.2. feature-wise transformation layer

์ฐ๋ฆฌ์ ๋ชฉํ๋ unseen ๋ฐ์ดํฐ์ ๋ํด generalization์ ๋ ์ํ๊ธฐ ์ํจ์ธ๋ฐ, metric function M์ด seen domain์ overfitting๋๊ธฐ ์ฌ์ฐ๋ฏ๋ก ์ด๋ฅผ ๋ง์์ค์ผํ๋ค.
์ง๊ด์ ์ผ๋ก, feature encoder E์ affine transformation์ ์ ์ฉํ๋ฉด ๋ ๋ค์ํ ๋ถํฌ๋ฅผ ํํํ ์ ์์ ๊ฒ ๊ฐ๋ค.
hyper parameter๋ ์ํ ๋ณํ ํ๋ผ๋ฏธํฐ๋ฅผ sampling ํ๊ธฐ ์ํ standard dev๋ฅผ ๋ปํ๋ค.

batch norm ์ดํ์ ์๋์ feature-wise transformation layer๋ฅผ ์ ์ฉํ๋ค.

3.3 Learning the feature-wise transformation layers(=FT layer)
- ์์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ๊ฒฝํ์ ์ผ๋ก ์ ํํ ์๋ ์๊ฒ ์ง๋ง ํ์ตํ ์ ์๋๋ก ํ๊ณ ์ถ๋ค. ์ฐ๋ฆฌ๋ ์ด๋ฅผ ์ํด learning-to-learn ์๊ณ ๋ฆฌ์ฆ์ ๋์์ธํ๋ค. ์ฃผ์ ์์ด๋์ด๋ FT ๋ ์ด์ด๋ฅผ ์ ์ฉํ์ฌ seen domain์ ๋ํด์ ํ์ตํ ๊ฒ์ด unseen domain์ ๋ํด์๋ ๋์ ์ฑ๋ฅ์ ๋ด๊ฒ ํ๋ ๊ฒ์ด๋ค.

๊ฐ training iter t ์์ seen domain ์ค samplingํด์ pseudo-seen domain(ps)๊ณผ pseudo-unseen domain(pu)๋ฅผ ๋ง๋ ๋ค. FT layer์ ๋ํด ํ๋ผ๋ฏธํฐ๋ฅผ ์ ์ฉํ์ฌ feature encoder์ metric function์ ์ ์ฉํ๊ณ seen domain task์ ๋ํด์๋ง loss๋ฅผ ๊ตฌํ๋ค.

generalization์ ์ธก์ ํ๋ ๋จ๊ณ์์๋ 1) ๋ชจ๋ธ์ FT ๋ ์ด์ด๋ฅผ ์ ๊ฑฐํ๊ณ 2) pseudo-unseen task์ ๋ํด์ ์
๋ฐ์ดํธ ๋ ๋ชจ๋ธ์ classification loss๋ฅผ ๊ตฌํ์ฌ ๊ณ์ฐํ๋ค. ์ฆ,

๋ง์ง๋ง์ผ๋ก, ์์ loss๋ FT ๋ ์ด์ด์ ํจ์จ์ฑ์ ๋ฐ์ํ๋ฏ๋ก, ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ฅผ ์๋์ ๊ฐ์ด ์
๋ฐ์ดํธ ํ๋ค.

์ฆ metric-based model๊ณผ feature-wise transformation layer(FT)๋ ํ์ต๋จ๊ณ์์ ํจ๊ป ํ์ต๋๋ค.
Experimental Results
FT : ๊ฒฝํ์ ๊ณ ๋ฅธ ํ์ดํผํ๋ผ๋ฏธํฐ๋ก FT layer ์ค์ ํ์ ๋

LFT : FT ๋ ์ด์ด์ ํ์ดํผํ๋ผ๋ฏธํฐ๊ฐ ํ์ต ๊ฐ๋ฅํ ๋,

๋๋ฉ์ธ๋ณ tSNE ๊ฒฐ๊ณผ. ๋๋ฉ์ธ๋ผ๋ฆฌ ์ ์์ฌ์์ -> cross-domain adapt๋ฅผ ์ํ ์ ์์.
