
TL;DR
- I read this because.. : https://github.com/long8v/PTIR/issues/82 ์ด๋ ๋ค๋ฅธ ๋ ผ๋ฌธ์์ ์ธ๊ธ๋๋๊ฑธ ์ข ์ข ๋ด. ๋ ๋จ์ด ์ ๋ชฉ ๊ฐ์ง
- task : input์ด๋ output์ด ์์์ ์๊ด์๋ set์ธ task๋ค. 1) ๋ชจ์์ ๋ถํฌ parameter ์ถ์ 2) ์ซ์๋ค ๋์ดํ๊ณ ์ดํฉ ๊ตฌํ๊ธฐ 3) point cloud classification 4) ์ด๋ค ๋จ์ด set์ concept / cluster์ ๊ฐ๊น์ด ๋จ์ด๋ค ์ฐพ๊ธฐ 5) ์ด๋ฏธ์ง์ ๊ด๋ จ๋ tag๋ค์ ๋ชจ๋ ์ฐพ๊ธฐ
- problem : permutation invariant task๋ค์ ํธ๋ deep network๊ฐ ๊ฐ์ ธ์ผ ํ๋ ํน์ฑ์ด ๋ญ๊ฐ ์๋์ง ์์๋ณด์.
- architecture : $f(x)=\sigma(\lambda I \mathbf{x} + \gamma \text{maxpool}(\mathbf{x})1)$
- result : ํ๋์ arch๋ก ๊ฐ๊ฐ ํน์ฑํ๋ ๋ชจ๋ธ๊ณผ ์ ์ฌํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ
- contribution : set input output์ ๋ํ ์ด๋ก ์ ํน์ฑ ๋ถ์, ๋ค์ํ application์์ ์ฑ๋ฅ ํ์ธ
- limitation / things I cannot understand :
Details
Permutation Invariance and Equivarnce
Problem Definition
function f๋ set์ ์์์ ์๊ด์์ด permutaion invariantํด์ผ ํ๋ค.

- $\pi$ : permutation
Structure
set $X$๋ฅผ ๋ฐ๋ function f(X)๋ ์๋์ ๊ฐ์ form์ผ๋ก decompose๋ ๋ pemutation invariantํ๋ค

์ด๋ค function $f_\theta : \mathbb{R}^M \rightarrow \mathbb{R}^M$์ผ ๋,
- $\sigma$ : nonlinearity function
- $\theta \in \mathbb{R}^{M\times M}$
$f_\theta(\mathbf{x})=\sigma(\theta\mathbf{x})$ ์ผ ๋, $\theta$์ ๋๊ฐ์ ์์๊ฐ ๊ฐ๊ณ ๋๊ฐ์ ์์๊ฐ ์๋ ๊ฒ๋ค์ด tie๋์ด ์์ ๋ permutation equivarant ํ๋ค.

์์ ๋ณด๋๊น ๊ทธ๋ฅ diagonal ๋ง ๋นผ๊ณ ๋ค ๊ฐ์ ๊ฐ์ด๊ณ diagnoal ๋ผ๋ฆฌ๋ ๋ค ๊ฐ์ผ๋ฉด ๋๋๋ฏ lambda * torch.eyes(5) + gamma * torch.ones(5,5)
$\mathbf{x}$๊น์ง ๋ฃ์ผ๋ฉด $f(x)=\lambda Ix \mathbf{(11^T)x})$ input Ix์ x์ summation์๋ค๊ฐ nonlinearity ์ทจํ๊ฒ permutation invariantํ๋ค(summation์ด permutation๊ณผ ์๊ด์์ผ๋)
Deep Sets
์์์ ์ ๋ฆฌํ ํน์ฑ๋ค์ univeral approximator๋ก ๋ฐ๊พธ๋ฉด ๋๋ค. ์ฆ, $\phi$์ $\rho$๋ฅผ polynomial๋ก ๊ทผ์ฌํ๋ฉด ๋๋ค ์ฆ 1) ๊ฐ๊ฐ์ instance $x_m$์ ์ด๋ค ํํ $\phi(x_m)$์ผ๋ก ๋ฐ๋๊ณ 2) ๊ทธ ํํ๋ค์ $\rho$ network์ ๋ฐ๋ผ ์ฒ๋ฆฌ๋ ๋ค ๋ํด์ง๊ฒ ๋๋ค. ์ด๋ค ๋ฉํ์ ๋ณด $z$๊ฐ ์์ ๊ฒฝ์ฐ ์์ ๋คํธ์ํฌ๋ค์ด condition์ด ์๋ mapping $\phi(x_m|z)$๋ก ํํ๋๊ฒ ๋๋ค.
Equivariant model

์ด๋ฅผ ๋ค๋ฅธ ์ฐ์ฐ์ผ๋ก ์นํํ๋ฉด ์๋์ ๊ฐ์ดํ ์ ์๋๋ฐ,

max-pool์ด sum๊ณผ ๋น์ทํ๊ฒ ๊ตํ๋ฒ์น์ด ์ฑ๋ฆฝํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ค์ ์ ์ฉํด๋ดค์ ๋ sum๋ณด๋ค Max์ฐ์ฐ์ด ๋ ์ฑ๋ฅ์ด ์ข์๋ค.
Applications and Empirical Results
์ ๊ท๋ถํฌ ๋์๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ๋ชจ์ ํต๊ณ ์ถ์

์ซ์๋ค ๋์ด ๋ณด์ฌ์ฃผ๊ณ summation ๊ตฌํ๋ผ ํจ text / mnist ์ด๋ฏธ์ง

ํ์ตํ ๋๋ ์ต๋ 10๊ฐ ๋ณด์ฌ์ฃผ๊ณ test ์์๋ 100๊ฐ๊น์ง ๋ณด์ฌ์ค Deep Set์ด RNN ๊ณ์ด๊ณผ ๋ฌ๋ฆฌ ์ผ๋ฐํ๊ฐ ์๋จ
- point cloud classification

LiDAR์์ ์ธก์ ๋๋ point๋ค์ ์์๊ฐ ๋ฑํ ์์.
text set expansion cheetah, tiger๊ฐ ์ฃผ์ด์ก์ ๋ ๋น์ทํ concept์ ๊ฐ์ง puma๋ฅผ ๋ฝ๋ ํ์คํฌ. unsupervised

image tagging ํน์ ์ด๋ฏธ์ง์ ํด๋นํ๋ ํ ์คํธ ํ๊ทธ๋ค์ ๋ชจ๋ ๋ฌ๊ธฐ ํ์ตํ ๋๋ ํ๊ทธ๋ค ๋ช๊ฐ๋ฅผ ์ฃผ๊ณ ๋๋จธ์ง ํ๊ทธ๋ค์ ์์ธกํ๋ผ๊ณ ํ๊ณ ํ ์คํธ ์์๋ ์ด๋ฏธ์ง๋ง ์ฃผ๊ณ ํ๊ทธ๋ค์ ์์ธกํ๋๋ก ํ์ ๊ฐ ์์(์ด๋ฏธ์ง์ ํ๊ทธ)๋ฅผ ์ธ์ฝ๋ฉ ํ๋ ๋คํธ์ํฌ ํ๋, ๊ทธ ์์๋ค์ ํฉ์ ํตํด set์ ์ ์๋ฅผ ๊ตฌํ๋ ๋คํธ์ํฌ๊ฐ ํ๋ ์์. -> ๊ทธ๋ฌ๋ฉด ๋ชจ๋ set์ ์กฐํฉ์ score๋ฅผ ๊ตฌํด์ best๋ฅผ ๋ฝ์๊ฑด๊ฐ? ๋ชจ๋ฅด๊ฒ ์

anomaly detection CelebA์ ์ด๋ฏธ์ง์ ๊ทธ ์ด๋ฏธ์ง์ ํด๋นํ๋ tag๋ค์ด ๋ฌ๋ ค์๋๋ฐ ํ๊ทธ๋ณ๋ก ์ด๋ฏธ์ง ๋ชจ์๋๊ณ ํ๊ฐ๋ง ๋ค๋ฅธ ๊ทธ๋ฃน์์ ์ด๋ฏธ์ง ๋ฝ์. ์ด๋ฏธ์ง ์ํ์ค๋ฅผ ๋ฐ๊ณ ๋ง์ง๋ง softmax ๋ ์ด์ด์์ ๋ช๋ฒ์งธ๊ฐ ์๋ชป๋ ์ด๋ฏธ์ง์ธ์ง ์์ธกํ๋๋ก ํจ. Deep sets์ ์ฐ๋ฉด test์ 70%๋ฅผ ๋ง์ท๋๋ฐ FCN์ ์ด basline์ random guess ์์ค์ ์ฑ๋ฅ.

ํ์์ฐ๊ตฌ? http://proceedings.mlr.press/v97/lee19d/lee19d.pdf pooling ๋์ ์ attention ์ฐ์ฐ์ผ๋ก!