TL;DR
- I read this because.. : explanation ํ๋ฉด ์์์ผ๋์ง ์์๊น ํ๊ณ ์ฝ์
- task : explainability in CNN
- problem : ๋ชจ๋ ์ข ๋ฅ์ CNN์ ์ ์ฉ๊ฐ๋ฅํ interpretableํ ๋ชจ๋์ ๋ถ์ฌ๋ณด์
- idea : convolution์ activation map $A^k$์ ์ฐ๋ฆฌ๊ฐ ์๊ฐํํ๊ณ ์ถ์ ํด๋์ค $y^c$์ ๋ํด ๋ฏธ๋ถํ๊ณ GAP๋ฅผ ํด์ importance๋ฅผ ๊ตฌํ๋ค ์ด๊ฑธ $A^k$์ weighted sum + ReLUํด์ ๊ตฌํ๋ค.
- input/output : {image, class or caption or answer} -> activation map
- architecture : VGG-16, AlexNet, GoogleNet
- objective : X
- baseline : CAM, Guided-BackProp, c-MWP
- data : ILSVRC-15, PASCAL VOC 2007
- evaluation : wsss, human evaluation, pointing game
- result : ์ฑ๋ฅ ์ ํ ์์ด(CAM์ ์ฑ๋ฅ์ด ์ ํ๋จ) ํ๋ฅญํ ์ค๋ช ๋ ฅ. wsss์์ ์ข์ seed. adversarial sample๋ ์๊ฐํ ์ํจ. ์ฌ๋ ๋ถ๋ฌ์ activate๋ ์ ๋ณด๊ณ class ๋ถ๋ฅํ๋ผ๊ณ ํจ(trustworthy), Guided-backprop ๋๋ Deconv๋ ์ฌ๋ํํ ๋ญ๊ฐ ๋ ๋ซ๋๊ณ ๋ฌผ์ด๋ด
- contribution : ๊ฐ๋จํ ์์ด๋์ด๋ก ์ฑ๋ฅ ์ ํ ์๋ de-facto method
- etc. : negative gradient๋ฅผ ์๋ณด๋ ๊ด์ต์ ์ฌ๊ธฐ์ ๋์๋ ๋ณด๋น. guided backprop์ด๋ Network Dissection ์ฝ์ด๋ณด์ฅ. “counterfactual explanation"์ด๋ ์ฉ์ด ์ค์ค
Details
proposed
์ฐ๋ฆฌ๊ฐ ์๊ฐํํ๊ณ ์ถ์ class c์ ๋ํ logit (softmax ์ด์ ) $y^c$๋ฅผ activation feature map $A_{ij}$์ ๋ํด ๋ฏธ๋ถํจ.
์ด๋ฅผ width, height (i, j)์ ๋ํด Global Average Pooling ํด์ importance๋ฅผ ๊ตฌํจ.
์ด๊ฑธ activation map๊ณผ ๋ค์ weighted sumํ ๋ค์ ReLU๋ฅผ ์ทจํ๋ฉด GradCAM
์ด๋ ๋ง์ง๋ง ๋ ์ด์ด์ conv feature map (14 x 14 size)๋ฅผ ์ฌ์ฉ (์ด์ ๋ ์ด์ด ์ฐ๋ฉด ์ฑ๋ฅ์ด ๋ณ๋ก ์ข์ง ์์) ์ฌ๊ธฐ์ ReLU๋ฅผ ์ ์ฉํ ์ด์ ๋ negativeํ๊ฒ ์ํฅ์ ์ฃผ๋ pixel์ ๋ค๋ฅธ ์นดํ ๊ณ ๋ฆฌ์ ํด๋นํ๋ ๊ฒ์ผํ ๋ ๊ทธ๋ผ. ReLU๋ฅผ ์ ์ฉ์ํ๋๊น ์ํ๋ class $y^c$๊ฐ ์๋ ๋ค๋ฅธ ํด๋์ค๊ฐ ํ์ฑํ๋ ๋๊ฐ ์์๊ณ localization ์ฑ๋ฅ์ด ๋จ์ด์ง.
guided grad-cam 14 x 14 feature map์ด ๋์ถฉ ์ฌ๊ธธ ๋ณด๊ณ ์๋ค๊ณ ๋ ์ ์ ์๋๋ฐ ๊ตฌ์ฒด์ ์ผ๋ก ์ด๊ฒ ์ “tiger cat"์ธ์ง์ ๋ํ finegrainedํ ์ค๋ช ์ ๋ชปํจ ๊ทธ๋์ guided backpropagation(Striving for Simplicity: The All Convolutional Net, https://arxiv.org/abs/1412.6806 )๋ผ๋ ๊ฑธ ์ฌ์ฉํด์ ๊ฐ์ด ๊ณฑํด์ ์๊ฐํ ํด์ค. Deconv๋ฅผ ์ธ ์ ์๋๋ฐ ์คํ์ ์ผ๋ก guided backprop์ด ๋ ์ข์๋ค๊ณ ํจ. Guided backprop์ ๋ํด “negative gradients are supressed"๋ผ๊ณ ์จ์ ธ์๋๋ฐ ๋ฌด์จ ๋ด์ฉ์ธ์ง ์ฝ์ด๋ณด์
counterfactual explanation
๋จ์ํ gradient์ negative๋ฅผ ๊ตฌํด์ค ๋ค ReLU๋ฅผ ์ทจํ๋ฉด(negative activation๋ง ๋จ์ํ ๋) counterfactual explanation์ด ๋จ. ์ด ํฝ์ ์ด ์ด ํด๋์ค๊ฐ ์ ์๋์ง์ ๋ํ ์ค๋ช !
Result
classification result
result on captioning model
textual explanation on neuron
Network Dissection: Quantifying Interpretability of Deep Visual Representations https://arxiv.org/abs/1704.05796 ์ด๊ฑฐ ์ฝ์ด๋ณด์ฅ
- result with adversarial noise
์ด๋ฏธ์ง์ ์ด์ง perturbationd์ ์ทจํ๋ฉด airliner 0.9999๋ก ์์ธกํ๋ ์์. ๊ทผ๋ฐ ์ด๋ ๊ฒ ํด๋ GradCAM์ ์๋๋ค.