
TL;DR
- I read this because.. : SGG two-stage ์ด๊ธฐ ๋ ผ๋ฌธ
- task : two-stage SGG
- problem : ์ ํ ์ฐ๊ตฌ๋ค ์ค ํ๋. ์ด ๋ ผ๋ฌธ ์ ์ neural motfis, #104, SGG with iterative message passing ์ ๋ ์์๋ ๋ฏ
- idea : ๊ฐ ์ค๋ธ์ ํธ๋ค์ ๊ฐํ๋ embedding์ผ๋ก ๋ง๋ค์ด์ ์์ธกํ์!
- architecture : Faster-RCNN + object๋ฅผ ํํํ๋ ์๋ฒ ๋ฉ์ ๋ง๋ค๊ณ ์ด๊ฑธ๋ก $O(n^2)$๊ฐ pair์ ๋ํด relation cls ๋ถ๋ฅ. global feature + od๊ฐ ๋ฝ์ cls์ ๋ํ ์๋ฒ ๋ฉ + RoI visual feature + relative geometric ์ ๋ณด๋ค์ด ๋ค์ด๊ฐ.
- objective : 1) ์ด๋ฏธ์ง ๋ ๋ฒจ์์ object class๋ฅผ multi-label loss 2) ๊ฐ object์ ๋ํด cls loss 3) relation classification loss
- baseline : neural motfis, #104, SGG with iterative message passing
- data : Visual Genome
- evaluation : SGdet, SGcls, PredCls
- result : sota
- contribution : simple !
Details
Architecture

Global Context Encoding Module feature์ ๋ํด AvgPool ํ ๋ค์ FC ๋ถ์ฌ์ multi-label classification
Relation Embedding Module Obejct feature $O_i$๋ฅผ ๋ง๋๋๋ฐ OD๊ฐ ์์ธกํ cls $l_i$์ ์๋ฒ ๋ฉ๊ณผ RoI pooling์ผ๋ก ๋ฝ์ feature, image ์ ์ฒด์ context feature $c$๋ฅผ ํด์ ์๋ฒ ๋ฉ์ ๋ง๋ค๊ณ , FCN์ ์์์ cls๋ฅผ ์์ธกํ๋ค



relation์ ๊ตฌํ ๋ geometric feature๋ ๋ฃ์ด์ค๋ค

Loss

Result
