
TL;DR
- task : two-stage Scene Graph Generator
- problem : ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ triplet๋ค์ด ๋
๋ฆฝ์ ์ด๋ผ๊ณ ๊ฐ์ ํ๊ณ parallel ํ๊ฒ ์์ธกํ๋ค

- idea : ๋ค๋ฅธ ์์ธก๋ relations๋ค์ ๋ณด๊ณ auto-regressive ํ๊ฒ ์์ธกํ๋ฉด ๋ ์ ํ ๊ฒ์ด๋ค! (์์ ๊ทธ๋ฆผ ์ฐธ๊ณ )
- architecture : ํธ๋์คํฌ๋จธ ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ์ธ๋ฐ, ๋์ฝ๋์์ encoder์์ ๋์จ ๊ฐ์ relation์ ๋ํ ์๋ฒ ๋ฉ๊ณผ ํจ๊ป [S, P, O]๋ก ๋ฃ์ด์ self-attention์ ํด์ฃผ๊ณ , encoder์์ ๋์จ ๊ฐ์ cross-attention๋ ํด์ค๋ค.
- objective : cross entropy loss + recall, mRecall์ ๋ํ reinforcement learning ์ ๊ทผ๋ฒ ์ถ๊ฐ
- baseline : Graph R-CNN, …
- data : VRD, Visual Genome
- result : SOTA
- contribution : SGG์์ ์ฒ์ ๋ณด๋ auto-regressive ํ ์ ๊ทผ๋ฒ
- limitation or ์ดํด๊ฐ ์ ๋๋ ๋ถ๋ถ : ํ์ต์ด ๋๋๊ฒ ์ ๊ธฐํจ.. -> (ํ ๋ก ํ) multi-object detection์๋ sequentialํ๊ฒ ๋ฃ์ด์ฃผ๋ ๊ฒฝ์ฐ ์์์. (์ด ์ฌ์ง์ ๊ณ ์์ด๊ฐ ์์์ผ๋ฉด ๊ฐ๋ ์์ ๊ฒ์ด๋ค. ๋ผ๋๊ฑธ ํ์ต) ํธ๋์คํฌ๋จธ ๋์ฝ๋์์๋ input ์ ๋ณด๋ง ๋ณด๋๊ฒ ์๋๋ผ cross-attention๋ ๊ฑธ๋ฆฌ๊ณ ํ๋๊น input์ด ๊ผญ ๋ด๊ฐ ๋ฝ๊ณ ์ถ์๊ฑฐ๋ ๊ด๋ จ์ด ์์ ํ์๋ ์๋๋ฏ.
Details
Architecture

Object Encoder
๊ทธ๋ฅ ํธ๋์คํฌ๋จธ ์ธ์ฝ๋. ๊ทผ๋ฐ input์ผ๋ก ๋ญ ๋ฃ์ด์คฌ๋ค๋์ง ์ ๋ชจ๋ฅด๊ฒ ์. ๊ทธ๋ฅ visual feature map์ด๋ ค๋? $X_b$๋ b๋ฒ์งธ ํธ๋์คํฌ๋จธ block์ output
Relationship Decoder
contextualized object features $X_B\in \mathbb{R}^{N\times D}$(N์ object ๊ฐ์๊ณ D๋ ์๋ฒ ๋ฉ ์ฐจ์์ธ๋ฏ)์ ๊ทธ ์ step๊น์ง ์์ธก๋ relationship $\hat Y_{1:m}$์ ๋ฐ์์ m(+1)๋ฒ์งธ relationship์ ๋ฝ๋ ์ผ์ ํจ.
์ด๋ decoder์ input์ subject์ contextualized embedding๊ณผ object์ contextualized embedding, ์ด์ ์ ๋ฝํ relation์ ๋ํ ์๋ฒ ๋ฉ๊ฐ์ concatํด์ ๋ค์ด๊ฐ. $(X_B[i], E[r], X_B[j])$
๊ทธ๋ฌ๋๊น ์ด์ ์ ์์ธกํ ๊ฑธ ์๋ฒ ๋ฉํด์ ๋ฃ์ด์ฃผ๋ฉด ๋ค์๊ฑฐ๊ฐ ๋์ค๋ ํน์ดํ ๊ตฌ์กฐ์. concatํ๊ฑธ D์ฐจ์์ ffn ํ๊ณ self-attention, cross-attention์ ํต๊ณผํจ. ์ฒ์์๋ ๊ทธ๋ฅ D์ฐจ์์ง๋ฆฌ <SOS>๋ฅผ ๋ฃ์ด์ค.
cross-attention์ ๊ฒฝ์ฐ์ decoder์ self-attention์ผ๋ก ๋์จ $Y_k$์ encoder์์ ๋์จ $X_B$๋ ๊ฑธ์ด์ค์ ๋์ด.

๋ง์ง๋ง K๋ฒ์งธ decoder layer์ output $Y_K$๋ฅผ ๊ฐ์ง๊ณ ๋ค์ relationship triplet์ ์์ธกํจ.
๋ชจ๋ ๋จ์ pair์ ๋ํด์ ์๋์ ๊ฐ์ด ์์ธกํจ. ๊ทธ๋ฆฌ๊ณ softmax๊ฐ ๊ฐ์ฅ ๋์ ๊ฒ์ด ์ ํ๋จ.

$i$ : subject indices, $j$ : object indicies
Training scheme
- triplet ์์๋ shuffling ํด์ ํ์ตํจ.
- loss๊ฐ ์๋๋ positive pair์ ๋ํด์๋ง ๋ถ๊ฐ๋๋๋ฐ VRD๋ no relation์ ์์ธกํ๋ ๊ฒ๋ ์ค์ํด์ negative pair๋ ์ถ๊ฐํจ.

Reinforcement Learning
- training์์๋ input history๋ฅผ GT๋ก ๋ฐ์ง๋ง(teacher-forcing) inference์์๋ ๊ทธ๋ ์ง ์์ 2) cross entropy loss์ recall ์ฌ์ด์ gap์ด ์์. -> ๋์ฝ๋ฉ ํ ๋ ๊ฐํํ์ต ์์๋ฅผ ์ถ๊ฐํ์.
recall๊ณผ mRecall์ ๋ฐ๋๋ก ์์ง์ด๋ ์ฑํฅ์ด ์์. ๊ทธ๋์ alpha ์ถ๊ฐํ์ฌ reward๋ก ์ ์ํจ.


์ฌ๊ธฐ์ action์ ๋ชจ๋ pair์ ๋ํด์ logit ๊ฐ์ด ๋์์ ๋ ์ด๋ค๊ฑธ ์ ํํ ์ง. state๋ m๊ฐ๋ฅผ ์ ํํ ์ํ. RL ์ ์ฉํ๋ greedy decoding๋ณด๋ค ๋์๋ค.
Expreiments

Qualitative Results

independentํ๊ฒ ์์ธกํ๋ ๊ฒ๋ณด๋ค gt ๋ง์ถ ํ๋ฅ ์ด ๋์์ก๋ค.