
TL;DR
- task : two-stage SGG
- problem : object와 object 간의 관계를 잘 학습하자.
- idea : bi-GRU로 object 간의 communication을 하도록 하자.
- architecture : FasterRCNN으로 object 뽑고 visual / coordinate / class feature 뽑아서 bi-GRU에 넣음. 각 obj 별의 hidden output을 transformer encoder에 넣음. object들 n(n-1) pair에 대해 지지고 볶아서 relation 예측.
- objective : cross-entropy loss
- baseline : Neural Motif, IMP, Graph R-CNN
- data : Visual Genome
- result : SOTA
- contribution : 잘 모르겠음.
- limitation or 이해 안되는 부분 : region proposal을 n개 하면 $O(n^2)$만큼
Details
Architecture

object proposal 넣어서 relation 예측하는데 예측하는 방식은 3.3 BA부분에 설명되어 있음. $d = W_p * u_{i,j}$
- $u_{i,j}$ 2048차원의 subjet-object pair의 union feature? 어떻게 만들었는지는 안 써있음
$p_{i,j} = softmax(W_r(o_i’*o_j’*u_{i,j}) + d \odot \tilde p_{i->j}$
- $\odot$은 HadaMard Product
- *은

결론적으로 argmax해서 relation 구함.

Frequency Softening
VG 데이터셋이 long-tail이기 때문에, 마지막 softmax 단의 확률에 log를 취해줌

Results
