[45] BGT-Net: Bidirectional GRU Transformer Network for Scene Graph Generation

TL;DR

task : two-stage SGG
problem : object와 object 간의 관계를 잘 학습하자.
idea : bi-GRU로 object 간의 communication을 하도록 하자.
architecture : FasterRCNN으로 object 뽑고 visual / coordinate / class feature 뽑아서 bi-GRU에 넣음. 각 obj 별의 hidden output을 transformer encoder에 넣음. object들 n(n-1) pair에 대해 지지고 볶아서 relation 예측.
objective : cross-entropy loss
baseline : Neural Motif, IMP, Graph R-CNN
data : Visual Genome
result : SOTA
contribution : 잘 모르겠음.
limitation or 이해 안되는 부분 : region proposal을 n개 하면 $O(n^2)$만큼

object proposal 넣어서 relation 예측하는데 예측하는 방식은 3.3 BA부분에 설명되어 있음. $d = W_p * u_{i,j}$

$p_{i,j} = softmax(W_r(o_i’*o_j’*u_{i,j}) + d \odot \tilde p_{i->j}$

결론적으로 argmax해서 relation 구함.

VG 데이터셋이 long-tail이기 때문에, 마지막 softmax 단의 확률에 log를 취해줌