
TL;DR
- task : image-to-graph generation
- problem : two-stage image-to-graph generation 모델도 복잡하고 복잡도도 O(n**2).
- idea : entity들의 pair-wise interaction(=>O(n**2)) 대신 relation token과 entity의 interaction을 사용하도록 하자.

- architecture : CNN backbone + deformable DETR(Encoder, Decoder with N + 1(=relation) tokens) + Object Detection Head and Relation Prediction Head.

- objective : bbox loss(gIOU + regression loss) + cross-entropy for entity class + hungarian으로 뽑힌 object에 대한 relation에 대한 cross-entropy loss.
- baseline : two-stage models, FCSGG, #40
- data : Toulouse, 20 US Cities, DeepVesselNet, and Visual Genome.
- result : SGG) extra feature(단어의 glove vector, knowledge graph)를 안쓴 것들 중에서는 SOTA
- contribution : simple architecture with inductive bias!
Details
Parameter

log softmax, frequency-bias 넣어줬음.

Relation Prediction Head
pair-wise [obj] token, shared [rln]-token -> $MLP_{rln}({o^i, r, o^j})_{i!=j}$
- object detection에서 뽑은 k개의 object에 대해 k(k-1)개의 pair에 대해 [rln] 토큰의 output을 3-layer FCN 돌린거랑 concat해서 relation 뽑음. -> 여전히 $O(n^2)$임!
MLP -> 3 layer FCN + LN SGG 같은 경우엔 order가 subject, object를 결정함
[rln] 토큰들에 대한 저자들의 주장
- object에 비해 higher order topological를 가지고 있어서 expressive capacity가 추가적으로 필요하다
- [obj] 토큰들이 relation까지 뽑아야하는 burden을 줄인다
- [obj] 토큰들이 [rln]토큰들과 attention이 걸리면서 global semantic reasoning을 한다
SGTR과 비교했을 때,
- entity와 subject / object 가 구분되지 않음 -> entity에 대한 loss는 한번만!
- SGTR에서는 image feature를 계속 명시적으로 모델에게 넣어줬는데 여기는 그러지 않음.
Loss
Stochastic Relation Loss

hungarian matcher에 의해 gt object와 매칭된 object들에 대해서 pair-wise relation에 대해 cross entropy loss를 구했다. relation이 있으면 valid, 없으면 background라는 relation을 두었는데 background가 많으므로 1:3 비율로 맞췄다.
Ablation
[rln] 토큰 있고 없고에 대한 ablation

성능 차이가 많이 난다
Results
