
TL;DR
- task : Scene Graph Generation
- problem : SGG 특성 상, unlabeled 데이터가 많고 특정 relation만 많이 등장하는 long tail distribution.
- idea : Positive-Unlabeled Learning 관점으로 문제를 바라봐서 logit 값을 전체 클래스 레이블의 frequency로 나눠주자.
- architecture : object detector + GNN인듯?
- objective : cross entropy loss
- baseline : MOTIFS, …
- data : Visual Genome, Visual Genome150
- result : 현재 VG150에 대해서 sgdet SOTA인 듯하다.
- contribution : long-tail 문제를 해결
- limitation or 이해 안되는 부분 :
Details

Recovering the Unbiased Scene Graph

- s: labeled pred
- y : true pred
- r : target pred
unbiased probability

이때 label되는 확률이 x에 독립적이라고 가정하면(Selected Completely at Random, SCAR) 아래와 같이 쓸 수 있음

p(s=r|y=r)은 결국 전체 클래스 r에 대해서 label된 example의 비율
Dynamic Label Frequency Estimation
위의 p(s=r|y=r), 즉 label frequency에 대한 추정치를 구함.

이 식이 유도된건

결국 전체 데이터의 클래스별로 frequency 로 나눠주는거임 -.-
- inference 전에 post-training estimation을 구하기 어렵고
- SGDET의 경우에는 gt bbox가 없으니 valid한 example을 추정하기가 어려움.
그래서 우리는 tail class에 대해 vaild한 example을 얻기 위해 data augmentation을 할거고, label frequency는 배치별로 추정을 할 것임.
이러한 아이디어를 Dynamic Label Frequency Estimation(DLFE)라고 할 것임.


