image

paper

TL;DR

  • task : Scene Graph Generation
  • problem : SGG 특성 상, unlabeled 데이터가 많고 특정 relation만 많이 등장하는 long tail distribution.
  • idea : Positive-Unlabeled Learning 관점으로 문제를 바라봐서 logit 값을 전체 클래스 레이블의 frequency로 나눠주자.
  • architecture : object detector + GNN인듯?
  • objective : cross entropy loss
  • baseline : MOTIFS, …
  • data : Visual Genome, Visual Genome150
  • result : 현재 VG150에 대해서 sgdet SOTA인 듯하다.
  • contribution : long-tail 문제를 해결
  • limitation or 이해 안되는 부분 :

Details

image

Recovering the Unbiased Scene Graph

image
  • s: labeled pred
  • y : true pred
  • r : target pred

unbiased probability image

이때 label되는 확률이 x에 독립적이라고 가정하면(Selected Completely at Random, SCAR) 아래와 같이 쓸 수 있음 image

p(s=r|y=r)은 결국 전체 클래스 r에 대해서 label된 example의 비율

Dynamic Label Frequency Estimation

위의 p(s=r|y=r), 즉 label frequency에 대한 추정치를 구함. image

이 식이 유도된건 image

결국 전체 데이터의 클래스별로 frequency 로 나눠주는거임 -.-

  1. inference 전에 post-training estimation을 구하기 어렵고
  2. SGDET의 경우에는 gt bbox가 없으니 valid한 example을 추정하기가 어려움.

그래서 우리는 tail class에 대해 vaild한 example을 얻기 위해 data augmentation을 할거고, label frequency는 배치별로 추정을 할 것임. 이러한 아이디어를 Dynamic Label Frequency Estimation(DLFE)라고 할 것임. image

image

image