
TL;DR
- task : probabilistic object detection
- problem : NLL loss에 기반한 bbox prediction distribution은 bbox가 맞는지와는 관계없이 높은 entropy를 갖는 경향성
- idea : NLL loss 대신에 energy score를 사용하자 -> lower entropy, better calibrated
- architecture : RetinaNet, Faster-RCNN, DETR
- objective : Energy Score
- baseline : NLL loss, Direct Moment Matching(DMM)
- data : COCO, Open Images
- evaluation : mAP를 대체하는 새로운 metric 제안. GT 매칭 된 bbox 들 중 IoU<0.1이면 False Positive, 0.1 ~ 0.5이면 localization error, 0.5 이상인데 GT와 매칭된게 여러개면 class score 제일 높은걸 True Positive, 나머지를 Duplicate로 분리. mAP처럼 0.5 ~ 0.95로 thesholding해서 평균값 구함. Mean Calibration Error(MCE), regression Calibration Error(CE)도 구함.
- result : better calibrated, lower entropy, higher quality predictive distribution
- contribution : 새로운 evaluation 제안
- limitation or 이해 안되는 부분 : local-rule? non-local rule? entropy가 높으면 안좋은건가..
Details
Preliminaries
- energy p(x)가 exp(-E(x))에 비례한다고 할 때 E(x)를 energy라 부름
- scoring rule feature가 주어졌을 때 class 또는 bounding box를 예측하는 분포가 실제 관측된 사건이 주어졌을 때 얼마나 좋은지를 측정하는 함수
- variance network https://github.com/long8v/PTIR/issues/92
Negative Log Likelihood as a scoring rule
Multivariate Gaussian 하에서 NLL

Energy Score(ES)

- $z_n$ : ground truth bounding box
- $z_{n,i}$ : $N(\mu(x_n, \theta), \sigma(x_n, \theta))$에서 뽑은 $i^{th}$ 샘플
Monte Carlo로 아래와 같이 근사할 수 있음

Direct Moment Matching

Motivation

- NLL이나 energy score이나 최소점이 되는 값이 비슷
- NLL과 ES가 반대방향인데 NLL은 entropy가 낮을 때( $\sigma$ 가 낮을 때) 더 penalty를 많이 주고 ES는 더 높을 때 penalty를 많이 줌
- 그래서 NLL이 bbox가 맞던 틀리던 entropy가 높게 학습되는 경향성이 있음 -> 그래서 그게 왜 안좋은건지는 variance network를 이해해야될 듯..
Results
