[82] Estimating and Evaluating Regression Predictive Uncertainty in Deep Object Detectors

TL;DR

task : probabilistic object detection
problem : NLL loss에 기반한 bbox prediction distribution은 bbox가 맞는지와는 관계없이 높은 entropy를 갖는 경향성
idea : NLL loss 대신에 energy score를 사용하자 -> lower entropy, better calibrated
architecture : RetinaNet, Faster-RCNN, DETR
objective : Energy Score
baseline : NLL loss, Direct Moment Matching(DMM)
data : COCO, Open Images
evaluation : mAP를 대체하는 새로운 metric 제안. GT 매칭 된 bbox 들 중 IoU<0.1이면 False Positive, 0.1 ~ 0.5이면 localization error, 0.5 이상인데 GT와 매칭된게 여러개면 class score 제일 높은걸 True Positive, 나머지를 Duplicate로 분리. mAP처럼 0.5 ~ 0.95로 thesholding해서 평균값 구함. Mean Calibration Error(MCE), regression Calibration Error(CE)도 구함.
result : better calibrated, lower entropy, higher quality predictive distribution
contribution : 새로운 evaluation 제안
limitation or 이해 안되는 부분 : local-rule? non-local rule? entropy가 높으면 안좋은건가..

energy p(x)가 exp(-E(x))에 비례한다고 할 때 E(x)를 energy라 부름
scoring rule feature가 주어졌을 때 class 또는 bounding box를 예측하는 분포가 실제 관측된 사건이 주어졌을 때 얼마나 좋은지를 측정하는 함수
variance network https://github.com/long8v/PTIR/issues/92

Multivariate Gaussian 하에서 NLL

Monte Carlo로 아래와 같이 근사할 수 있음

NLL이나 energy score이나 최소점이 되는 값이 비슷
NLL과 ES가 반대방향인데 NLL은 entropy가 낮을 때( $\sigma$ 가 낮을 때) 더 penalty를 많이 주고 ES는 더 높을 때 penalty를 많이 줌
그래서 NLL이 bbox가 맞던 틀리던 entropy가 높게 학습되는 경향성이 있음 -> 그래서 그게 왜 안좋은건지는 variance network를 이해해야될 듯..