[81] Equalization Loss for Long-Tailed Object Recognition

2022년 11월 22일 · 2 분 · long8v · | 번역:

En

View original issue on GitHub →

목차

TL;DR
Details

TL;DR

task : long-tail object recognition
problem : 이전의 연구들은 foreground - background에만 집중했고 foreground 내의 class imbalance에 대해 다루지 않았다! sigmoid, softmax 든 rare한 class들은 frequent한 class의 negative sample로 인해 gradient에 영향을 받는다.
idea : sigmoid / softmax의 $log(p_j)$ term 앞에 frequency 기반의 weight를 주자.
architecture : ResNet-50 Mask R-CNN
objective : equalization loss(proposed in this paper)
baseline : sigmoid, softmax, class-aware sampling, class balanced loss, focal loss
data : LVIS v0.5, CIFAR-100-LT, ImageNet-LT
result : baseline 대비 AP, AP50의 전체적인 성능 향상. rare, frequent에 대한 성능은 베이스라인 대비 떨어지고 common의 성능이 매우 좋음.
contribution : 아마 foreground 내 class imbalance를 다룬 첫 논문인듯?

Details

Motivation

오른쪽으로 갈수록 rare한 클래스인데 negative sample의 gradient가 positive 보다 높아지는 영향이 있음

Equalization Loss Formulation

$E(r)$ : foreground면 1 아니면 0
$f_j$ : class j의 frequency
$T_\lambda$ : $x < \lambda$면 0 아니면 1인 tresholding

이때 $\lambda$는 아래의 Tail Ratio(TR)을 보고 고름 => 절대적으로 크면 좋고 낮으면 좋고는 아니고 그냥 값에 따라 frequent <=> rare 성능이 달라짐.

Softmax Equalization Loss Formulation

weight를 분모에만 곱해주넹

$\beta$ : $\gamma$의 확률로 1이 되고 $1-\gamma$의 확률로 0이 되는 랜덤변수

Result

추가하면 성능은 전체적으로 다 좋아짐!

다른 Long-tail Loss와 비교했을 때는 전체적으로 좋아지지만 rare, frequent에 대해서는 sampling 방법보다는 안좋음 Focal 보다는 확실히 좋음!

Ablation

tail ratio가 높아지면 frequent한 Class에 대해 잘하고 rare는 점점 떨어지는 모습 -> $\lambda$가 완전 하이퍼파라미터임

background이면 1로 바꿔주는 E(r)에 대한 ablation. rare가 안좋아지넹