
TL;DR
- task : real-time object detection
- problem : region proposal + pooling을 하는 다른 Faster RCNN류와 달리 한번에 box와 cls 예측을 하자
- idea : Faster RCNN의 anchor와 비슷하게 각 feature map에 대해 다른 size / ratio를 가진 default box들에 대해서 상대적인 localization(dx, dy, dw, dh)를 구하고 모든 class에 대한 confidence를 구한다. 이걸 multi-scale feature에 대해서 한다.
- architecture : VGG-16에 multi-scale feature map을 붙임(점점 feature map이 작아지도록). 각각의 feature map에 대해 (num of classes + 4(=coordinates)) * num of default box 을 예측하는 head를 붙임.
- objective : class confidence에 대한 cross entropy loss와 localization loss의 가중합. boxes 후보들과 gt는 jaccard가 0.5이상인걸 다 매칭함.
- baseline : Faster RCNN, YOLO
- data : PASCAL VOC, COCO, ILSVRC
- result : Faster RCNN, YOLO보다 inference도 빠르고 성능도 좋음
- contribution : region proposal 따로 없이 한번에 !
Details
SSD framework

Architecture

loss

details
- hard negative mining : 각 default box에서 가장 높은 confidence loss를 가지는 것을 negative로. positive : negative = 1: 3(=num of default boxes)가 되도록
- augmentation : object들의 jaccard가 threshold 이상이 될 수 있도록 random crop. small object에 대한 augmentation 들어감.
- faster RCNN : anchor랑 default boxes랑 같은 개념인듯~! faster RCNN의 motivation이 multi-scale feature를 쓰지 않는다여서 그게 다른듯. two-stage, one-stage 차이도 있고.
