image

paper , code

TL;DR

  • task : real-time object detection
  • problem : region proposal + pooling을 하는 다른 Faster RCNN류와 달리 한번에 box와 cls 예측을 하자
  • idea : Faster RCNN의 anchor와 비슷하게 각 feature map에 대해 다른 size / ratio를 가진 default box들에 대해서 상대적인 localization(dx, dy, dw, dh)를 구하고 모든 class에 대한 confidence를 구한다. 이걸 multi-scale feature에 대해서 한다.
  • architecture : VGG-16에 multi-scale feature map을 붙임(점점 feature map이 작아지도록). 각각의 feature map에 대해 (num of classes + 4(=coordinates)) * num of default box 을 예측하는 head를 붙임.
  • objective : class confidence에 대한 cross entropy loss와 localization loss의 가중합. boxes 후보들과 gt는 jaccard가 0.5이상인걸 다 매칭함.
  • baseline : Faster RCNN, YOLO
  • data : PASCAL VOC, COCO, ILSVRC
  • result : Faster RCNN, YOLO보다 inference도 빠르고 성능도 좋음
  • contribution : region proposal 따로 없이 한번에 !

Details

SSD framework

image

Architecture

image

loss

image image image

details

  • hard negative mining : 각 default box에서 가장 높은 confidence loss를 가지는 것을 negative로. positive : negative = 1: 3(=num of default boxes)가 되도록
  • augmentation : object들의 jaccard가 threshold 이상이 될 수 있도록 random crop. small object에 대한 augmentation 들어감.
  • faster RCNN : anchor랑 default boxes랑 같은 개념인듯~! faster RCNN의 motivation이 multi-scale feature를 쓰지 않는다여서 그게 다른듯. two-stage, one-stage 차이도 있고. image image image