image

paper

TL;DR

  • task : open vocab object detection
  • problem : novel한 class에 대한 od annotation이 없음
  • idea : CLIP 임베딩을 사용하자
  • architecture : CLIP을 사용하여 class를 text embedding으로 만들어주고 ViT의 토큰들을 query로 삼아서 bipartite matching을 한 뒤 DETR loss를 주어서 학습.
  • objective : DETR loss but sigmoid focal loss for class label
  • baseline : ViLD, GLIP
  • data : OI, VG, Object 365 -> LVIS(long-tail)
  • result : GLIP 보다 좋아보임
  • contribution : 아주 간단한 아키텍쳐로 Open vocab OD를 풀었다
  • limitation or 이해 안되는 부분 : GLIP이 Open vocab용으로 만들어진게 아닐듯?

Details

Architecture

image

training details

  • 처음에 각 이미지 토큰에서 한 bbox Prediction의 x, y가 해당 이미지 토큰 좌표 안에 있도록 초기화하니 성능이 더 빠르게 수렴
  • 다양한 augmentation / cleaning 적용

zero-shot performance

image

one-shot image-conditioned result

image

one-/few-shot performance

image