
paper
TL;DR#
- task : open vocab object detection
- problem : novel한 class에 대한 od annotation이 없음
- idea : CLIP 임베딩을 사용하자
- architecture : CLIP을 사용하여 class를 text embedding으로 만들어주고 ViT의 토큰들을 query로 삼아서 bipartite matching을 한 뒤 DETR loss를 주어서 학습.
- objective : DETR loss but sigmoid focal loss for class label
- baseline : ViLD, GLIP
- data : OI, VG, Object 365 -> LVIS(long-tail)
- result : GLIP 보다 좋아보임
- contribution : 아주 간단한 아키텍쳐로 Open vocab OD를 풀었다
- limitation or 이해 안되는 부분 : GLIP이 Open vocab용으로 만들어진게 아닐듯?
Details#
Architecture#

training details#
- 처음에 각 이미지 토큰에서 한 bbox Prediction의 x, y가 해당 이미지 토큰 좌표 안에 있도록 초기화하니 성능이 더 빠르게 수렴
- 다양한 augmentation / cleaning 적용

one-shot image-conditioned result#

