[73] Simple Open-Vocabulary Object Detection with Vision Transformers

TL;DR

task : open vocab object detection
problem : novel한 class에 대한 od annotation이 없음
idea : CLIP 임베딩을 사용하자
architecture : CLIP을 사용하여 class를 text embedding으로 만들어주고 ViT의 토큰들을 query로 삼아서 bipartite matching을 한 뒤 DETR loss를 주어서 학습.
objective : DETR loss but sigmoid focal loss for class label
baseline : ViLD, GLIP
data : OI, VG, Object 365 -> LVIS(long-tail)
result : GLIP 보다 좋아보임
contribution : 아주 간단한 아키텍쳐로 Open vocab OD를 풀었다
limitation or 이해 안되는 부분 : GLIP이 Open vocab용으로 만들어진게 아닐듯?