
TL;DR
- I read this because.. : ๋ ผ๋ฌธ๋ชจ์์์ ์ธ๊ธ์ด ๋ง์ด ๋์ด์ ์ฝ์.. ๊ทธ๋ฌ๋ ๋ด๊ฐ ์ด๊ฑธ ์ฝ์์๋ค..
- task : object detection -> phrase grounding ๋ฌธ์ ๋ก ์นํํด์ ํ์ต
- problem : ์ด๋ฏธ์ง ๋ถ๋ฅ ๋ชจ๋ธ์ ์ ํด์ง ์นดํ ๊ณ ๋ฆฌ ๋ด์์ ๋ถ๋ฅํ๊ธฐ ๋๋ฌธ์ real world์ ์ ์ฉํ๊ธฐ ์ด๋ ต๋ค. CLIP์ด image-text pair๋ก ์ด๋ฅผ ํด๊ฒฐํ์ง๋ง, ์ด๊ฑด ์ด๋ฏธ์ง ๋ถ๋ฅ์์์ ์ด์ผ๊ธฐ๊ณ object detection ๋ ๋ฒจ์ ํ์คํฌ๋ ๊ทธ๋ ๊ฒ ํ๊ณ ์ถ๋ค!
- idea : object detection ๋ฌธ์ ๋ฅผ class ๋ค์ด prompt ํ์์ผ๋ก ์ฃผ์ด์ก์ ๋ ์ด๋ฏธ์ง์์ ๊ทธ prompt์ ๋จ์ด๋ค๊ณผ align์ ์ํ๋ phrase grounding ๋ฌธ์ ๋ก ๋ฐ๊ฟ๋ณด์.
- architecture : 1) Visual Encoder(Swin) + DyHead 2) Pretrained BERT 3) 1๊ณผ 2๋ฅผ early fusion.
- objective : cls loss(with alignment score!) + regressor loss
- baseline : Faster RCNN, DyHead
- data : COCO, LVIS, Flickr30K, Object365, GoldG, OpenImages, Visual Genome, ImageNetBoxes
- evaluation : AP
- result : 1) ํ์ต ๋ ์ฃผ์ด์ง์ง ์์ COCO, LVIS ๋ฐ์ดํฐ์ ์ ๋ํ์ฌ supervised baseline ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ 2) COCO์ ๋ํด finetuneํ์ ๋ SOTA ๋ฌ์ฑ 3) 13๊ฐ์ object detection ๋ค์ด์คํธ๋ฆผ ํ์คํฌ์์ 1-shot GLIP์ด supervised Dynamic Head๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ.
- contribution : CLIP in object detection
- limitation / things I cannot understand :
Details
preliminaries
- Dynamic Head : #94
- MDETR
- visual grounding : https://cvml.tistory.com/4

Data
- COCO : 80๊ฐ์ object categories, training 118K, valid 5K, test 41K
- LVIS : long tail object detection. 1000๊ฐ์ categories.
- Flickr30K : ์ด๋ฏธ์ง์ ์ด์ ๋ํ 5 reference sentences. data for image captioning
- Objects365 : 365 categories, 2 million images, 30 million bounding boxes
- GoldG : 0.8M์ ๋ฐ์ดํฐ๋ก MDETR ๋ ผ๋ฌธ์์ human annotation ์จ์ ๋ง๋ grounding data
- OpenImages : 15,851,536 boxes on 600 categories, 478,000 crowdsourced images with 6,000+ categories
- Visual Genome : 108,077 Images, 5.4 M Region Descriptions, 2.3M Relationships
- ImageNetBoxes : ?
- architecture object detection์ ๋๊ฐ์ loss๋ก ์ด๋ฃจ์ด์ง๋๋ฐ, localization loss์ classification loss์ ํฉ์. ์ด ๋, localization์ ๋ํ ๊ฑด ์ด ๋ ผ๋ฌธ์ ์์ญ์ด ์๋. classification์ ๋ํ ๋ฌธ์ ๋ง tackleํ ๊ฑฐ์.
๋ณดํต์ object detection ๋ฌธ์ ์์ classification loss๋ ์๋์ ๊ฐ์ด ์ ์๋จ.

์ฌ๊ธฐ์ classification ๋์ Image Encoder ๋ฐ๋ก prompt๋ฅผ ์ฒ๋ฆฌํ๋ Language Encoder๋ฅผ ๋ฐ๋ก ๋ ๋ค ์ด์ ๋ด์ ์ด alignment score๊ฐ ๋๊ฒํจ. ์ด๊ฒ classifier logit์ ๋์ฒดํ๊ฒ ๋จ.

๊ทธ๋ฆฌ๊ณ ๋๊ฐ์ด loss์ ๋ฃ์ผ๋ฉด ๋๋๋ฐ ๊ทธ๋ฅ ํด๋์ค๋ณด๋ค ์ฐจ์์ด ์ถ๊ฐ๋ ๊ฒ์.(multiple data, tokenization,[no_obj] token).
loss๋ binary sigmoid loss๋ฅผ ์ฌ์ฉํ๋ฉด ๋จ.

detection ๋ชจ๋ธ๋ก๋ FasterRCNN, DynamicHead(SOTA), image encoder๋ Swin-T, Swin-L๋ฅผ ์ฌ์ฉํ๊ณ textual encoder๋ BERT๋ฅผ ์ฌ์ฉํ์.

deep fusion์ ๋ณ๊ฑด ์๋๊ณ ๊ฐ์์ encoder์์ ๋์จ๊ฑธ ํฉ์น๋๊ฒ ์๋๋ผ(late-fusion์ด๋ผ๊ณ ๋ถ๋ฆ.) ๋ ์ด์ด ์์๊ฐ๋ฉด์ ์ ๋ณด๋ฅผ ๊ตํํ๊ฒ ๋ค๋ ์ทจ์ง. ์ด๋ BERT๋ ์ด๋ฏธ ์๋๋ ์ด์ด ์์ ์๋ก์ด ๋ ์ด์ด๋ฅผ ์์์ ๊ทธ ์์ layer๋ค์ output์ ๊ตํํจ.
Result
