
paper
TL;DR#
- task : open vocab object detection
- problem : ๊ธฐ์กด์ object detection ๋ชจ๋ธ๋ค์ closed set์ผ๋ก ์์ธกํ์ฌ ํ์ฅ์ฑ์ด ์ด๋ ต๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ open vocab object detection ๋ค์ PRN์ ๋จผ์ ํ๊ณ class ์์ธก์ ํด์ ์๋ก์ด class์ ๋ํ bbox ์์ธก์ด ์ด๋ ต๋ค.
- idea : DETR์ ์ฌ์ฉํ์ฌ end2end๋ก object detection์ ํด๋ณด์! class๋ก ์ฌ์ฉํ๊ณ ์๋๊ฑธ CLIP์ ์ฌ์ฉํ์ฌ ํ
์คํธ ์๋ฒ ๋ฉ์ผ๋ก ๋ณด๋ด์.
- architecture : image์ text(=class)๋ฅผ CLIP์ ํตํด ์๋ฒ ๋ฉ์ ํ ๋ค์ object queries์ ํฉํด์ฃผ์ด conditional query๋ฅผ ๋ง๋ ๋ค. ํ ์ด๋ฏธ์ง์ ์ฌ๋ฌ object๊ฐ ๋์ฌ ์ ์์ผ๋ N๊ฐ๋ก ๋ณต์ฌํด์ค๋ค. ์ดํ bipartite matching์
[obj], [no obj]๊ฐ ์๋๋ผ input image์ conditional query๊ฐ ์ฃผ์ด์ก์ ๋ [matched], [not matched]๋ก ํ๊ฒ ๋๋ค. - objective : bce(match / not match) + bbox loss(gIoU, L1) + embedding reconstruction loss(L1)
- baseline : OVR-CNN, ViLD
- data : COCO, ELVIS
- result : OV OD ๋ชจ๋ธ ๋๋น ๊ทธ๋ฅ AP, novel ํด๋์ค์ ๋ํ AP ๋๋ค SOTA
- contribution : end2end open vocab object detection
- limitation or ์ดํด ์๋๋ ๋ถ๋ถ : ๋ชจ๋ base class / novel class์ ๋ํ ์๋ฒ ๋ฉ์ ์ด๋ฏธ ๊ฐ์ง๊ณ ์๊ณ (๋
ผ๋ฌธ์์ ๋งํ๋ R๊ฐ), ๊ทธ๊ฑฐ๋ ๋ค ๋งค์นญ์ ํด์ ์์ธก์ ํ๋๊ฒ ๋ง๋? ํท๊ฐ๋ฆผ. ๊ทธ๋ผ ํ์ตํ ๋๋ in batch negative ์ด๋ฐ ์์ผ๋ก ํ๋ ค๋?
Details#



