
TL;DR
- task : personalized vision and language => personalized image retrieval/object detection/segmentation
- problem : user-specificํ object๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ตํ๊ณ ์ถ๋ค. CLIP์ adaptor๋ฅผ ์ถ๊ฐํ๋ ๋ฐฉ์์ ์ด์ class๋ค์ ์ฑ๋ฅ์ ์ ํ์ํค๋ ํจ๊ณผ๊ฐ ์์.
- idea : ์๋ก์ด concept์ ์๋ก์ด vocab์ผ๋ก ์ถ๊ฐํ์ฌ ํ์ต ํ์! ์ด๋ฅผ ์ํด 1) ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ก์ ๋ input word embedding์ ์ฐพ๋ inverse function์ ํ์ตํ๊ณ 2) ์ concept์ ์ด๋ฏธ์ง ๋ช์ฅ์ inverse function์ ํต๊ณผ์์ผ ์ concept์ word embedding์ ์ด๊ธฐํํ๋ค 3) ์ concept์ textual ์ ๋ณด๋ฅผ ๊ฐ์ง๊ณ finetuningํ๋ค.
- architecture : CLIP
- objective : ์ด๋ฏธ์ง ์ธ์ฝ๋๋ฅผ ํต๊ณผํ ์๋ฒ ๋ฉ๊ณผ
A photo of a [new vocab]์ ์๋ฒ ๋ฉ์ด ๊ฐ๊น์์ง๋๋ก, ์ concept์ super-concept๊ณผ์ ์๋ฒ ๋ฉ์ ๋ฉ์ด์ง๋๋ก ํ์ต - baseline : Adapter, text-only CLIP, COLLIE
- data : Youtube-VOS, DeepFashion2(both introduced in this paper)
- result : SOTA
- contribution : ์๋ก์ด ํ์คํฌ ์ ์. ํจ์จ์ ์ธ ์ํคํ ์ณ!
- limitation or ์ดํด ์๋๋ ๋ถ๋ถ : CLIP ๋ค์ ์ฝ์ด์ผ๋ ๋ฏ? Deep Sets?
Details
new setup, personalized vision & language

- pretrained model h(S, I)์ ์๋ก์ด sentence S์ ์ด๋ฏธ์ง I๊ฐ ๋ค์ด๊ฐ.
- ์๋ก์ด concept์ธ C๊ฐ ๋ค์ด๊ฐ์ V’ = V U C ๋ก ํ์ต๋ ์ ์๋๋ก ํ๊ธธ ์ํจ
- ํ์ต ์์๋ concept C์ ๋ํ ๋ช๊ฐ์ ์ด๋ฏธ์ง์ ์๋ก์ด ์ปจ์ ์ ๋ํ ์ค๋ช ํ ์คํธ(e.g. “mug”, “short sleeve top”)๊ฐ ์ฃผ์ด์ง
Adaptor vs new vocab ์ถ๊ฐ

์๋ก์ด vocab์ ์ถ๊ฐํ์ง ์์ผ๋ฉด ์ด์ class์ ๋ํ encoder output์ด ๋ญ๊ฐ์ง๋ค. ์ฐ๋ฆฌ์ ํ ์คํธ์๋ฒ ๋ฉ์ด ์๋ก์ด ์ปจ์ ์ ํ์ ์ ์์ ์ ๋๋ก ํฌ๋ค๋ ๊ฐ์ ์ผ๋ก ๋ชจ๋ธ์ด ์์
Architecture

DeepSets์ด๋ ๋คํธ์ํฌ๋ก inverse mapping function ํ์ต
Loss
