TL;DR
- I read this because.. : ์ธ๊ธ๋์ด. ํ ์ด๋ฏธ์ง๋ฅผ ํํํ๋ ํ ์คํธ๊ฐ ์ฌ๋ฌ๊ฐ๊ฐ ๋ ์ ์์. ์ด์ ๋ํ ambiguity?!(์ก๊ฐํธ, ๋จ์ ๋ฐฐ์ฐ, ๋จ์)
- task : contrastive learning
- problem : ํ ์ด๋ฏธ์ง์ ๋ํด ํ
์คํธ๊ฐ ํํํ ๋ ๋ค์ํ ์ธต์์์ ํํ๋ ์ ์์(
๊ฐ๊ฐ ๋ ์์ ์ ์๋ค,๊ฐ์์ง,ใฑใ ใ ~) - idea : CLIP์ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ euclidean ๊ณต๊ฐ์ด ์๋๋ผ hyperbolic ๊ณต๊ฐ์ผ๋ก ์ฎ๊ธฐ์
- input/output : image/text -> score
- architecture : CLIP๊ณผ ๊ฐ์
- objective : contrastive + entailment loss
- baseline : CLIP trained with YFCC-100M(by SLIP)
- data : YFCC-100M
- evaluation : image text retrieval, zs-image classification
- result : ๊ฐ์ ๋ ์ฑ๋ฅ. ํน์ ์ด๋ฏธ์ง์์ [ROOT]์ ๋ํด traverse ํ๋ฉด์ ๋์ค๋ text๊ฐ ์ ์ genericํด์ง๊ฑธ ๋ณด์.
- contribution : ์๋ง CLIP์ hyperbolic space์์ ํ ์ฒซ work?
- etc. :
Details
Motivation
Arch
Lifting embeddings onto the hyperboloid
CLIP encoder๋ฅผ ํต๊ณผํ๋ฉด ๊ฐ๊ฐ์ ์ด๋ฏธ์ง, ํ
์คํธ ๋ฒกํฐ๋ n์ฐจ์์ ๋ฒกํฐ๋ก ๋์ค๊ณ ์ฌ๊ธฐ์ origin 0๋ฒกํฐ๋ฅผ ์ถ๊ฐํ๋ transformation์ ์ ์ฉ
$v =[v_{enc}, 0]\in\mathbb{R}^{n+1}$ ์ด origin O์ tangent space์ ๋ค์ด๊ฐ๊ฒ ๋๊ณ , ์ด๋ฌ๋ฉด 0๊ณผ ๋ด์ ํ๋ฉด 0์ด๋๋ ์กฐ๊ฑด์ ์ถฉ์กฑํ๊ฒ ๋๋ค.
Lorents ๋ชจ๋ธ์ space ๊ณต๊ฐ์ ๋ํด์๋ง ๊ณ์ฐํ๊ฒ ๋๋ฉด ๋๋ค.
๊ทธ๋ด ๊ฒฝ์ฐ์ x ๋ฒกํฐ์ ๋ํ exponential map(tangent space -> manifold๋ก ํฌ์ํ๋ map vectors)์ ์๋์ ๊ฐ์ด ์ ๋ฆฌ๋๋ค.
์ฆ CLIP encoder์์ ๋์จ ์๋ฒ ๋ฉ์๋ค๊ฐ ์ transformation์ ์ ์ฉํ๋ฉด hyperbolic space๋ก ๊ฐ๊ฒ ๋๋ค.
Lorents inner product๋ ์๋์ ๊ฐ์ผ๋ฏ๋ก ๋ด์ ์ ํตํด similiarity๋ฅผ ๊ตฌํ๊ณ contrastive loss๋ฅผ ์ถ๊ฐํ๋ฉด ๋๋ค
Entailment loss
์๋์ ๊ฐ์ loss๋ฅผ contrastive loss์ ์ถ๊ฐํด์ค
์ํ์ ์ดํด๋ ์ ๋ชจ๋ฅด๊ฒ ๊ณ ์ด loss๋ฅผ ์ถ๊ฐํ๋ ์ง๊ด์ {Text-image}ํ์ด๊ฐ ์์ ๋ text๊ฐ image๋ฅผ entail ํด์ผ ํจ.
Results
- ํ ์คํธ๊ฐ ์ข ๋ generic ํ๊ณ ๋๋ฆฌ ๋ถํฌ๋์ด ์์
- ๋์ ๊ณต๊ฐ์ด ์์ ๋ถ๋ฆฌ ๋์ด ์์