TL;DR
- I read this because.. : CLIP pretrained ๋ฅ๋ ฅ์ ์์ด๋ฒ๋ฆฌ์ง ์์ผ๋ฉด์ ๋ณด์์ ์ผ๋ก ํ์ตํ๊ธฐ ์ํ method. LiT ๊ด๋ จ ๋ ผ๋ฌธ ์ฐพ๋ค๊ฐ ์ฐพ์
- task : CLIP
- problem : CLIP์์ reference ๋๋ฉ์ธ์ ๋ํด finetuning์ ํ๋ฉด CLIP์์ ์๋ ํ์ต๋ general domain์ ๋ํ ์ง์์ ์์ด๋ฒ๋ฆด ์๋
- idea : CLIP zero-shot ๋ฅ๋ ฅ๊ณผ target domain์ finetuneํ ๋ชจ๋ธ์ ์์๋ธ ํ์ -> weight interpolate๋ฅผ ํตํด ์์๋ธํ์!
- input/output : {image, text} -> score
- architecture : CLIP, ViT, BASIC-L
- objective : InfoNCE
- baseline : zs-CLIP, finetuned CLIP.
- data : WIT(clip), JFT-300M(vit) -> ImageNet, ImageNetV2, ImageNet-R, ImageNet sketch, ObjectNet, ImageNet-A
- evaluation : ์๋ ๋๋ฉ์ธ๊ณผ shift๋ ๋๋ฉ์ธ์์์ ์ ํ๋.
- result : ImageNet ์ฑ๋ฅ์ ์ ์งํ๋ฉด์๋ domain shift๊ฐ ์๋ ์ ๋คํํ ๋ ์ฑ๋ฅ ๊ฐ์
- contribution : ๊ฐ๋จํ ์์ด๋์ด + implement ํ๊ธฐ ์ฌ์ฐ๋ฉด์๋ ์ฑ๋ฅ์ด ์ข์
- etc. :
Details
Related work
- Stochastic Weight Averaging https://arxiv.org/pdf/1803.05407.pdf
param์ moving average๋ฅผ ์ฐ๋๊ฒ ์ผ์ข ์ ensemble ํจ๊ณผ๋ฅผ ๊ฐ์ง๊ณ ์๋ค
domain shift data
Weight-space ensemble for finetuning
๋๋ฌด ๊ฐ๋จ..
- pretrianed CLIP์ ๊ฐ์ง๊ณ ์์ target domaind์ ๋ํด์ ft. fully ft(end-to-end)ํ ์๋ ์๊ณ ๋ง์ง๋ง classifier๋ง ํ ์๋ ์๋ค(LC)
- mixing coefficient๋ฅผ ๋๊ณ ๊ฐ element-wise๋ก average๋ฅผ ๊ตฌํ๋ค
์ฌ๊ธฐ์ alpha๋ greedyํ๊ฒ ์ฐพ์์ผ ํ๋ 0.5๋ก ์ค์ ํ์ ๋ optimum์ด๋ ๊ฑฐ์ ๋น์ทํ๊ฒ ๋์๋ค.
Result
์ฒซ๋ฒ์งธ ๊ทธ๋ฆผ : x์ถ์ ImageNet(reference distribution)์ด๊ณ y์ถ์ distribution shift๊ฐ ์๋ ๋ฐ์ดํฐ์ ๋ค ๋ณด๋ผ์์ด zs clip ์ฑ๋ฅ์ด๊ณ ํ๋์์ด ๊ทธ๋ฅ ๊ทธ ๋ฐ์ดํฐ๋ก ํ์ตํ ์ ๋ค. ์ฃผํฉ์์ด ๊ทธ ๋ฐ์ดํฐ๋ก finetune ํ ์ ๋ค ๋๋ฒ์งธ ๊ทธ๋ฆผ : Wise-FT๋ฅผ ํ๋ฉด reference ์ ํ๋ ๊ฐ์ ์์ด distribution shift ์๋ ์ ๋ค ์ฑ๋ฅ์ ๋๋ฆด ์ ์์
finetune ํ๊ฒ๋ค ๋ณด๋ฉด distribution shift ์๋๊ฒ๋ค ์ฑ๋ฅ์ด ๋จ์ด์ง ์ ์ํ WISE-FT ๋ณด๋ฉด reference domain์์๋ ์ฑ๋ฅ์ด ft๋ณด๋ค ๋ ์ข์์ง๊ณ (86.2 -> 87.1) distribution shift๊ฐ ์๋ ์ ๋ค๋ ์ข์์ง
clip์์ฒด๊ฐ hparam์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ๋๋ฌด ํ๋ค๋ฆฌ๋ ๊ฒฝํฅ์ฑ -> weight-space ensemble ํ๋ฉด frontier!
๊ฐ๊ฐ์ ๋๋ฉ์ธ์ ๋ํด finetuning ํ ๊ฒ๋ณด๋ค ์ฑ๋ฅ์ด ์ข์!
Analysis
zero-shot๊ณผ linear classifier๋ ๊ฒฝํฅ์ด ๋ฌ๋๊ณ linear-classifier ๋ผ๋ฆฌ๋ ๊ฒฝํฅ์ด ๋น์ทํ๋ค. -> ๋ ํฐ ์์๋ธ ํจ๊ณผ๊ฐ ์์๋ ๋ฏ ํ๋ค
output์ ensembleํ๋ ๊ฒ๋ณด๋ค weight ensembleํ๋๊ฒ ๋ ์ฑ๋ฅ๊ฐ์ ์ด ์ข์๋ค!