
Introduction
Bootstrap* Your Own Latent(BYOL)์ online network, target network ๋ ๋คํธ์ํฌ๊ฐ ์ํธ์์ฉํ๊ณ ์๋ก ํ์ตํ๋๋ก ์ค๊ณ๋์๋ค. ํ ์ด๋ฏธ์ง๋ฅผ ์ด๊ทธ๋ฉํ ์ด์ ์ํจ ๊ฒ์ online network์ ๋ฃ์ด์ ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ๋ค๋ฅด๊ฒ ์ด๊ทธ๋ฉํ ์ด์ ์ํจ ๊ฒ์ target network์ ๋ฃ์์ ๋์ ํํ์ ๋ํ๋ด๋๋ก ํ์ตํ๋ค. ๋์์ ์ฐ๋ฆฌ๋ online ๋คํธ์ํฌ์ slow-moving average๋ก target ๋คํธ์ํฌ๋ฅผ ํ์ต์ํจ๋ค. ํ์ฌ SOTA ๋ชจ๋ธ๋ค์ negative pair๋ฅผ ์ฌ์ฉํ์ง๋ง, BYOL์ ์ด ์์ด ์๋ก์ด SOTA๋ฅผ ๋ฌ์ฑํ์๋ค.
*bootstrap์ ML์ฉ์ด๊ฐ ์๋๋ผ ๊ทธ ์์ฒด์ ๋ป์ธ
to improve your situation or become more successful, without help from others or without advantages that others have๋ก ์ฐ์๋ค.

- ์ด์ ์ ์ฐ๊ตฌ๋ค์ pseudo-label์ ์ฐ๊ฑฐ๋, cluster indicies๋ฅผ ์ฐ๊ฑฐ๋, handful label์ ์ผ์ง๋ง, ์ฐ๋ฆฌ์ ์ฐ๊ตฌ๋ ๋ฐ๋ก representation์ bootstrapํ๋ค.
- ์ฐ๋ฆฌ์ ์ฐ๊ตฌ๋ negative pair๋ฅผ ์ฐ์ง ์์ ์ด๋ฏธ์ง ์ด๊ทธ๋ฉํ ์ด์ ์ ๊ฐ๊ฑดํ๋ค.
- #9 ๊ฐ์ ๋ฐฉ๋ฒ๋ก ๋ค์ ์ด๋ฏธ์ง์ ์ด๊ทธ๋ฉํธ๋ ์ด๋ฏธ์ง๋ค์ ๊ฐ์ ์ด๋ฏธ์ง๋ก ์์ธกํ๋ฉด์ ํ์ต๋์๋๋ฐ, representation space์ prediction problem์ ์ฃผ๋ฉด representation collapse๊ฐ ์๊ธด๋ค. ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ๋คํด, ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ์ด๊ทธ๋ฉํธํ ๊ฒ๊ณผ ๋ค๋ฅธ ์ด๋ฏธ์ง๋ฅผ ์ด๊ทธ๋ฉํธ ํ๊ฒ์ ์ฐจ์ด๋ฅผ ์์ธกํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ฉํ์์ผ๋, ์ด๋ ๊ต์ฅํ ๋ง์ negative sample์ ์ ์ํ์ฌ์ผํ๋ ํ๊ณ๊ฐ ์๋ค.
- negative sample ์์ด collapse๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํ์ฌ, ๋จ์ํ ํด๊ฒฐ์ฑ ์ ๊ณ ์ ๋ ๋๋ค์ ๋คํธ์ํฌ๋ฅผ ์ฐ๋ฆฌ์ ์์ธก์ ํ๊ธฐ ์ํ ํ๊ฒ์ด ๋๋๋ก ๋ง๋๋ ๊ฒ์ด๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ์ collapse๋ฅผ ๋ฐฉ์งํ๊ธด ํ์ง๋ง, ์ฑ๋ฅ์ ๋ฎ๋ค. ๊ทธ๋ฌ๋ ๋๋ผ์ด ์ ์ ๊ทธ๋ฅ random initialized network๋ฅผ linear evaluation ํ๋ ๊ฒ์ 1.4%์ ์ ํ๋๋ฅผ ๊ฐ์ง์ง๋ง, fixed random initialized network์ output์ ์์ธกํ๊ฒ ํ๋ฉด 18.8%์ ์ ํ๋๋ฅผ ์ป๋๋ค. ์ด ์คํ์ด BYOL์ motivation์ด ๋์๋ค.
- representation(=target network)์ด ์ฃผ์ด์ก์ ๋, ์ฐ๋ฆฌ๋ ์๋ก์ด online network๋ฅผ target representation์ ์์ธกํ๋๋ก ํ์ตํ ์์๋ค. ๊ทธ๋ก๋ถํฐ ์ฐ๋ฆฌ๋ ์ด๋ฌํ ์ ์ฐจ๋ฅผ ๋ฐ๋ณตํจ์ ๋ฐ๋ผ ๋ ๋์ ํ๋ฆฌํฐ์ ํํ์ ํ์ตํ ์ ์๊ณ , ๋ ํ์ตํ๊ธฐ ์ํด ๋ค์์ online network๋ฅผ ์๋ก์ด target network๋ก ์ค์ ํ์ฌ ํ์ตํ ์ ์๋ค. ์ค์ ๋ก๋ online network์ moving exponential average๋ฅผ ์ฌ์ฉํ์ฌ bootstrap ์ ์ฐจ๋ฅผ ๋ฐ์๋ค.
BYOL

- online network๋ encoder, projector, predictor๋ก ๊ตฌ์ฑ๋์ด ์๊ณ weight \theta๋ฅผ ๊ฐ์ง๊ณ ์๋ค.
- target network๋ online๊ณผ ๊ฐ์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์์ง๋ง, ๋ค๋ฅธ weight์ธ \psi๋ฅผ ๊ฐ์ง๊ณ ์๊ณ , online network์ target์ ์ ๊ณตํ๋ ์ญํ ์ ํ๋ค. ์ด๋, ํ๋ผ๋ฏธํฐ \psi๋ online parameter \theta์ moving average์ด๋ค.

ํ ์ด๋ฏธ์ง์ ๋ํด ์ด๊ทธ๋ฉํ
์ด์
์ํจ \nu, \nu’๋ฅผ ๋ง๋ค๊ณ ๊ฐ๊ฐ์ ๋คํธ์ํฌ๋ฅผ ํ์ด๋ค. ์ดํ online์ ๋ง์ง๋ง prediction์ output์ target์ projection ๊ฒฐ๊ณผ์ MSE๋ฅผ ๊ตฌํ๋ค.

์ดํ ๋ค์ online network์ ์ด๊ทธ๋ฉํ
์ด์
๋ \nu, \nu’ ๋ฐ๋๋ก ๋ฃ๊ณ , loss๋ฅผ ๊ตฌํ๋ค. ๊ทธ๋ฆฌ๊ณ loss๋ฅผ ํฉํ๋ค \theta์ ๋ํด์๋ง minimize๋ฅผ ํ๋ค.
Implementation details
- Image Augmentation #9 ๊ณผ ๊ฐ์ augmentation set์ ์ฌ์ฉ. ๋๋ค ํจ์น๋ก select 224 x 224 random horizontal flip …
- Architecture ResNet-50 for encoder, average pooling for representaion layer, MLP(4096 -> ReLU -> 256) for prediction layer. no batch norm.
- Optimization : LARS, cosine decay, …
Result
linear evaluation in ImageNet

Finetuning(=Semi-supervised training) in ImageNet

Transfer to other classification task

Transfer to other vision task

Ablation

simCLR๊ณผ ๋น๊ตํด๋ดค์ ๋ batch_size๋ฅผ ์ค์ด๊ณ augmentation์ ์ค์์ ๋ฐ๋ผ ์ฑ๋ฅ ํ๋ฝ์ด ๋ํ๋ค.

moving average๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์๋ฏธ๊ฐ ์์๋ค.

target netork๋ฅผ ๋๋ ๊ฒ์ด ์๋ฏธ๊ฐ ์์๋ค.