Problem : ViT๋ ์์ ๋ฐ์ดํฐ์ ์์์ ์ฑ๋ฅ์ด CNN ๋ณด๋ค ๋จ์ด์ง. local-feature๋ฅผ ์ ๋ชป์ก๊ณ , attention ๊ตฌ์กฐ๊ฐ ๋น์ ์ ์ํด ์ค๊ณ๋์ง ์์ Solution : Transformer์ ๋ฃ๋ input์ ๋จ์ ํ ํฐ์ด ์๋๋ผ, T2T module์ ๊ฒฐ๊ณผ๋ฅผ ์ฌ์ฉํจ. T2T ๋ชจ๋๋ n x n ์ผ๋ก ์๋ฅธ ์ด๋ฏธ์ง๋ฅผ Transformer์ ๋ฃ๊ณ ๊ทธ token out๋ค์ ๋ค์ ์ด๋ฏธ์ง์ฒ๋ผ w, h๊ฐ ์๋๋ก ๊ตฌ์กฐํ ์ํด. ์ดํ ์ธ์ ํ ํ ํฐ๋ผ๋ฆฌ ํ ํจ์น๋ก ๋ง๋ค์ด ๊ฐ ํจ์น๋ฅผ concatํ ๋ค ๋ค์ T2T ๋ชจ๋๋ก ๋๊น. ์ด๋ ๊ฒ n๋ฒ์ ๋ฐ๋ณตํ์ฌ ๋์จ ๊ฒ์ ํจ์จํ๋ ํธ๋์คํฌ๋จธ backbone์ ํ์ต. Result : ์ ์ฌํ๊ฑฐ๋ ๋ ํฐ ๊ท๋ชจ์ CNN์ด๋ ViT๋ณด๋ค ์ด๋ฏธ์ง ๋ถ๋ฅ์์ ์ฑ๋ฅ ์ฐ์. ๋๋์ : ViT๊ฐ ์ฒ์์ inductive bias๊ฐ ์๋ค๋ฉด์ ๋์๋๋ฐ, ๊ฒฐ๊ตญ CNN์ ๊ตฌ์กฐ๋ค์ ์ฐจ์ฉํ ๋ชจ๋ธ๋ค์ด ๋ ๋น ๋ฅด๊ฒ ํ์ตํ๋๊ฒ์ ๋ณด๋ inductive bias๋ ๋น ๋ฅด๊ฒ ํ์ตํ๊ธฐ ์ํด ํ์ํ๋ค.(ํฐ ๋ฐ์ดํฐ์ ์ ๋ํด์ ํ์ต ๊ณผ์ ์์ ๊ทธ๋ฐ inductive bias๋ฅผ ์์์ ํ์ตํ๋ ๋ ๋ซ๋๋ณด๋ค) ๊ทธ๋ผ์๋ CNN๋ณด๋ค transformer๊ฐ ๋์ ์ด์ ๋ ๊ฒฐ๊ตญ ๋ณ๋ ฌํ..? ํน์ multi-modal ๊ฐ๋ฅ..? details : paper summary