
TL;DR
- I read this because.. : #116 ์ฝ๊ณ ๋์ ์ฝ๊ณ ์ถ์ด์ง. ์์ ์ ์ฑํ๋์ด ์๊ฐํด์ฃผ์ จ๋๋ฐ ๋ํ ์ผ ๋ชจ๋ฆ. GPT ์ดํ์ผ๋ก ์์ฆ ๋ค์ ๋ง์ด ์ธ๊ธ๋จ.
- task : Vision Language Model in general use! VQA, object detction, VizWiz, HatefulMemes …
- input : text with image/video
- output : free form of text
- problem : CLIP ๋ฅ๋ image-text pair์ score๋ง ๋์ค๋ฏ๋ก ์ด๋ฏธ์ง ๋ถ๋ฅ์ ๊ฐ์ closed set์ ๋ํ ํ์คํฌ์๋ง ์ ์ฉ์ด ๊ฐ๋ฅํ๋ค. cpationing์ด๋ VQA ๊ฐ์ open-ended task๋ฅผ ํ ์ ์๋ generate language ๋ฅ๋ ฅ์ด ๋ถ์กฑํ๋ค.
- idea : LM ๋ฐฉ์์ผ๋ก! pretrained LLM ๊ฐ์ ธ์ค๊ณ visual token์ cross-attention์ผ๋ก ์ ๋ณด๋ฅผ ๋ฃ์ด์ฃผ์
- architecture : LM์ ์ผ๋จ chinchilller(70B). ์ด๋ฏธ์ง ์ธํ์ NFNet์ ๋ฃ๊ณ ๋ง์ง๋ง feature flattent ํ ๋ค Perceiver resampler๋ก few latent vector๋ฅผ ๋ฝ์. LM ์ค๊ฐ์ cross attention(train from scratch)๋ก visual ์ ๋ณด๋ฅผ ๋ฃ์ด์ค. ์์ ์ ์ธ ํ์ต์ ์ํด 0์ผ๋ก ์ด๊ธฐํ ๋๋ alpha๋ก tanh gatingํจ.
- objective : NLL loss given image. ๊ฐ ํ ์คํผ ํ ํฐ์ ์ง์ ์ image๋ง ๋ณผ ์ ์์. ๊ฐ ๋ฐ์ดํฐ๋ค์ weighted sum.
- baseline : ๊ฐ ๋ฒค์น๋งํฌ์ few-shot / finetune ๋ชจ๋ธ
- data : MultiModal MassiveWeb(M3W, 1.8B), ALIGN(312M), Video & Text pairs(VTP, 27M)(๋ฅ๋ฌ๋ ํ์ต์ ๋ชฉ์ ์ผ๋ก annotate๋ ๋ฐ์ดํฐ๋ฅผ ํ๋๋ ์ฐ์ง ์์๋ค๋ ๊ฒ์ ์์!) -> 16๊ฐ์ image/video and language ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ
- evaluation : zero-shot / 32-shot์์ ๋น๊ต
- result : ๋๋ถ๋ถ์ few-shot ๋ชจ๋ธ์ ๋ํด flamingoํ๋๋ก ์ด๊ธฐ๊ณ . finetune ์ฑ๋ฅ๋ ์ด๊ธด ๋ฒค์น๋งํฌ ๋ค์
- contribution : ์๋ง ์ต์ด์ token generation ๊ธฐ๋ฐ vision & language ๋ชจ๋ธ?
- limitation / things I cannot understand :
Details
- ECCV workshop ๋ Jean-Baptiste๊ฐ flamingo๋ฅผ ํ๊ฒ ๋ ์ด์ / ํ๋ฉด์ ๋๋ ์ ์ ์๊ฐํด์ค ์ ์ด ์์

introduction์ ์จ์๋๊ฑฐ๋ ๋น์ทํ ๋ด์ฉ. CLIP๋ฅ ์ฐ๊ตฌ๋ฅผ ํ์๋๋ฐ ํ ์ ์๋ task๊ฐ ํ์ ์ ์ด์๋ค. -> flamingo๋ก ๋์ด๊ฐ ๊ฒฐ๊ตญ ์ด๋ค ์ธํฐํ์ด์ค๊ฐ ๋ค์ํ ํ์คํฌ๋ฅผ ํ ์ ์์ ๊ฒ์ธ๊ฐ? application์ ์ ํฉํ ๊ฒ์ธ๊ฐ?๋ฅผ ๋ฌธ์ ์์์ผ๋ก ์ผ์ ๊ฒ ๊ฐ๋น ๋ฌธ์ ์์์ ์ํคํ ์ณ๊ฐ ์๋๋ผ ํ ์ ์๋ task ๋ค๋ก ์ก์ ๋ฏ~ ํ ์ ์ ์ํคํ ์ณ๊ฐ ์ค์ํ๊ฒ ์๋๋ผ ๋ฐ์ดํฐ/ํ์ต/ํ์คํฌ ๋ฑ์ด ์ค์ํ ๊ฒ ๊ฐ๋ค.. ๋๋ ์ด์ ๋ฌด์ผ ์์์ผ ํ๋
Preliminaries
Normalizer Free ResNet https://arxiv.org/pdf/2102.06171.pdf ResNet์ batch norm์ด ๋ชจ๋ธ์ด bs์ ๋ฏผ๊ฐํด์ง๊ฑฐ๋, ํ ๋ฐฐ์น ๋ด ์ด๋ฏธ์ง์ interaction์ ์ํฅ์ ๋ฐ๊ฒ ํ๋ ํจ๊ณผ๊ฐ ์์ด์ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ชจ๋ธ
Perceiver https://arxiv.org/pdf/2103.03206.pdf

21๋ ๋ deep mind์์ image / video ๋ฑ ๋ค์ํ modality๋ฅผ ํจ์จ์ ์ผ๋ก ํํํ ์ ์๊ฒ. ๋น๋์นญ์ ์ธ attention ๋ชจ๋์ ์ฌ์ฉํด์ a small set of latent units์ผ๋ก ์ ์ฐจ CAํ ์ ์๋๋ก(detr์ด๋ ๋น์ทํ๋ฐ ๋ํ ์ผ์ด ์ข ๋ค๋ฅผ๋ฏ) image classification / audio / point cloud ๋ฑ์์ comparable ์ฑ๋ฅ (c.f. Set Transformer๊ฐ most related work๋ผ๊ณ ํ๋ฉด์ ๊ณ์ ์ธ๊ธ)
- Chinchiller
22๋
3์์ ๋ฅ๋ง์ธ๋์์ ๋์จ ๋ชจ๋ธ. https://arxiv.org/pdf/2203.15556.pdf
์ ์์ด Gopher์๋๋ฐ ๋ชจ๋ธ ์ฌ์ด์ฆ๋ง ์ปค์ง๊ณ ํ์ต ๋ฐ์ดํฐ๋ ๊ทธ๋๋ก ์จ์ ๋ชจ๋ธ์ด underfit ๋๋ค๊ณ ํ๋จ.
By training over 400 language models ranging from 70 million to over 16 billion parameters on 5 to 500 billion tokens, we find that for compute-optimal training, the model size and the number of training tokens should be scaled equally: for every doubling of model size the number of training tokens should also be doubled.… ๋ฏธ์น ๋๋ค! model size๋ฅผ ๋๋ฐฐ ๋๋ฆฌ๋ฉด num of tokens๋ ๋๋ฐฐ๋ก ๋๋ ค์ผ ํ๋ค๋ ๋ฐ๊ฒฌ Gopher(280B)๋ณด๋ค ํ๋ผ๋ฏธํฐ ์๋ 4๋ฐฐ ์์ง๋ง training data๋ 4๋ฐฐ ๋๋ ค์ Gopher์ ์ฑ๋ฅ์ ์ด๊ธด ๋ชจ๋ธ

ํ์ต ์ค๊ฐ์ ๋ฐฐ์น ์ฌ์ด์ฆ๋ฅผ ํค์ -> ์? https://arxiv.org/pdf/2112.11446.pdf 120์ชฝ์ง๋ฆฌ ์ฝ์ผ๋ฉด ์ ์ ์์๋ฏ..
Dataset

M3W 43M ์นํ์ด์ง์์ HTML์ ํตํด ์ด๋ฏธ์ง-ํ ์คํธ๋ฅผ ๋ฝ์. DOM ๊ตฌ์กฐ๋ฅผ ํตํด ์๋์ ์ธ ์์น๋ฅผ ๋ฝ์ ํ ์คํธ ๋ด์
token์ ๋ฃ์ด์ ์ด๋ฏธ์ง์ ์์น๋ฅผ ๋ฃ์๊ณ (end of chunk) ํ ํฐ์ ์ด๋ฏธ์ง ์ / ๋ฌธ์ ๋ง์ง๋ง์ ๋ฃ์์. ๊ฐ ๋ฌธ์์ ๋ํด์ subsequence L=256๊ฐ(๋๋ฌด ์์๋ฐ? ๊ฐ ์ด๋ฏธ์ง ์์์ ๋งํ๋๊ฑฐ๊ฒ ์ง?)์ ํ ํฐ์ ๋๋ค์ผ๋ก ๋ฝ์๊ณ ์ต๋ 5๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ๋ฃ์์ ALIGN web์ alt text(tag)๋ผ๋๊ฒ ์๋๋ฐ ๊ทธ๊ฑฐ ์ฌ์ฉํด์ ๊ตฌ์ถํ ๋ฐ์ดํฐ https://ai.googleblog.com/2021/05/align-scaling-up-visual-and-vision.html

Architecture

Objective

๊ฐ ๋ฐ์ดํฐ์ ๋ํ gradient๋ฅผ accumulateํ๋๊ฒ ์์ฐจ์ (round-robin)์ผ๋ก ํ๋๊ฒ๋ณด๋ค ๋ ์ข์์ ๊ทธ๋ฆฌ๊ณ per-dataset weights์ธ $\lambda _m$์ ํ๋ํ๋๊ฒ ์ฑ๋ฅ์ ํฌ๋ฆฌํฐ์ปฌํ๋ค๊ณ ํ๋น
Results

Tanh gating

etc.
c.f. x-attn์์ x๊ฐ ๋ญ์ง ํ๊ณ ๊ฒ์ํ๋ค ๋ฐ๊ฒฌ ์ ์ฒด finetuning ์ํ๊ณ CA์ชฝ๋ง ํด๋ ์ฑ๋ฅ์ด ์ข๋ค๋ ๋ ผ๋ฌธ. domain์ MT Cross-Attention is All You Need: Adapting Pretrained Transformers for Machine Translation https://arxiv.org/pdf/2104.08771.pdf