TL;DR
- I read this because.. : aka cream. ๋๋ฃ์ ๋ ผ๋ฌธ
- task : DocVQA
- problem : OCR์์ด VQA ํ๋๋ฐ๋ ์ฑ๋ฅ์ ์ ํ์ด ์๊ณ , OCR์ ์ฌ์ฉํด์ input์ผ๋ก ๋ฃ์ด์ฃผ๊ธฐ์ ํ ํฐ ์๋ฅผ ๋ง์ด ๋จน๋๋ค
- idea : OVD์ OCR์ ์ฌ์ฉํ๊ณ auxiliary encoder๋ก feature ๋ฝ์ ๋ค์ CA๋ก ์ด๋ฅผ ํ์ฉ
- input/output : ์ด๋ฏธ์ง, ocr ๊ฒฐ๊ณผ(box and text), ovd ๊ฒฐ๊ณผ(box and class text), ์ง๋ฌธ -> answer
- architecture : Vision Encoder(CLIP ViT-L /LAION-2B), Auxiliary encoder(mBART), decoder(mBART, standalone ๋ชจ๋), LLM(Vicuna).
- objective : text read, masked text prediction, captioning, qa, qg / CL loss + LM loss -> qa / LM loss
- baseline : ocr์ ๊ฒฐ๊ณผ๋ฅผ LLM์ ๋ฐ์ด๋ฃ๋ ๊ฒ, BLIP, UDOP, Pix2Struct, MatCha, Donut, T5
- data : (text read adn masked text prediction) IIT-CDIP, Webvicob, (captioning) CC3M, (QA + QG) WKVVQA, SquadVQA, TydiVQA(์ด ๋ ผ๋ฌธ์์ ์ ์)
- evaluation : (ChartQA) Accuracy, ANLS, nED, BERTScore, PPL
- result : ๋จ์ LLM์ ocr ๋ฃ๋ ๊ฒ๋ณด๋จ ์๋ฑํ ์ข๊ณ document ํนํ ๋ชจ๋ธ์ ๋ํด์ InfoVQA ๋นผ๊ณ ๋ multi-task model ์ค์์๋ sota. ์ฑ๋ฅ์ sota๋ UDOP.
- contribution : document ๋๋ฉ์ธ์์ ocr token์ ์ด๋ป๊ฒ ์ ํ์ฉํ ์ง ๋ฐฉ์ ์ ์. ocr์ด ๋ถ์์ ํ ๋๋ ์ฑ๋ฅ์ด ํ๋ค๋ฆฌ์ง ์๊ฒ ํ๋ CL ๋ฐฉ๋ฒ ์ ์.
- etc. : appendix๊ฐ ์ฐธ ์์ฐจ๋ค
Details
Architecture
์ ์ฒด์ ์ธ ๊ตฌ์กฐ๋ BLIP-2๋ ๋น์ทํ๋ค
๊ทธ๋ฐ๋ฐ ์ฌ๊ธฐ์ ์ถ๊ฐ์ ์ผ๋ก vision encoder output๋ง๊ณ ๋ auxiliary encoder๋ฅผ ์ฌ์ฉํ๋๊ฒ ์ฐจ์ด์ ! vision encoder output๊ณผ aux encoder output์ concatํด์ cross-attention์ผ๋ก decoder์ ๋ค์ด๊ฐ๋ค
์ด๋ ๊ฒ CA๋ฅผ ์ฌ์ฉํ๊ฒ๋ motivation์ text-richํ ์ด๋ฏธ์ง๋ ocr ๊ฒฐ๊ณผ๊ฐ ๋๋ฌด ๋ง์์ ํ ํฐ์๋ฅผ ๋๋ฌด ๋ง์ด ๋จน๋๋ค๋ ์ !
๊ทธ๋ฆผ์ด ์ข ํท๊ฐ๋ฆฌ๊ฒ(๋ง์น crop๋์ด ์๋ ๊ฒ์ฒ๋ผ) ๊ทธ๋ ค์ ธ ์๋๋ฐ contrastive์ ๋์์ด ๋๋ postivie pair๋ ์์ ๊ทธ๋ฆผ์์ ๋์จ aux output๊ณผ ์ด์ ํด๋น(์ขํ๊ฐ ๊ฒน์น๋)ํ๋ patch์ output์ contrastive ํ๋ ๊ฒ ๊ฐ๋ค.
์ด๊ฑธ ์ ํ๋๊ณ ์ค๋ช
ํ๋๋ฉด ocr output์ด noisyํ๊ฑฐ๋ ๊ฒฐ๊ณผ๊ฐ ํ์ ๋์ด ์์ ๋ ์ ๋ฆฌํ๋ค๊ณ ์ค๋ช
ํ๊ณ ์๋ค.
vision encoder์ ํจ์น๊ฐ ocr token encoder output์ด๋ ๊ฐ๊น์์ง๋๋ก ํ๋๊น ocr ๊ฒฐ๊ณผ๊ฐ ์ข ๋๋ฝ๋๋ ์ฑ๋ฅ์ด ์ข๋ค๊ณ ์์ ํ๋๋ฏ? ๋ฐ๋ฉด์ OVD๋ Owl-ViT๋ฅผ ์ฌ์ฉํ๋๋ฐ (with coco 80 classes) DocVQA์์ OVD๋ฅผ ์์จ๋ ์ฑ๋ฅ์ด ๊ฑฐ์ ์๋จ์ด์ง๋ค๊ณ ๋งํ๋ค(81.2 -> 80.9, A.2.) ์ด๊ฑด DocVQA์ฌ์ ๊ทธ๋ฐ๊ฑฐ ์๋๊น ์ถ๊ธฐ๋ ํ๋ค
Dataset
Training
details
- LM : CL = 1: 0.5
- learnble queries ๊ฐ์๋ 224
- vision encoder์ ์ด๋ฏธ์ง ๋ฃ์ ๋ pix2struct(https://github.com/long8v/PTIR/issues/140
)์ variable resolution
Result
Arithmetic์ด ๊ฐ์ ๋จ
LLM์ ๋ถ์ด๋ฉด์ ์ฐ์ ์ ๋ ์ํ์ง๋ง ์๋ชป๋ text๋ฅผ ๋ง๋ค์ด๋ด๊ธฐ๋ ํ๋ค๊ณ ํจ