TL;DR
- I read this because.. : ๋ฐ์ดํฐ ์ด๋ป๊ฒ ๋ง๋ค์๋ / ํ๊ฐ ๋ฐฉ์์ ์ด๋ค๊ฐ ๋ณด๊ณ ์ถ์ด์
- task : proposed. (1) FOIL Detection (2) FOIL word detection (3) FOIL word correction
- problem : captioning, VQA ๋ชจ๋ธ๊ณผ ๊ฐ์ VLM ๋ชจ๋ธ๋ค์ด ์ ๋ง ๋ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ์ ์ดํดํ๊ณ ์๋๊ฒ ๋ง๋?
- idea : caption์ word๋ฅผ ๋น์ทํ ๋ค๋ฅธ ๋จ์ด๋ก ์นํ
- input/output : {image, caption} -> (1) FOIL์ธ์ง ์๋์ง (2) FOIL word๊ฐ ์ด๋์ง (3) FOIL word correction
- objective : ce loss
- baseline : ๋น์ sota VQA, Caption ๋ชจ๋ธ / caption๋ง ๋ณธ LSTM, CNN LSTM
- data : COCO์ caption์ ํ์ฉํด์ 65K(train) / 32K(test)์ ์ด๋ฏธ์ง, 197K(train) / 99K(test)์ caption.
- evaluation : (1) accuracy (2) FOIL caption ์ค์ word๋ฅผ ์ ์ฐพ์๋. noun์ผ๋ก๋ง ํ๊ฐ / ์ ์ฒด ๋ช ์ฌ๋ก ํ๊ฐ (3) FOIL word๊ฐ ์ฃผ์ด์ก์ ๋ ์๋์ ๋จ์ด๋ก ๋ค ๋ฐ๋๋
- contribution : ์ดํ hallucination measure ๋ฑ์ผ๋ก ์ฌ์ฉ๋จ
- etc. :
- 17๋ ๋์์ ํ ์ ์๋ ๊ฐ์ฅ ํฉ๋ฆฌ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ๋ง๋ฆ
- ๋ณ๋ก ์ ๋ช
ํ evaluation set์ ์๋ ๋ฏ -> ์ต๊ทผ LVLM benchmark๋ก ํ๋๊ฒ ๋ ๋์์ง๋ ๋ชจ๋ฅด๊ฒ ๋ค
- single noun ํ๋๋ง ๋ฐ๊พผ๋ค๋๊ฒ ์ข ๋จ์ ์ด๋ ค๋
Details
Task
num samples
๋ฐ์ดํฐ ์ ์ ๋ฐฉ์
- MS-COCO์์ ๊ฐ์ supercategory๋ฅผ ๊ฐ์ง object๋ก pair๋ฅผ ๋ง๋ฌ
- ์ด ๋, ๋จ์ด๊ฐ 2๊ฐ ์ด์์ธ ์ ๋ค์ ๋บ. e.g. traffic light
- train / test category๋ฅผ ๋๋
- ํ์ต์ ์ฌ์ฉ๋ targe::foil pair๋ test์ ์ฌ์ฉ๋์ง ์์ ๊ฒ์
- foil caption์ ๋ง๋ฆ
- ์ด๋, caption์ ๋ค์ด๊ฐ ๋จ์ด๋ฅผ ๊ต์ฒดํจ
- ๊ทธ๋ฆฌ๊ณ ์ด๋ฏธ์ง ๋ด์ ์กด์ฌํ์ง ์๋ object์ ๋ํด ๊ต์ฒดํจ
- e.g. “๊ฐ์์ง์ ๊ณ ์์ด๊ฐ ๋ฐฅ์ ๋จน๋๋ค"์์ ๊ณ ์์ด๊ฐ ์์ผ๋ฏ๋ก ๊ฐ์์ง๋ฅผ ๊ณ ์์ด๋ก ๊ต์ฒดํ์ง๋ ์์
- Neuraltalk์ด๋ captioning ๋ชจ๋ธ์ ์ฌ์ฉํด์ ๊ฐ์ฅ ์ด๋ ค์ด caption์ผ๋ก ์ ํํจ
Evaluation
- T1์ ๊ทธ๋ฅ ๋ถ๋ฅ
- T2๋ {image, FOIL caption}์ด ์ฃผ์ด์ก์ ๋ foil word๋ฅผ ์ฐพ๋์ง
- T3๋ {image, FOIL caption, FOIL word}๊ฐ ์ฃผ์ด์ก์ ๋ foil word๋ฅผ ์ ๊ณ ์น๋์ง
T1์ ๊ฒฝ์ฐ ์๋ caption์ ๊ฐ ๋จ์ด๋ค์ ์ง์ฐ๊ณ captioner ๋ชจ๋ธ๋ก ์์ฑ์ ํ๋ผ๊ณ ํ ๋ค์ ๊ทธ ๋จ์ด๋ก ์นํํ ์บก์ ๊ณผ ์๋ ์บก์ ์ค์ ๋ชจ๋ธ์ด ๋ ๋๊ฒ ์์ธกํ ๊ฐ์ ๋น๊ตํด์ ์นํํ ์บก์ ์ด ๋ ๋์ผ๋ฉด FOIL์ผ๋ก ํ๋จ
T2์ ๊ฒฝ์ฐ Towards Transparent AI Systems: Interpreting Visual Question Answering Models (https://arxiv.org/pdf/1608.08974.pdf
)
์์ ์ฌ์ฉ๋ occulsion ๋ฐฉ๋ฒ์ ์ฌ์ฉ.
๋ญ๋ ํ๋ฉด question์ ๋จ์ด๋ค์ ํ๋์ฉ maskํ๊ณ forward๋ฅผ ํ ๋ค์ original predicted answer์ ๋ํด score๊ฐ ์ผ๋ง๋ ๋ฐ๋์๋์ง๋ก ์ธก์
T3์ ๊ฒฝ์ฐ target word์ ๋ํ linear regression์ ์ํ (์๋ง ์๋ก ํ์ตํ๋๋ฏ?)
Analysis
์๋ชป๋ง๋ค์ด์ง ๋ฐ์ดํฐ์