VQA์ ๊ทธ ์ง๋ฌธ์ ๋ํ ๋ต์ด ์์ธ์ง ์ค๋ช
ํ๋ ๋ฐ์ดํฐ์
VQA-X๋ฅผ ์์ง.
์ฐ์ธก์ MPII Human Pose (MHP) dataset์ ์ฌ์ง์์ ์ฌ๋์ด ์ด๋ค pose๋ฅผ ํ๊ณ ์๋์ง์ ๋ํ ๋ฐ์ดํฐ์
์ธ๋ฐ, ์ญ์ ์ด ๋ํ ์ฃผ๋ณ์ ์ฌ๋ฌผ, ์ฌ๋๋ค์ ๋ง์ด ์์กดํ๋ฏ๋ก ์ด์๋ํ ์ค๊ธ ์ค๋ช
์ ์ถ๊ฐํ ACT-X๋ฅผ ์์ง. (c.f. ์ต๊ทผ์ CLEVR-X
๋ ์ถ๊ฐ๋จ)
์ฌ๊ธฐ์ ์ถ๊ฐ์ ์ผ๋ก ์ด๋ฏธ์ง ๋ด์์ ๊ทธ ๊ทผ๊ฑฐ๋ฅผ ์ฐพ์ label์ ground truth for pointing
์ด๋ฌํ ๋ฐ์ดํฐ์
image, query์ ๋ํ ๋ต๋ณ๊ณผ explanation์ ์ ์ํ๋ Pointing and Justification Explanation (PJ-X) ๋ชจ๋ธ์ ์ ์.

results


idea
- ์ด๋ฌํ explanation์ ๋ฐ๋๋ก few-shot์์ explanation์ผ๋ก๋ ์ธ ์ ์์๋ฏ.
- DocVQA์ ๋ํด ์ด๋ฐ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ๋ฉด ์ด๋จ๊น? Q : “๊น๋๊ธฐ์ ๊ฐ๊ฒฉ?” A : “500์” X: “๊ฐ์ row์ ์๊ธฐ ๋๋ฌธ์”
related papers