TL;DR
- I read this because.. : ํ์ด์ค๋ถ์์ ๋ดค๊ณ CLIP evaluation์ ์ ์ฉํด๋ณผ ์ ์์ง ์์๊น? ํ๊ณ ์ฝ์
- task : evaluating faithfulness of image generation
- problem : CLIPScore๋ style์ ๋ฐ๋ผ scale์ด ์ผ์ ํ์ง ์๊ณ ํด์๊ฐ๋ฅํ์ง ์์, QG/QA ๊ธฐ๋ฐ์ ๋ณตํฉ์ง๋ฌธ(ํ๋ ๋ฌธ์ด ์๋?) no์ผ ๋ ๋ญ๊ฐ ํ๋ฆฐ์ง(๋ฌธ์ด ์๋๊ฑด์ง ํ๋ ๋ฌธ์ด ์๋๊ฑด์ง) ํด์์ด ์ด๋ ต๊ณ ์ฌ๋ฌ ์ง๋ฌธ์ด ์์ ๋ ๋ฌธ์ ์๋ค๊ณ ํด๋๊ณ ํ๋ ๋ฌธ์ ์๋ค๊ณ ํ๋ ๋ฑ์ VQA model ์์ฒด์ error๊ฐ ์์.
- idea : ๊ฐ๊ฐ์ ์ง๋ฌธ์ atomicํ๊ฒ ๋ง๋ค๊ณ ์ด ์ง๋ฌธ๋ค๋ผ๋ฆฌ graph๋ก ๋ง๋ค์ด์ ์ด์ parent๊ฐ no์ด๋ฉด ์ด child๋ ๋ค no์ด๊ฒ ํ์.
- input/output : image + text -> graph(questions for node, semantics for its dependancy)
- baseline : QA/QG
- data : TIFA ๋ฑ์ ์ด์ evaluation data ๊ธฐ๋ฐ์ผ๋ก graph๋ฅผ ๋ง๋ DSG-1k ๊ณต๊ฐ. ์ด๊ฑธ ๋ง๋ ๋ฐฉ์์ image์ ํด๋นํ๋ text๋ฅผ LLM์ ํตํ์ฌ 1) entity tuple๋ก ๋ง๋ ๋ค 2) ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก question์ ๋ง๋ค๊ณ 3) ๊ฐ tuple์ depedancy๋ ๊ตฌํจ
- evaluation : ๊ฐ ์ด๋ฏธ์ง์ question์ ๋ง๊ฒ ๋๋ต์ ํ๋๊ฐ?
- result : ์์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐ ํ๋ค๋ ๋ฏ. VLM ๋ชจ๋ธ ์ค์์๋ PALI๊ฐ ๊ฐ์ฅ ์ฐ์ํ ์ฑ์
- contribution : fine-grainedํ evaluation์ ์ข ๋ ํด์ ๊ฐ๋ฅํ๊ฒ ํ QG/A ๊ธฐ๋ฐ์ evaluation์ ๊ฐ์
- etc. : ์๊ฐํ ๊ฒ๊ณผ ์ข ๋ค๋ฅด๊ธด ํจใ
ใ
๋ณ๋์ QG / QA ๋ชจ๋ธ์ ์ฌ์ฉํด์ผ๋๋ค๋ ์ ? ๋ฐ์ดํฐ์
์ด๋ ํ๋ฒ ์ดํด๋ด์ผ๋๋. ๊ทธ๋ฆฌ๊ณ ๋ฌธ๋ ๊ถ๊ธํด์ก๋๋ฐ GPT4-V์ ๊ฐ์ ์ ๋คํํ
“is
<description>well explained<img>?, what is wrong?” ํ๋ฉด ๋ญ๊ฐ ๋์ค๋ ค๋?
Details
QA/G based methodology
motivation
problem of clip score
problem of QA/G method
Proposed
Dataset source
๋ญ ๋ง์๋ฐ ์๊ฐ์ด ์์ด์ .. ์ด๋ง..