TL;DR
- I read this because.. : ๊ฐ์ธ ์ฐ๊ตฌ ๊ด๋ จ ์ฐ๊ตฌ
- task : VLM ๋ชจ๋ธ๋ค์ด vision ๋๋ language์ ๋๋ฌด ์น์คํ์ง ์๋์ง ์ธก์ ํด๋ณด์
- problem : ๊ธฐ์กด์ occulsion + accuracy based ๋ฐฉ๋ฒ๋ก ์ ์ด๋ค modality์ ์น์คํ๋์ง๋ฅผ ์ ํํ ์ธก์ ํ์ง ๋ชปํ๋ค.
- idea : ๋ชจ๋ธ์ ์ ํ๋๊ฐ ์๋๋ผ ์ผ๋ง๋ ๋ชจ๋ธ ์์ธก์ ์ํฅ์ ๋ฏธ์ณค๋์ง์ ๋ํ score๋ฅผ ๋งค๊ธฐ์
- input/output : {image, text} -> ๊ฐ modality์ ๋ํ score(positive, negative, neutral)
- architecture : ALBEF, CLIP, LXMERT, 4 VQA models
- baseline : task accuracy
- data : VQA, GQA, Image-sentence alignment(VQA, GQA), VALSE , FOIL
- evaluation : T-SHAP, V-SHAP
- result : -
- contribution :
- etc. :
Details
motivation
CLIP์ ํ๋ฆฐ ๋จ์ด(keyboard)์ ๋ํด negative ์ ์๋ฅผ ์ฃผ์ง ๋ชปํ๋ค.
SHAP
๊ฒ์์ด๋ก ์ shapley ๊ธฐ๋ฐ์ด๋ผ๊ณ ํ๋น
occulsion based๋ ๋น์ทํ๋ฐ ๊ฐ ํ ํฐ์ด ์๋๋ผ ํ ํฐ ์กฐํฉ๊น์ง subset์ผ๋ก ๋ง๋ค์ด์ occulde ํ๋ ๋ฐฉ์. ๋๋ฌด ์กฐํฉ์ด ๋ง์ผ๋๊น subsamplingํด์ ์ฌ์ฉ
why not attention based?
cheferCAM์ negative ๋ชป๋ณธ๋ค!