CHAIR (== Object HalBench)
[18’EMNLP] Object Hallucination in Image Captioning https://arxiv.org/abs/1809.02156
COCO caption & semantic segmentation label – ๋์์ด๋ฅผ ์ฌ์ฉํด์ captioning model์ hallucination ์ธก์
CHAIR_i์ ๋ถ๋ชจ๋ ์ธ๊ธ๋ ๋ชจ๋ object ๊ฐ์ // CHAIR_s๋ ๋ฌธ์ฅ ๊ฐ์
COCO karpathy / robust test set
์ด ๋ ผ๋ฌธ์์ ๋งํ๊ณ ์ ํ๋๊ฑด CIDEr ๋ฑ captioning ์ฑ๋ฅ์ ๋๋๋ผ๋ ์ค์ ๋ก hallucination ์ฑ๋ฅ์ ์ด์ ๋น๋กํ์ง ์๋๋ค๋ ์
LVLM์์๋ RLHF-V๊ฐ ๋ง๋ descriptive ์ค๋ช ์ ํ๋ผ๋ 8๊ฐ ํ๋กฌํํธ๋ฅผ ์ฃผ๊ณ gt segment์ CHAIR๋ฅผ ๊ตฌํ๊ณ ์ด๊ฐ Object Halbench๋ก ๋ ํฌํธ๋จ
POPE
[24’EMNLP] Evaluating Object Hallucination in Large Vision-Language Models https://arxiv.org/pdf/2305.10355
์์ CHAIR ๊ฐ์ object hallucination์ LVLM์ผ๋ก ๊ฐ์ ธ์ ์ธก์ ํ ๋ ผ๋ฌธ
๊ทธ๋ฐ๋ฐ ์ด๋ prompt๋ฅผ ์ด๋ป๊ฒ ํ ์ง์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ๋ค์ญ๋ ์ญํ๋ค. ๊ทธ๋ฆฌ๊ณ object๋ฅผ ๋ฝ๊ณ GT object๋ ๋งค์นญํ๋๋ฐ ๋ณต์กํ Human parsing rule์ด ํ์ํ๋ค
๊ทธ๋์ ์ ์ํ ๊ฒ์ด POPE
์บก์ ์ ์์ฑํ๊ณ hallucinated object๋ฅผ ์ฐพ๋๊ฒ ์๋๋ผ yes, no ๋ก ๋๋ตํ ์ ์๋ question์ ๋ง๋ค์ด์ ์ธก์
gt label์ semantic label SEEM ๊ฐ์ ๊ฒ์ผ๋ก ๋ฝ์์ object pool ๋ณด๊ฐ
์ฌ๊ธฐ์ 3๊ฐ์ง negative set์ ๋ง๋ฆ
- random : random object class
- popular : ํ์ต ๋ฐ์ดํฐ์์ ๋ง์ด ๋ํ๋ object class
- adversarial : ํ์ฌ ๋ฑ์ฅํ object์ ๊ฐ์ด ๋ง์ด ๋ฑ์ฅํ object class
์ฌ์ฉํ set์ COCO์์ object ๊ฐ 3 ๊ฐ ์ด์ ๋์ค๋ subset 500๊ฐ๋ฅผ ๋ง๋ค์๋ค๊ณ
์ด ๋ ผ๋ฌธ์์ ๋ฐ๊ฒฌํ ๊ฒ์ 1) COCO์์ ๋ง์ด ๋ฑ์ฅํ 2) COCO์์ ๋ง์ด ์์ฃผ ๋ฑ์ฅํ object hallucination์ด ์ฌํ๋ค๊ณ
HallusionBench
[CVPR'24] HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models https://arxiv.org/abs/2310.14566
AMBER
[arxiv'24] AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination Evaluation https://arxiv.org/abs/2311.07397
๋๊ฐ์ง๊ฐ ์์ 1) generative 2) discriminative generative๋ Object existence๋ฅผ ์ํด ๊ณ ์๋์๊ณ discriminative ๋ object, relation, attribute ๋ชจ๋ ๊ตฌํ ์ ์์ ๋ฏธ๋ฆฌ ์ด๋ฏธ์ง์ ์ด์ ๋ฑ์ฅํ object, attribute, relation Label์ ๋ค annotateํ ๋ค์ discriminative๋ yes, no๋ก ๊ทธ๋ฅ ๋ง์ถค generative๋ ์์ฑ๋ ์บก์ ์ ๋ํด noun parseํ๊ณ ๊ทธ ๋ค์์ ๊ทธ๋ฅ CHAIR ์ธ๋ฏ.. ํ ๋