2023Q4 | 🍎 Paper Today I Read 🦔

[196] Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations

ACL RL 2023Q4 reasoning

[167] Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image Generation

NeurIPS 2023Q4 generation

[165] Rich Human Feedback for Text-to-Image Generation

CVPR 2023Q4 evaluation

feat: add text span

[156] Interpreting CLIP's Image Representation via Text-Based Decomposition

ICLR CLIP XAI 2023Q4

[143] Honeybee: Locality-enhanced Projector for Multimodal LLM

kakao 2023Q4 MLLM

[141] Alpha-CLIP: A CLIP Model Focusing on Wherever You Want

multimodal CLIP 2023Q4

[139] Davidsonian Scene Graph: Improving Reliability in Fine-Grained Evaluation for Text-to-Image Generation

google 2023Q4 evaluation generation

[138] ShareGPT4V: Improving Large Multi-Modal Models with Better Captions

multimodal dataset 2023Q4 MLLM

[137] mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

multimodal LLM 2023Q4 alibaba