[209] SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

2025년 5월 21일 · 2 분 · long8v · 

[195] STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning

2025년 1월 9일 · 1 분 · long8v · 

[163] What You See is What You Read? Improving Text-Image Alignment Evaluation

2024년 7월 18일 · 1 분 · long8v · 

[155] Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings

2024년 5월 3일 · 1 분 · long8v · 

[154] Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment

2024년 4월 3일 · 2 분 · long8v · 

[139] Davidsonian Scene Graph: Improving Reliability in Fine-Grained Evaluation for Text-to-Image Generation

2023년 12월 11일 · 2 분 · long8v · 

[128] Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding

2023년 8월 21일 · 3 분 · long8v · 

[124] LiT: Zero-Shot Transfer with Locked-image text Tuning

2023년 7월 6일 · 3 분 · long8v · 

[118] PaLI-X: On Scaling up a Multilingual Vision and Language Model

2023년 6월 8일 · 3 분 · long8v · 

[114] MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks

2023년 5월 9일 · 2 분 · long8v · 

[23] Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning

2022년 4월 25일 · 2 분 · long8v · 

[18] Deep Learning with Differential Privacy

2022년 4월 4일 · 1 분 · long8v · 

[9] SimCLR : A Simple Framework for Contrastive Learning of Visual Representations

2022년 1월 25일 · 3 분 · long8v ·