[221] Scaling Synthetic Data Creation with 1,000,000,000 Personas

2026년 1월 19일 · 1 분 · long8v · 

[151] FOIL it! Find One mismatch between Image and Language caption

2024년 3월 3일 · 2 분 · long8v · 

[138] ShareGPT4V: Improving Large Multi-Modal Models with Better Captions

2023년 12월 8일 · 2 분 · long8v · 

[135] Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved with Text

2023년 11월 23일 · 2 분 · long8v · 

[133] DataComp: In search of the next generation of multimodal datasets

2023년 10월 5일 · 2 분 · long8v · 

[108] Unsupervised Vision-Language Parsing: Seamlessly Bridging Visual Scene Graphs with Language Structures via Dependency Relationships

2023년 4월 4일 · 3 분 · long8v · 

[74] “This is my unicorn, Fluffy”: Personalizing frozen vision-language representations

2022년 11월 4일 · 2 분 · long8v · 

[41] Panoptic Scene Graph Generation

2022년 8월 1일 · 1 분 · long8v · 

[19] Multimodal Explanations: Justifying Decisions and Pointing to the Evidence

2022년 4월 6일 · 1 분 · long8v ·