[162] CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention

2024년 7월 11일 · 1 분 · long8v · 

[159] Long-CLIP: Unlocking the Long-Text Capability of CLIP

2024년 5월 10일 · 1 분 · long8v · 

[156] Interpreting CLIP's Image Representation via Text-Based Decomposition

2024년 5월 6일 · 2 분 · long8v · 

[157] LeGrad: An Explainability Method for Vision Transformers via Feature Formation Sensitivity

2024년 5월 6일 · 2 분 · long8v · 

[152] Sigmoid Loss for Language Image Pre-Training

2024년 3월 12일 · 2 분 · long8v · 

[148] I Can't Believe There's No Images! Learning Visual Tasks Using only Language Supervision

2024년 2월 11일 · 2 분 · long8v · 

[145] CLIPScore: A Reference-free Evaluation Metric for Image Captioning

2024년 2월 5일 · 2 분 · long8v · 

[141] Alpha-CLIP: A CLIP Model Focusing on Wherever You Want

2023년 12월 15일 · 2 분 · long8v · 

[133] DataComp: In search of the next generation of multimodal datasets

2023년 10월 5일 · 2 분 · long8v · 

[132] Hyperbolic Image-Text Representations

2023년 9월 26일 · 2 분 · long8v · 

[125] RILS: Masked Visual Reconstruction in Language Semantic Space

2023년 8월 2일 · 2 분 · long8v · 

[124] LiT: Zero-Shot Transfer with Locked-image text Tuning

2023년 7월 6일 · 3 분 · long8v · 

[121] Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities

2023년 6월 23일 · 3 분 · long8v · 

feat: add open-clip

2023년 6월 21일 · 1 분 · long8v · 

[120] Large-scale Bilingual Language-Image Contrastive Learning

2023년 6월 19일 · 3 분 · long8v · 

[98] Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection

2023년 1월 17일 · 1 분 · long8v · 

[74] “This is my unicorn, Fluffy”: Personalizing frozen vision-language representations

2022년 11월 4일 · 2 분 · long8v ·