0%

learning transferable visual models from natural language supervision

发表于 2023-01-04 更新于 2025-03-06 分类于论文阅读，多模态

原始论文: learning transferable visual models from natural language supervision

严格意义上来讲，这不算是多模态论文，最起码说不是专门以多模态为topic 而写的论文。

文章idea

不使用标注好的数据[比较难获得，大量的人工清洗和标注]，直接使用<原始文本、图像>就可以获得不错的图像表征。

文章主旨

提出了CLIP: Contrastive Language-Image Pre-training

模型细节

相对来说，CLIP 模型结构非常简单。 vision 部分可以使用ResNet也可以使用Vit结构
batch size 一定要大，文中是 32,768。
loss是： Contrastive loss

模型训练过程