严格意义上来讲,这不算是多模态论文,最起码说不是专门以多模态为topic 而写的论文。
文章idea
- 不使用标注好的数据[比较难获得,大量的人工清洗和标注],直接使用<原始文本、图像>就可以获得不错的图像表征。
文章主旨
- 提出了
CLIP: Contrastive Language-Image Pre-training
模型细节

- 相对来说,CLIP 模型结构非常简单。 vision 部分可以使用
ResNet也可以使用Vit结构 batch size一定要大,文中是 32,768。loss是:Contrastive loss
模型训练过程
