严格意义上来讲,这不算是多模态论文,最起码说不是专门以多模态为topic
而写的论文。
文章idea
- 不使用标注好的数据[比较难获得,大量的人工清洗和标注],直接使用<原始文本、图像>就可以获得不错的图像表征。
文章主旨
- 提出了
CLIP
: Contrastive Language-Image Pre-training
模型细节
- 相对来说,CLIP 模型结构非常简单。 vision 部分可以使用
ResNet
也可以使用Vit
结构 batch size
一定要大,文中是 32,768。loss
是:Contrastive loss