0%

UNITER: learning universal image-text representations

文章idea

  • 之前的图文相关任务均是task-specific,相互之间不能泛化,缺少统一解决V+L的模型方案。

文章贡献

  • 提出了新的多模态框架UNITER [UNiversal Image-TExt Representation]
  • 而且在多个V+L任务中取得SOTA

模型结构

UNITER

Image Embedder

  • Image Embedder 使用了 Faster R-CNN。针对每个region抽取特征(pooled ROI features),每个regionLocation特征使用7维的特征进行描述: [x1, y1, x2, y2, w, h, w ∗ h](normalized top/left/bottom/right coordinates, width, height, and area.;最终将 visual特征和Location特征结合在一起。
  • Our Faster R-CNN was pre-trained on Visual Genome object+attribute data

Text Embedder

  • Text EmbedderBERT相同,使用WordPiece提取句子中的token。将token embeddingposition embedding 结合在一起。
  • 最终图像与文本特征交叉层使用的 transformer-Encoder

特征对齐

  • 标准的transformer-encoder 结构,不做过多赘述。

损失

  • 该框架有三个损失函数:Masked Language Modeling (MLM), Image Text Matching (ITM), and Masked Region Modeling (MRM, with three variants)
  • MLM: 无需过多赘述
  • ITM:无需过多赘述
  • MRM: 随机mask 15%的region,其值用0代替,与文本用离散[mask]表示不同。
    • Masked Region Feature Regression: targetregion特征,连续值,L2 loss
    • Masked Region Classification: targetregion的标签类别,交叉熵损失。
    • Masked Region Classification with KL-Divergence (MRC-kl)targetregion特征,连续值,但是使用KL-Divergence损失,衡量两个分布的差异。

模型试验

  • 数据集共4个:COCO, Visual Genome, Conceptual Captions, and SBU Captions
  • 基于预训练好的模型,在task中进行finetune,共评估了6个任务,2种模型:UNITER-base with 12 layers and and UNITER-large with 24 layers
    uniter_1.png