雷锋网 AI 科技评论曾专门整理并介绍了多篇将BERT应用到视觉/视频领域的重要论文,其中包括最早的VideoBERT以及随后的ViLBERT、VisualBERT、B2T2、Unicoder-VL、LXMERT、VL-BERT等。其中VL-BERT是由来自中科大、微软亚研院的研究者共同提出的一种新型通用视觉-语言预训练模型。继语言BERT之后,视觉BERT隐隐成为一种新的研究趋势。
近期,来自微软的Bing 多媒体团队在arXiv上也同样发表了一篇将BERT应用到视觉中的论文《ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data》
与语言嵌入类似,图像嵌入也是通过类似的过程从视觉输入中产生的。用Faster-RCNN从 o RoIs中提取特征(记为{r0,...ro-1}),从图像中提取特征,从而让这两个特征代表视觉内容。检测到的物体对象不仅可以为语言部分提供整个图像的视觉上下文(visual contexts),还可以通过详细的区域信息与特定的术语相关联。另外,还通过将对象相对于全局图像的位置编码成5维向量来向图像嵌入添加位置嵌入。5维向量表示如下:
3)预训练任务
在模型预训练过程中,设计了四个任务来对语言信息和视觉内容以及它们之间的交互进行建模。四个任务分别为:掩码语言建模(Masked Language Modeling)、掩码对象分类(Masked Object Classification)、掩码区域特征回归(Masked Region Feature Regression)、图文匹配(Image-Text Matching)。