国漫手机壁纸

清华大学孙茂松教授提出全新微调框架CPT:用颜色融合图像和语言,准确率提升17.3%!

新智元报道来源:arXiv编辑:LRS【新智元导读】预训练模型在计算机视觉和语言上都取得了显著成果,但这些语言模型有一个大问题就是训练过程和推理过程不匹配。清华大学孙茂松团队提出了一个全新的微调框架CPT,用颜色来遮蔽、融合图像和语言,准确率提升17.3%,标准差降低73.8%!预先训

NetSmell 出品

  新智元报道

  来源:arXiv

  编辑:LRS

  【新智元导读】预训练模型在计算机视觉和语言上都取得了显著成果,但这些语言模型有一个大问题就是训练过程和推理过程不匹配。清华大学孙茂松团队提出了一个全新的微调框架 CPT,用颜色来遮蔽、融合图像和语言,准确率提升 17.3%,标准差降低 73.8%!

  预先训练的视觉语言模型(Pre-Trained Vision-Language Models, VL-PTM)能够同时处理语言和视觉上的信息,也是完成各种多模态任务的基础模型。

  但模型的预训练和微调之间存在着巨大的差距,在预训练期间,大多数 VL PTM 都是基于 mask language modeling 目标进行优化的,主要任务就是在屏蔽的词中从跨模态上下文中恢复。

  然而,在微调过程中,下游任务通常是通过将未屏蔽 token 的表示分类到语义标签来完成的,在语义标签中通常会引入特定任务的参数。这种差别阻碍了 VL PTM 对下游任务的适应性,因此需要大量的标记数据来优化 VL-PTM 对下游任务的视觉基础能力。

  针对这个问题,清华大学的研究人员提出了一个新模型跨模态提示调节(Cross-Modal Prompt Tuning, CPT),也可以称为 Colorful Prompt Tuning。CPT 是一种调整 VL-PTM 参数的新范式,关键点在于通过在图像和文本中添加基于颜色的共同参照标记,视觉基础可以重新形成填补空白的问题,最大限度地减少预训练和微调之间的差距。

  为了在图像数据中使用自然语言表达式,CPT 由两个组件组成:(1)一个视觉子提示(visual sub-prompt),用颜色块唯一地标记图像区域;(2)一个文本子提示(textual sub-prompt),将查询文本放入基于颜色的查询模板中。然后,通过从查询模板中的屏蔽标记恢复相应的彩色文本,可以实现目标图像区域的显式定位。

  论文的作者是孙茂松教授,目前任清华大学人工智能研究院常务副院长、清华大学计算机学位评定分委员会主席、教育部在线教育研究中心副主任、清华大学大规模在线开放教育研究中心主任。曾任清华大学计算机系主任、党委书记。研究方向为自然语言理解、中文信息处理、Web 智能、社会计算和计算教育学等。

  配备 CPT 后,VL-PTMs 可以在没有任何标记数据的情况下执行 zero-shot visual grouding,因为 VL PTMs 在训练前已经很好地学习了颜色的跨模态表示及其与其他概念(例如,对象、属性和关系)的组合。

  当有几个或全部标记的实例可用时,CPT 可以根据基于熵的目标函数对 VL PTM 进行进一步调整。

  虽然通过基于颜色的提示将图像和文本连接起来看着很好用,但研究人员仍然发现了其中两个关键问题:(1)如何确定颜色集C的配置;(2)如何使用有限的预训练颜色处理图像区域的数量。

  解决方法有跨模式提示搜索(Cross-modal Prompt Search)。以前在文本提示调优方面的工作表明,提示配置(例如,文本模板)对性能有重大影响。这篇文章也是对搜索跨模态提示配置(即颜色集C)进行的首次研究。

  直观地说,C应该由 VL PTM 最敏感的颜色组成。为了获得颜色,一种简单的方法是采用预训练文本中最常见的颜色文本,其标准 RGB 作为 civ。但该解决方案是次优的,因为这种方法在确定彩色文本时不考虑其视觉外观,并且真实图像中颜色的视觉外观通常与其标准 RGB 不同。

  所以在跨模式提示搜索中,首先确定一个全彩色文本的候选集。对于 RGB 空间中的每个可能颜色,将纯色块与文本子提示连接到 VL PTMs 中:[CLS] a photo in [MASK] color. [SEP]。然后为每个候选颜色文本获得记录分数。

  记录得分越大,表明 cv 和 cw 之间的相关性越高,并且删除了在任何颜色视觉外观中都没有排名靠前的颜色文本。最后对于每个剩余的彩色文本,其视觉外观由最大色彩确定,并且实验结果显示得到的颜色配置明显优于原始的颜色配置。

  图像区域批处理(Image Region Batching)。在视觉基础中,图像中区域建议的数量通常超过颜色集合C的大小(∼ 10)。此外,严重重叠的色块会阻碍视觉基础,因此需要将图像区域分为多个批次,每个批次包含少量中度重叠的图像区域,并分别使用视觉子提示标记每个批次。为了处理不包含目标区域的批,在解码词汇表中进一步引入了一个新的候选文本 none,表示批中没有目标区域。

  实验结果表明,提示微调后的 VL-PTM 的性能大大优于微调后的 PTM,

  1、CPT 在 zero-shot 和 few-shot 设置下比随机基线和强微调基线有很大的优势(例如,在 RefCOCO 评估中,one-shot 的绝对准确度平均提高 17.3%)。不同的数据集和不同的训练次数之间的改进是一致的。这表明 CPT 可以有效地提高 VL PTM 调谐的数据效率,并刺激 VL PTM 的视觉接地能力。

  2、值得注意的是,与微调相比,CPT 实现的标准偏差要小得多(例如,在 RefCOCO 评估中,一次试验平均降低 73.8% 的相对标准偏差)。这表明,来自预训练的连贯的调节方法可以导致更稳定的 few-shot 训练,这也是评估少镜头学习模型的关键因素。

  3、可以注意到,在 RefCOCO+ 评估中,CPT 的微调性能稍逊于 16 shots。原因是 Ref-COCO+ 有更多基于颜色的表达(例如,穿着红衬衫和蓝帽子的人),这可能会干扰基于颜色的 CPT。然而,在完全监督的场景中,通过更多的调优实例可以缓解这个问题,模型可以学习更好地区分查询文本和提示模板中的颜色。

  4、在完全监督的设置下,CPT 实现了与强微调 VL PTM 相当的性能。结果表明,即使在完全监督的情况下,CPT 也是 VL-PTM 的一种竞争性调优方法。总之,与普通的微调方法相比,CPT 在 zero-shot、few-shot 和完全监督的视觉方面实现了优越/可比且更稳定的性能。

  参考资料:

  https://arxiv.org/abs/2109.11797?

显示余下内容
相关文章:
  1. 信用卡 PIN 码很容易猜测
  2. 神经元簇发能模拟 AI 学习策略
  3. 蜘蛛丝可能根本不具有抗菌性质
  4. 佳能因禁止无墨水打印机扫描被起诉
  5. DeepMind盈利后开始「买买买」!收购机器人模拟平台MuJoCo,全面开源
  6. 分析师:新MacBook Pro搭载自家芯片,苹果利润率更高了
  7. 格芯提交上市申请IPO,筹资约26亿美元
  8. 美股周二:中概股普涨 阿里涨超6% 高途涨逾12%
  9. 搭配自研处理器与安卓12,谷歌新机Pixel 6起价599美元
  10. 摩根士丹利:马斯克有望凭SpaceX成首位万亿美元富豪
  11. 《鱿鱼游戏》助奈飞三季度新增用户翻倍,股价近新高
  12. DOTA 2又上热搜了 为什么这次大家到处刷“猛犸”?
  13. 多位游戏巨头联合希望美国政府监管盗版和作弊网站
  14. Google Play Data Safety开始接受开发者申请:2022年将强制执行
  15. 价格欺诈投诉引发公益诉讼 京东“划线价”格式条款须整改
 

发表回复

您的电子邮箱地址不会被公开。