NLP新秀prompt跨界出圈,清华刘知远最新论文将它应用到VLM图像端

萧箫发自凹非寺量子位报道公众号QbitAINLP的新秀prompt,最近着实有点火。还跨界火到了VLM(Visual-Languagemodel,视觉语言模型)。像OpenAI的CLIP,和南洋理工大学的CoOp都用了这种思路。现在,清华副教授刘知远团队最新发布的视觉语

NetSmell 出品

  萧箫发自凹非寺

  量子位报道公众号 QbitAI

  NLP 的新秀 prompt,最近着实有点火。

  还跨界火到了 VLM(Visual-Language model,视觉语言模型)。

  像 OpenAI 的 CLIP,和南洋理工大学的 CoOp 都用了这种思路。

  现在,清华副教授刘知远团队最新发布的视觉语言模型论文中,也提出了一种基于 prompt 的新方法。

  据论文表示,这也是首次将 prompt 用于 cross-model 和零样本/少样本学习视觉定位中。

  从目前的 NLP 和 VLM 模型来看,不少基于 prompt 的模型效果都不错,让搞 CV 的同学们也有点心动——能不能给我们也整一个?

  那么,prompt 究竟好在哪,应用于图像端后是否也能收获不错的效果?

  一起来看看。

  与微调差别在哪?

  最初,在 NLP 模型还不太大的时候,大家会采用“预训练+微调(fine-tune)”的方式设计针对特定任务的模型。

  这种模式下,研究人员会预先训练出一个效果比较好的模型,再在保留大部分模型参数的情况下,根据特定任务(下游任务)调整部分参数,使得它在这一任务上达到最好的效果。

  △例如以 BERT 作为预训练模型

  然而,随着预训练模型变得越来越大,微调的代价(训练时间、需求的数据量等)也在增加,研究人员有点吃不消了,开始找更好的方法。

  prompt 就在这个时候出现了,只不过它这次是针对下游任务进行调整。

  它有点像是一种输入模板,用来给预训练模型“做出提示”,预训练模型一“看到”它,就知道自己要完成什么任务。

  例如,在情感分类任务中,希望预训练模型能体会到输入句子的情绪,并给出形容词来对它分类:

  输入“I love this movie.”后,提前给定一个 prompt“This movie is [mask]”,让预训练模型一看到它,就明白自己要输出“great/nice”等夸赞的形容词。

  这样训练后,预训练模型就能在看到对应 prompt 时,选出正确的词汇类型,而不是“跑偏”去做别的事情。

  由于 prompt 在 NLP 领域的应用效果挺好,因此在与 NLP 相关的 VLM 模型中,不少研究人员也开始尝试这种方法。

  清华将它用到图像端

  当然,最初应用 prompt 的 VLM 模型,大多也还仍然是将它应用在文本端

  据知乎@陀飞轮介绍,像 OpenAI 的 CLIP、NTU 的 CoOp 这两个 VLM 模型,prompt 应用都与 NLP 中的 PET 模型有点像。

  从它们的模型设计来看,都能很明显从文本端看出 prompt 的影子,像CLIP中的“A photo of a [mask]”:

  以及CoOp在 CLIP 上进一步改进的、在训练中能够自行优化的 prompt:

  这些 prompt 的应用,整体改进了 VLM 模型整体的输出效果。

  不过,这也基本都是 VLM 在文本端的应用,prompt 到底适不适合被用在图像端上?

  最新来自清华刘知远团队的论文中,就尝试着在 VLM 的图像端中,以涂色的方式建立了一种 visual sub-prompts。

  当然,文本端也对应用上了 prompt,不过据刘知远老师介绍,prompt 在文本端的应用,感觉不足以完全发挥 prompt tuning 的作用,因此这篇论文尝试了一种 cross-modal prompt tuning 的方法。

  从论文的测试结果来看,这种方法在少样本学习(few-shot)的情况下,基本能取得比微调更好的效果。

  不过,这也还是 prompt 在 VLM 上的另一种尝试。

  它究竟适不适合用来处理 CV 领域的图像问题?

  CV 领域能借鉴吗?

  在知乎上,有不少博主给出了自己的看法。

  知乎@陀飞轮从方法上给出了两条路径:

如果是纯 CV 方向的 prompt,也就是类似于 ViT 将图片拆分 patch,每个 patch 实际上可以看成一个字符,那么也可以设计 patch 的 prompt 对模型进行训练,这其中也可以分成生成式(类似 ViT)和判别式(类似 self-supervised)两种方法。

  知乎@yearn 则认为,就目前来看,continuous prompt 是最有可能 transfer 到 CV 领域的一系列工作。最近 transformer 准备大一统 CV,NLP,将 image 输入转化为 patch 的形式,也让研究人员更方便借鉴 NLP 的方法学习 prompt。

  当然,@yearn 也表示,要想真正将 prompt 应用到 CV 领域,还存在两个需要解决的难题:

1、CV 还不存在 BERT,GPT 这样具有统治力的预训练模型,因此近期内可能很难将 prompt 做 few-shot learning 这一套搬过来。

  2、CV 的 downstream task 更加复杂,感觉检测,分割这类任务要把 prompt 调 work 是一个非常大的工作量。

  但也有匿名用户直接认为,图像上只能用非常别扭的方法做一些任务。当然,视频反而可能应用得更好。

  那么,你认为 prompt 能应用在 CV 领域吗?

  刘知远团队最新论文:

  https://arxiv.org/abs/2109.11797

  知乎回答(已授权):

  @陀飞轮:https://www.zhihu.com/question/487096135/answer/2127127513

  @yearn:https://www.zhihu.com/question/487096135/answer/2124603834

显示余下内容
相关文章:
  1. 年薪百万的码农买得起耐克 却”买”不起身份认同感?
  2. 美团重申严禁诱导强迫骑手注册成个体工商户 饿了么也作出回应
  3. 加密货币市场再次恢复 比特币价格涨至两个多月以来新高
  4. OPPO用5G专利反诉诺基亚,成中国企业5G许可费率博弈关键力量
  5. 31岁蔚来车主追尾身亡!祸在自动驾驶,罪在过度宣传
  6. 任天堂工程师暗示 Switch 的摇杆漂移问题或难解决
  7. 马斯克打脸简史
  8. 字节公开线上教育课程显示专利,今年6月申请
  9. 乘联会:9月特斯拉销售5万辆 ,Model Y破3万辆
  10. FB斥资1000万美元成立Creator基金会:鼓励Horizon平台内容创作
 

发表评论

您的电子邮箱地址不会被公开。