国漫手机壁纸

NLP新秀prompt跨界出圈，清华刘知远最新论文将它应用到VLM图像端

萧箫发自凹非寺量子位报道公众号QbitAINLP的新秀prompt，最近着实有点火。还跨界火到了VLM（Visual-Languagemodel,视觉语言模型）。像OpenAI的CLIP，和南洋理工大学的CoOp都用了这种思路。现在，清华副教授刘知远团队最新发布的视觉语

文章出处：cnblogs。This entry was posted in Review and tagged news. Bookmark the permalink.

NetSmell 出品

　　萧箫发自凹非寺

　　量子位报道公众号 QbitAI

　　NLP 的新秀 prompt，最近着实有点火。

图4: newsNLP新秀prompt跨界出圈，清华刘知远最新论文将它应用到VLM图像端

　　还跨界火到了 VLM（Visual-Language model,视觉语言模型）。

　　像 OpenAI 的 CLIP，和南洋理工大学的 CoOp 都用了这种思路。

　　现在，清华副教授刘知远团队最新发布的视觉语言模型论文中，也提出了一种基于 prompt 的新方法。

图0: newsNLP新秀prompt跨界出圈，清华刘知远最新论文将它应用到VLM图像端

　　据论文表示，这也是首次将 prompt 用于 cross-model 和零样本/少样本学习视觉定位中。

　　从目前的 NLP 和 VLM 模型来看，不少基于 prompt 的模型效果都不错，让搞 CV 的同学们也有点心动——能不能给我们也整一个？

　　那么，prompt 究竟好在哪，应用于图像端后是否也能收获不错的效果？

　　一起来看看。

　　与微调差别在哪？

　　最初，在 NLP 模型还不太大的时候，大家会采用“预训练+微调（fine-tune）”的方式设计针对特定任务的模型。

　　这种模式下，研究人员会预先训练出一个效果比较好的模型，再在保留大部分模型参数的情况下，根据特定任务（下游任务）调整部分参数，使得它在这一任务上达到最好的效果。

图5: newsNLP新秀prompt跨界出圈，清华刘知远最新论文将它应用到VLM图像端

　　△例如以 BERT 作为预训练模型

　　然而，随着预训练模型变得越来越大，微调的代价（训练时间、需求的数据量等）也在增加，研究人员有点吃不消了，开始找更好的方法。

　　prompt 就在这个时候出现了，只不过它这次是针对下游任务进行调整。

　　它有点像是一种输入模板，用来给预训练模型“做出提示”，预训练模型一“看到”它，就知道自己要完成什么任务。

　　例如，在情感分类任务中，希望预训练模型能体会到输入句子的情绪，并给出形容词来对它分类：

　　输入“I love this movie.”后，提前给定一个 prompt“This movie is [mask]”，让预训练模型一看到它，就明白自己要输出“great/nice”等夸赞的形容词。

　　这样训练后，预训练模型就能在看到对应 prompt 时，选出正确的词汇类型，而不是“跑偏”去做别的事情。

　　由于 prompt 在 NLP 领域的应用效果挺好，因此在与 NLP 相关的 VLM 模型中，不少研究人员也开始尝试这种方法。

　　清华将它用到图像端

　　当然，最初应用 prompt 的 VLM 模型，大多也还仍然是将它应用在文本端。

　　据知乎@陀飞轮介绍，像 OpenAI 的 CLIP、NTU 的 CoOp 这两个 VLM 模型，prompt 应用都与 NLP 中的 PET 模型有点像。

　　从它们的模型设计来看，都能很明显从文本端看出 prompt 的影子，像CLIP中的“A photo of a [mask]”：

图1: newsNLP新秀prompt跨界出圈，清华刘知远最新论文将它应用到VLM图像端

　　以及CoOp在 CLIP 上进一步改进的、在训练中能够自行优化的 prompt：

　　这些 prompt 的应用，整体改进了 VLM 模型整体的输出效果。

　　不过，这也基本都是 VLM 在文本端的应用，prompt 到底适不适合被用在图像端上？

　　最新来自清华刘知远团队的论文中，就尝试着在 VLM 的图像端中，以涂色的方式建立了一种 visual sub-prompts。

图2: newsNLP新秀prompt跨界出圈，清华刘知远最新论文将它应用到VLM图像端

　　当然，文本端也对应用上了 prompt，不过据刘知远老师介绍，prompt 在文本端的应用，感觉不足以完全发挥 prompt tuning 的作用，因此这篇论文尝试了一种 cross-modal prompt tuning 的方法。

　　从论文的测试结果来看，这种方法在少样本学习（few-shot）的情况下，基本能取得比微调更好的效果。

图6: newsNLP新秀prompt跨界出圈，清华刘知远最新论文将它应用到VLM图像端

　　不过，这也还是 prompt 在 VLM 上的另一种尝试。

　　它究竟适不适合用来处理 CV 领域的图像问题？

　　CV 领域能借鉴吗？

　　在知乎上，有不少博主给出了自己的看法。

　　知乎@陀飞轮从方法上给出了两条路径：

如果是纯 CV 方向的 prompt，也就是类似于 ViT 将图片拆分 patch，每个 patch 实际上可以看成一个字符，那么也可以设计 patch 的 prompt 对模型进行训练，这其中也可以分成生成式(类似 ViT)和判别式(类似 self-supervised)两种方法。

　　知乎@yearn 则认为，就目前来看，continuous prompt 是最有可能 transfer 到 CV 领域的一系列工作。最近 transformer 准备大一统 CV，NLP，将 image 输入转化为 patch 的形式，也让研究人员更方便借鉴 NLP 的方法学习 prompt。

　　当然，@yearn 也表示，要想真正将 prompt 应用到 CV 领域，还存在两个需要解决的难题：

1、CV 还不存在 BERT，GPT 这样具有统治力的预训练模型，因此近期内可能很难将 prompt 做 few-shot learning 这一套搬过来。

　　2、CV 的 downstream task 更加复杂，感觉检测，分割这类任务要把 prompt 调 work 是一个非常大的工作量。

　　但也有匿名用户直接认为，图像上只能用非常别扭的方法做一些任务。当然，视频反而可能应用得更好。

图3: newsNLP新秀prompt跨界出圈，清华刘知远最新论文将它应用到VLM图像端

　　那么，你认为 prompt 能应用在 CV 领域吗？

　　刘知远团队最新论文：

　　https://arxiv.org/abs/2109.11797

　　知乎回答（已授权）：

　　@陀飞轮：https://www.zhihu.com/question/487096135/answer/2127127513

　　@yearn：https://www.zhihu.com/question/487096135/answer/2124603834

显示余下内容

国漫手机壁纸

NLP新秀prompt跨界出圈，清华刘知远最新论文将它应用到VLM图像端

相关文章：

发表回复取消回复

标签

国漫手机壁纸

NLP新秀prompt跨界出圈，清华刘知远最新论文将它应用到VLM图像端

相关文章：

发表回复 取消回复

标签

发表回复取消回复