首页国漫美女壁纸网文头条

国漫手机壁纸

清华唐杰团队：一文看懂NLP预训练模型前世今生

博雯发自凹非寺量子位报道公众号QbitAI搞出了全球最大预训练模型的悟道团队，现在来手把手地教你怎么弄懂预训练这一概念了。刚刚，清华唐杰教授联合悟道团队发布了一篇有关预训练模型的综述：整篇论文超过40页，从发展历史、最新突破和未来研究三个方向，完整地梳理了大规模预训练模型（PTM）的前

文章出处：cnblogs。This entry was posted in Review and tagged news. Bookmark the permalink.

NetSmell 出品

　　博雯发自凹非寺

　　量子位报道公众号 QbitAI

　　搞出了全球最大预训练模型的悟道团队，现在来手把手地教你怎么弄懂预训练这一概念了。

　　刚刚，清华唐杰教授联合悟道团队发布了一篇有关预训练模型的综述：

图1: news清华唐杰团队：一文看懂NLP预训练模型前世今生

　　整篇论文超过 40 页，从发展历史、最新突破和未来研究三个方向，完整地梳理了大规模预训练模型（PTM）的前世今生。

图0: news清华唐杰团队：一文看懂NLP预训练模型前世今生

　　现在就一起来看看这篇论文的主要内容吧。

　　预训练的历史

　　论文首先从预训练的发展过程开始讲起。

图2: news清华唐杰团队：一文看懂NLP预训练模型前世今生

　　早期预训练的工作主要集中在迁移学习上，其中特征迁移和参数迁移是两种最为广泛的预训练方法。

　　从早期的有监督预训练到当前的自监督预训练，将基于 Transformer 的 PTM 作用于 NLP 任务已经成为了一种标准流程。

　　可以说，最近 PTM 在多种工作上的成功，就得益于自监督预训练和 Transformer 的结合。

　　这也就是论文第 3 节的主要内容：

　　神经架构 Transformer，以及两个基于 Transformer 的里程碑式的预训练模型：BERT 和 GPT。

图4: news清华唐杰团队：一文看懂NLP预训练模型前世今生

　　两个模型分别使用自回归语言建模和自编码语言建模作为预训练目标。

　　后续所有的预训练模型可以说都是这两个模型的变种。

　　例如论文中展示的这张图，就列出了近年修改了模型架构，并探索了新的预训练任务的诸多 PTM：

图5: news清华唐杰团队：一文看懂NLP预训练模型前世今生

　　大规模预训练模型的最新突破

　　论文的4-7 节则全面地回顾了 PTM 的最新突破。

　　这些突破主要由激增的算力和越来越多的数据驱动，朝着以下四个方向发展：

　　设计有效架构

　　在第 4 节中，论文深入地探究了 BERT 家族及其变体 PTM，并提到，所有用于语言预训练的基于 Transformer 的 BERT 架构都可被归类为两个动机：

　　统一序列建模

　　认知启发架构

　　除此以外，当前大多数研究都专注于优化 BERT 架构，以提高语言模型在自然语言理解方面的性能。

　　利用多源数据

　　很多典型 PTM 都利用了数据持有方、类型、特征各不相同的多源异构数据。

　　比如多语言 PTM、多模态 PTM 和知识（Knowledge）增强型 PTM。

　　提高计算效率

　　第 6 节从三个方面介绍了如何提升计算效率。

　　第一种方法是系统级优化，包括单设备优化和多设备优化。

　　比如说像是 ZeRO-Offload，就设计了精细的策略来安排 CPU 内存和 GPU 内存之间的交换，以便内存交换和设备计算能够尽可能多地重叠。

图3: news清华唐杰团队：一文看懂NLP预训练模型前世今生

　　第二种方法是探索更高效的预训练方法和模型架构，以降低方案的成本。

　　第三种则是模型压缩策略，包括参数共享、模型剪枝、知识蒸馏和模型量化。

　　解释和理论分析

　　对于 PTM 的工作原理和特性，论文在第 7 节做了详细的解读。

　　首先是 PTM 所捕获的两类隐性知识：

　　一种是语言知识，一般通过表征探测、表示分析、注意力分析、生成分析四种方法进行研究。

　　另一种是包括常识和事实在内的世界知识。

　　随后论文也指出，在最近相关工作的对抗性示例中，PTM 展现出了严重的鲁棒性问题，即容易被同义词所误导，从而做出错误预测。

　　最后，论文总结了 PTM 的结构稀疏性/模块性，以及 PTM 理论分析方面的开创性工作。

　　未来的研究方向

　　到现在，论文已经回顾了 PTM 的过去与现在，最后一节则基于上文提到的各种工作，指出了 PTM 未来可以进一步发展的 7 个方向：

　　架构和预训练方法

　　包括新架构、新的预训练任务、Prompt Tuning、可靠性

　　多语言和多模态训练

　　包括更多的模态、解释、下游任务，以及迁移学习

　　计算效率

　　包括数据迁移、并行策略、大规模训练、封装和插件

　　理论基础

　　包括不确定性、泛化和鲁棒性

　　模识（Modeledge）学习

　　包括基于知识感知的任务、模识的储存和管理

　　认知和知识学习

　　包括知识增强、知识支持、知识监督、认知架构、知识的互相作用

　　应用

　　包括自然语言生成、对话系统、特定领域的 PTM、领域自适应和任务自适应

　　论文最后也提到，和以自然语言形式，即离散符号表现的人类知识不同，储存在 PTM 中的知识是一种对机器友好的，连续的实值向量。

　　团队将这种知识命名为模识，希望未来能以一种更有效的方式捕捉模识，为特定任务寻找更好的解决方案。

　　更多细节可点击直达原论文：

　　http://keg.cs.tsinghua.edu.cn/jietang/publications/AIOPEN21-Han-et-al-Pre-Trained%20Models-%20Past,%20Present%20and%20Future.pdf

　　参考链接：

　　https://m.weibo.cn/status/4678571136388064

显示余下内容

相关文章：

趣味小游戏：你对颜色敏感吗？过不了16关就不要再玩手机了！

趣味益智互动游戏：请画一个小人

「可怜的东西」尺度炸裂，女神这么脱，值么？

《蜘蛛夫人》别看，史上最差超英电影，烂到家了！

《凯洛的末日日常》Netflix新片末日疯狂跌破眼镜！

《利益区域》不见血的暴行！尺度堪比禁片，不寒而栗

《忍者神威》开局9.1分！好久没这么爽了

《爱爱内含光》这部性喜剧，除了性还能看到什么？

「杀人者的难堪」他这一锤，拿下网飞Top1

《群星》Apple TV开年惊悚王炸！美剧又出息了！

「阿盖尔：神秘特工」太意外了，年后第一部大片，竟然这么爽！

奥斯卡最大黑马？全片无台词的电影凭什么！

剧版《史密斯夫妇》瞎改经典，全网抵制，打脸了？

2024必看神作！《首尔之春》太敢拍了！

韩剧《共助》从头爽到尾，这部谍战电影帅爆了！

地狱客栈第一季 8.6，该动画已屏蔽全体儿童

《杀人者的购物中心》又来一部王炸爽剧，杀疯了

《12年级的失败》神片来袭，印度版“小镇做题家”太上头！

《地狱客栈》第一季单集9.0分，千年等一回，这神仙动画我爱了

《荒野》马东锡血浆片，虽烂但爽

韩剧《观相》豪华阵容狂飙演技，宋康昊首部古装大片！

电影「花千骨」怒冲3.5，「开年第一烂」出现了！

发表回复取消回复