国漫手机壁纸

清华唐杰团队:一文看懂NLP预训练模型前世今生

博雯发自凹非寺量子位报道公众号QbitAI搞出了全球最大预训练模型的悟道团队,现在来手把手地教你怎么弄懂预训练这一概念了。刚刚,清华唐杰教授联合悟道团队发布了一篇有关预训练模型的综述:整篇论文超过40页,从发展历史、最新突破和未来研究三个方向,完整地梳理了大规模预训练模型(PTM)的前

NetSmell 出品

  博雯发自凹非寺

  量子位报道公众号 QbitAI

  搞出了全球最大预训练模型的悟道团队,现在来手把手地教你怎么弄懂预训练这一概念了。

  刚刚,清华唐杰教授联合悟道团队发布了一篇有关预训练模型的综述:

  整篇论文超过 40 页,从发展历史、最新突破和未来研究三个方向,完整地梳理了大规模预训练模型(PTM)的前世今生。

  现在就一起来看看这篇论文的主要内容吧。

  预训练的历史

  论文首先从预训练的发展过程开始讲起。

  早期预训练的工作主要集中在迁移学习上,其中特征迁移和参数迁移是两种最为广泛的预训练方法。

  从早期的有监督预训练到当前的自监督预训练,将基于 Transformer 的 PTM 作用于 NLP 任务已经成为了一种标准流程。

  可以说,最近 PTM 在多种工作上的成功,就得益于自监督预训练和 Transformer 的结合。

  这也就是论文第 3 节的主要内容:

  神经架构 Transformer,以及两个基于 Transformer 的里程碑式的预训练模型:BERT 和 GPT。

  两个模型分别使用自回归语言建模和自编码语言建模作为预训练目标。

  后续所有的预训练模型可以说都是这两个模型的变种。

  例如论文中展示的这张图,就列出了近年修改了模型架构,并探索了新的预训练任务的诸多 PTM:

  大规模预训练模型的最新突破

  论文的4-7 节则全面地回顾了 PTM 的最新突破。

  这些突破主要由激增的算力和越来越多的数据驱动,朝着以下四个方向发展:

  设计有效架构

  在第 4 节中,论文深入地探究了 BERT 家族及其变体 PTM,并提到,所有用于语言预训练的基于 Transformer 的 BERT 架构都可被归类为两个动机:

  统一序列建模

  认知启发架构

  除此以外,当前大多数研究都专注于优化 BERT 架构,以提高语言模型在自然语言理解方面的性能。

  利用多源数据

  很多典型 PTM 都利用了数据持有方、类型、特征各不相同的多源异构数据。

  比如多语言 PTM、多模态 PTM 和知识(Knowledge)增强型 PTM。

  提高计算效率

  第 6 节从三个方面介绍了如何提升计算效率。

  第一种方法是系统级优化,包括单设备优化和多设备优化。

  比如说像是 ZeRO-Offload,就设计了精细的策略来安排 CPU 内存和 GPU 内存之间的交换,以便内存交换和设备计算能够尽可能多地重叠。

  第二种方法是探索更高效的预训练方法和模型架构,以降低方案的成本。

  第三种则是模型压缩策略,包括参数共享、模型剪枝、知识蒸馏和模型量化。

  解释和理论分析

  对于 PTM 的工作原理和特性,论文在第 7 节做了详细的解读。

  首先是 PTM 所捕获的两类隐性知识:

  一种是语言知识,一般通过表征探测、表示分析、注意力分析、生成分析四种方法进行研究。

  另一种是包括常识和事实在内的世界知识。

  随后论文也指出,在最近相关工作的对抗性示例中,PTM 展现出了严重的鲁棒性问题,即容易被同义词所误导,从而做出错误预测。

  最后,论文总结了 PTM 的结构稀疏性/模块性,以及 PTM 理论分析方面的开创性工作。

  未来的研究方向

  到现在,论文已经回顾了 PTM 的过去与现在,最后一节则基于上文提到的各种工作,指出了 PTM 未来可以进一步发展的 7 个方向:

  架构和预训练方法

  包括新架构、新的预训练任务、Prompt Tuning、可靠性

  多语言和多模态训练

  包括更多的模态、解释、下游任务,以及迁移学习

  计算效率

  包括数据迁移、并行策略、大规模训练、封装和插件

  理论基础

  包括不确定性、泛化和鲁棒性

  模识(Modeledge)学习

  包括基于知识感知的任务、模识的储存和管理

  认知和知识学习

  包括知识增强、知识支持、知识监督、认知架构、知识的互相作用

  应用

  包括自然语言生成、对话系统、特定领域的 PTM、领域自适应和任务自适应

  论文最后也提到,和以自然语言形式,即离散符号表现的人类知识不同,储存在 PTM 中的知识是一种对机器友好的,连续的实值向量。

  团队将这种知识命名为模识,希望未来能以一种更有效的方式捕捉模识,为特定任务寻找更好的解决方案。

  更多细节可点击直达原论文:

  http://keg.cs.tsinghua.edu.cn/jietang/publications/AIOPEN21-Han-et-al-Pre-Trained%20Models-%20Past,%20Present%20and%20Future.pdf

  参考链接:

  https://m.weibo.cn/status/4678571136388064

显示余下内容
相关文章:
  1. 信用卡 PIN 码很容易猜测
  2. 神经元簇发能模拟 AI 学习策略
  3. 蜘蛛丝可能根本不具有抗菌性质
  4. 佳能因禁止无墨水打印机扫描被起诉
  5. DeepMind盈利后开始「买买买」!收购机器人模拟平台MuJoCo,全面开源
  6. 分析师:新MacBook Pro搭载自家芯片,苹果利润率更高了
  7. 格芯提交上市申请IPO,筹资约26亿美元
  8. 美股周二:中概股普涨 阿里涨超6% 高途涨逾12%
  9. 搭配自研处理器与安卓12,谷歌新机Pixel 6起价599美元
  10. 摩根士丹利:马斯克有望凭SpaceX成首位万亿美元富豪
  11. 《鱿鱼游戏》助奈飞三季度新增用户翻倍,股价近新高
  12. DOTA 2又上热搜了 为什么这次大家到处刷“猛犸”?
  13. 多位游戏巨头联合希望美国政府监管盗版和作弊网站
  14. Google Play Data Safety开始接受开发者申请:2022年将强制执行
  15. 价格欺诈投诉引发公益诉讼 京东“划线价”格式条款须整改
 

发表回复

您的电子邮箱地址不会被公开。