国漫手机壁纸

6个月火速炼成千亿参数大模型！背后是披荆斩棘的华为云哥哥们

6个月的时间为约定，他们就这样硬生生地打造了个全球领先——华为云盘古大模型：业界首个千亿级生成与理解中文NLP大模型。业界最大的CV大模型。而在这场攻坚战中，华为云人工智能领域首席科学家田奇和团队成员担起了重担。田奇在学术圈可以说是位老将，但当时的事实却是，他在华为云任职才刚刚满半

文章出处：cnblogs。This entry was posted in Review and tagged news. Bookmark the permalink.

NetSmell 出品

　　6 个月的时间为约定，他们就这样硬生生地打造了个全球领先——华为云盘古大模型：

　　业界首个千亿级生成与理解中文 NLP 大模型。

　　业界最大的 CV 大模型。

　　而在这场攻坚战中，华为云人工智能领域首席科学家田奇和团队成员担起了重担。

　　田奇在学术圈可以说是位老将，但当时的事实却是，他在华为云任职才刚刚满半年。

　　并且面临的还是“首个”“最大”级别的挑战。

　　很重要，一定要“啃”下来。

　　这是田奇在心中默默许下的承诺。

　　大模型是趋势，更是必争的高地

　　时间线先拉回到 2018 年。

　　当时的预训练模型，可以说是成功激活了深度神经网络，以及对大规模无标注数据的自监督学习能力。

　　它一定程度上打开了深度学习模型规模与性能齐飞的局面（尤其是自然语言处理）。

　　国际巨头们在尝到预训练模型带来的“甜头”之后，开始对它展开了激烈的竞争，竞相追逐模型规模和性能的新高度。

　　例如 OpenAI 的 GPT、GPT-2；谷歌的 BERT 更是惊艳四座，将自然语言处理推向了一个前所未有的新高度。

　　更是被当时的学术界、媒体评价为“开启了 NLP 新时代”。

　　而在短短两年时间后，OpenAI 在 2020 年发布的 GPT-3，参数量已经达到了惊人的 1750 亿，其能力更是不言而喻了。

　　……

　　当时，AI 对企业的渗透率逐年提升，正在加速进入千行百业。而华为云也早已将 AI 作为重要赛道。

　　但 AI 的短板也越发地明显起来——AI 应用的碎片化。

　　简单来说，就是团队开发了一个 AI 模型，但在应用过程中，往往会因为场景的多样性、复杂性，无法达到“以一敌十”的效果。

　　而大模型所体现出来的惊艳效果，正是强悍的自我学习、应万变的能力。

　　大模型正在成为 AI 发展趋势，是必争的高地，“需要且必要”。

　　于是，华为云盘古大模型团队开始“汇聚英才”，初始团队个个都是 NLP、CV 的技术专家，同时还集结了一些外部合作伙伴和高校的力量。

　　这些人最终成为了华为云盘古大模型最为中坚的力量。

　　不过在此之后，第二个问题也随之而来——该怎么做？

　　当时大模型在国内外的情况是：国外对 NLP 大模型的关注度较高，而且已经取得了较好的成绩；但国内外对 CV 方面的大模型关注度都不高。

　　基于这样的一个现状，田奇团队很快便找到差异化的突破口：

　　从 CV 着手，与 NLP 并行；二者结合语言、图像，搞多模态；最后还有一个科学计算。

　　当然，大模型四个大方向的制定，也是以华为云自身业务为出发点。

　　不难看出，田奇团队要打造的大模型，不再是一个方向的“单项选手”，而是全能型的那种。

　　也正是由于打造大模型的必要性，以及打法的差异化，2020 年 11 月，“华为云盘古大模型”的设想在内部立项成功！

　　……

　　好的开局已经铺设好，但接下来的路才是攀峰的开始。

　　虽说得益于华为在 AI 领域已有的功底：左手一个 CANN 算子（异构计算框架），右手 MindSpore（全场景 AI 计算框架）和 ModelArts（一站式 AI 开发平台），工程方面的挑战并没有成为最大的阻力。

　　反倒是那些非技术问题，成为了团队最大的压力。

　　他们面临的第一个困难，便是“与时间赛跑”。

　　从国外的 BERT 到 GPT-3，以及它们的各种“衍生品”；再到国内友商们在大模型上的发力。

　　很明显的一个趋势是，参数规模在不断扩大、能力在大幅提升，而迭代的速度却越来越快。

　　正因如此，留给他们打造盘古大模型的时间是真的不多，而且一开始田奇团队人数也并不充裕。

　　为了解决这个问题，田奇给他的团队成员们封了一个称号——特战队员：

　　我们在做 NLP、CV 和多模态大模型的时候，团队成员的身份是会互换的。

　　比如一个 CV 专家，可能也会去参与 NLP 和多模态大模型的开发，甚至他的 CV 知识都会灵活运用到其它领域中。

　　而且在后期，这些技术专家们还需要更长远地去考虑商业化模式方面的问题。

　　这还不算完，在处理诸如医疗方面的问题时，团队成员还得跟医学等行业专家“登门请教”。

　　因为唯有如此，才能让大模型在应用的过程中拿捏得住。

　　一人多用，是有种特战队员的意思了。

　　除了时间，数据和资源又是一道大坎。

　　毕竟要训练大模型，数据是必不可缺的要素；而训练，又需要消耗大量的算力。

　　比如训练一个千亿参数的盘古 NLP 大模型，可能需要 2000 块 v 100 甚至更多的机器，一起跑上5、6 个月。

　　为此，田奇团队采取的对策，总结为一个词就是——合作。

　　例如数据方面，他们便找到了气象局等合作伙伴；资源、算力方面，又寻求与鹏城实验室进行合作。

　　但可想而知其间过程的复杂，谈下来合作的难度，定然不会是一蹴而就的事情。

　　……

　　就这样，零星的几个人为了一个共同的目标，排除万难地熬过了这样的大半年时间。

　　是上阵的时刻了

　　2021 年 4 月 25 日，这是属于田奇和“特战队员”们的高光时刻。

　　在这一天，一年一度的华为开发者大会（HDC.Cloud）隆重召开，余承东也前来站台。

　　但纵观整场发布会，主角之一就是田奇和团队成员们打造的华为云盘古大模型。

　　“Hi，盘古”，这一声久违了的唤醒，终于让田奇在公众面前说了出来。

　　田奇：什么样的车没有油也可以跑？

　　盘古：新能源车和自行车没有油都可以跑。当然，还有玩具车。

　　田奇：什么是碳中和？碳排放主要来自于哪些行业？

　　盘古：碳中和就是把人为排放的二氧化碳，通过植树造林、节能减排等形式抵消掉，从而使得释放到大气中的总碳量净值为零。目前发电和供热行业、制造和建筑业是主要的碳排放行业。

　　……

　　这便是他与盘古流畅且超出众人意料的对话，盘古的常识推理等能力展露无疑。

　　田奇进一步解释道：

　　这段话的背后盘古模型阅读和理解了大量的相关文章，通过小样本学习对意图进行识别，转化为知识库和数据库查询，并根据返回的结果，生成最终的答案。

　　这种方式与 GPT-3 等仅基于端到端生成的方式不同，可以更准确地处理复杂场景，结合领域知识，具备更大的商业价值。

　　而通过这一次的亮相，华为云盘古大模型更加详细的全貌也一并公布了出来。

　　先观其貌，横揽 AI 领域四大热门方向：

　　自然语言处理（NLP）大模型

　　计算机视觉（CV）大模型

　　多模态大模型

　　科学计算大模型

　　再闻其详，纵达业界能力之最：

　　华为云盘古 NLP 大模型：是业界首个千亿参数中文语言预训练模型，预训练阶段学习了 40TB 中文文本数据，是最接近人类中文理解能力的 AI 大模型。

　　华为云盘古 CV 大模型：是目前业界最大的视觉预训练模型，包含超过 30 亿参数。

　　具体来说，当时盘古 NLP 大模型在权威的中文语言理解评测基准 CLUE 榜单中，总成绩及分类、阅读理解单项刷新三项榜单世界历史纪录，总成绩得分 83.046。

　　而盘古 CV 大模型，则在 ImageNet 1%、10% 数据集上的小样本分类精度上，达到了业界最高水平。

　　而更为重要的，华为云盘古大模型的真·奥义，实则是直击痛点——天下苦 AI 开发久矣。

　　即便到了现在，AI 开发的过程，较为贴切的比喻应该是“作坊模式”，换言之，就是需要手动的工作太多、太频繁。

　　而华为云盘古大模型所提供的方式，可以理解为工厂模式。

　　具体来说，就是“预训练+下游微调”，这也是与目前全球主流大模型（如 Bert）所匹配的一种模式，拥有极强的泛化能力。

　　换言之，这个模型可以做到“举一反三”。

　　……

　　但要说上阵，真正一层的含义并不是在发布会上的首秀，而是下场去在真实场景中发挥它的作用和价值。

　　这也是令盘古大模型团队成员们更为激动的事情。

　　据了解，截至目前为止，华为云盘古大模型已经在多个行业，100 多个场景中发光发热，包括能源、零售、金融、工业、医疗、环境、物流等等。

　　“就很神奇”、“非常激动”。

　　这是来自于盘古大模型的服务客户——国网重庆永川供电公司技术人员的真真实实的反应。

　　这家公司是国内最早应用无人机电力智能巡检技术的电网企业之一。

　　传统的无人机智能巡检 AI 模型开发主要面临两大挑战：

　　一是如何对海量数据进行高效标注。

　　二是缺陷种类多达上百种，需要数十个 AI 识别模型，开发成本高。

　　而盘古 CV 大模型的到来，就很好地解决了这两大难题。

　　例如在数据标注方面，盘古 CV 大模型利用海量无标注电力数据进行预训练，并结合少量标注样本微调的高效开发模式，提出了针对电力行业的预训练模型。

　　在应用之后，样本筛选效率提升约 30 倍，筛选质量提升约 5 倍：以永川每天采集 5 万张高清图片为例，可节省人工标注时间 170 人天。

　　而在模型通用性方面，结合盘古搭载的自动数据增广以及类别自适应损失函数优化策略，可以做到一个模型适配上百种缺陷。

　　具体来说，一个模型就可以替代永川原先的 20 多个小模型，极大地减少了模型维护成本，平均精度提升 18.4%，模型开发成本降低 90%。

　　在应用华为云盘古大模型的前后，效能差距之大，也难怪客户会发出如此的感叹了。

　　披荆斩棘的科学家“哥哥们”

　　田奇，就是在华为云盘古大模型背后披荆斩棘的“哥哥们”中的一个。

　　田奇本科毕业于清华大学电子工程系，硕士毕业于美国德雷塞尔大学，后赴美国伊利诺伊大学香槟分校学习，师从 Thomas S. Huang 教授，并获得博士学位。

　　在 2002 年至 2019 年期间，田奇历任过美国德克萨斯大学圣安东尼奥分校计算机系助理教授、副教授、和正教授。

　　他在学术界这一呆，便是十七载。

　　在学术界的这些年，说田奇是“蜚声中外”一点都不足为过：

　　在计算机视觉及多媒体方向顶级期刊及会议如 IEEE TPAMI、IJCV、TIP、TMM、CVPR、ICCV、ECCV、ACM MM 上发表文章超过 650 篇。

　　谷歌学术引用次数超过 30700 次，h指数为 83，有 8 篇论文获最佳论文奖或者最佳学生论文（截止 2021 年 8 月）。

　　田奇于 2017 年 UTSA 校长杰出研究奖、2018 年入选国家级领军人才创新项目。他还是国家自然科学基金海外杰青、中国科学院海外评审专家、IEEE Fellow（2016）、国际欧亚科学院院士（2021）。

　　……

　　然而，就在一片美好未来的学术道路中，田奇在 2018 年，却作出了一个改变人生轨迹的决定：

　　离开学术界，加入华为诺亚方舟实验室，出任计算视觉首席科学家。

　　为什么会如此？

　　田奇对此解释说：

　　我在德克萨斯大学圣安东尼奥分校做了 17 年的老师，教的本科学生换了一批又一批，永远是 18 岁到 22 岁。

　　但我一直希望能够将我们共同做过的东西投入到真实场景中，看能不能给社会提供作用、发挥价值。

　　从中不难看出，其实在田奇的内心中，一直是有一颗科技向善的种子，他想把技术用起来，要让技术改变人们的生活、改善产业的运作。

　　当然，田奇所在的盘古大模型团队、以及“特战队员”们，也是拥有着同样的理想。

　　值得一提的是，团队在组建之后其实是在不断壮大中的，如今已包括 3 位华为天才少年、20 多位博士、30 多位工程师和 50 多位来自 C9 高校的参与者。

　　他们夜以继日地付出和拼搏，为的是一个共同目标：

　　引领工业化 AI 开发的新模式，降低 AI 使用的门槛，实现低成本、大规模的复制。

　　当然，除了田奇和他的队员们，盘古大模型的成功出道，同时也离不开华为云各部门之间的整体协作和付出。

　　最后，对于盘古大模型接下来的发展计划，田奇表示：

　　大模型不光是一个算法、架构这么简单，它实则是一个产品。

　　而一个真正的产品和一个模型之间，还有很长的一段距离。

　　这个里面牵扯到各个环节：如何持续打磨这个产品的质量，让它的用户体验、性能会越来越好。

　　以及在性能、体验提升的过程当中，又如何做到尽可能的减少碳排放，做到绿色 AI，这也是田奇和团队要发力的地方。

　　……

　　那么华为云的科学家们，能带着固有的初心，将盘古大模型这个产品打磨到何种程度？

　　是值得拭目以待了。

　　BERT 综述：

　　https://www.jianshu.com/p/4dbdb5ab959b?from=singlemessage

　　HDC 直播：

　　https://live.huawei.com/hdc2021/meeting/cn/8283.html

显示余下内容

国漫手机壁纸

6个月火速炼成千亿参数大模型！背后是披荆斩棘的华为云哥哥们

相关文章：

发表回复取消回复

标签

国漫手机壁纸

6个月火速炼成千亿参数大模型！背后是披荆斩棘的华为云哥哥们

相关文章：

发表回复 取消回复

标签

发表回复取消回复