国漫手机壁纸

6个月火速炼成千亿参数大模型!背后是披荆斩棘的华为云哥哥们

6个月的时间为约定,他们就这样硬生生地打造了个全球领先——华为云盘古大模型:业界首个千亿级生成与理解中文NLP大模型。业界最大的CV大模型。而在这场攻坚战中,华为云人工智能领域首席科学家田奇和团队成员担起了重担。田奇在学术圈可以说是位老将,但当时的事实却是,他在华为云任职才刚刚满半

NetSmell 出品

  6 个月的时间为约定,他们就这样硬生生地打造了个全球领先——华为云盘古大模型:

  业界首个千亿级生成与理解中文 NLP 大模型。

  业界最大的 CV 大模型。

  而在这场攻坚战中,华为云人工智能领域首席科学家田奇和团队成员担起了重担。

  田奇在学术圈可以说是位老将,但当时的事实却是,他在华为云任职才刚刚满半年。

  并且面临的还是“首个”“最大”级别的挑战。

  很重要,一定要“啃”下来。

  这是田奇在心中默默许下的承诺。

  大模型是趋势,更是必争的高地

  时间线先拉回到 2018 年。

  当时的预训练模型,可以说是成功激活了深度神经网络,以及对大规模无标注数据的自监督学习能力。

  它一定程度上打开了深度学习模型规模与性能齐飞的局面(尤其是自然语言处理)。

  国际巨头们在尝到预训练模型带来的“甜头”之后,开始对它展开了激烈的竞争,竞相追逐模型规模和性能的新高度。

  例如 OpenAI 的 GPT、GPT-2;谷歌的 BERT 更是惊艳四座,将自然语言处理推向了一个前所未有的新高度。

  更是被当时的学术界、媒体评价为“开启了 NLP 新时代”。

  而在短短两年时间后,OpenAI 在 2020 年发布的 GPT-3,参数量已经达到了惊人的 1750 亿,其能力更是不言而喻了。

  ……

  当时,AI 对企业的渗透率逐年提升,正在加速进入千行百业。而华为云也早已将 AI 作为重要赛道。

  但 AI 的短板也越发地明显起来——AI 应用的碎片化。

  简单来说,就是团队开发了一个 AI 模型,但在应用过程中,往往会因为场景的多样性、复杂性,无法达到“以一敌十”的效果。

  而大模型所体现出来的惊艳效果,正是强悍的自我学习、应万变的能力。

  大模型正在成为 AI 发展趋势,是必争的高地,“需要且必要”。

  于是,华为云盘古大模型团队开始“汇聚英才”,初始团队个个都是 NLP、CV 的技术专家,同时还集结了一些外部合作伙伴和高校的力量。

  这些人最终成为了华为云盘古大模型最为中坚的力量。

  不过在此之后,第二个问题也随之而来——该怎么做?

  当时大模型在国内外的情况是:国外对 NLP 大模型的关注度较高,而且已经取得了较好的成绩;但国内外对 CV 方面的大模型关注度都不高。

  基于这样的一个现状,田奇团队很快便找到差异化的突破口:

  从 CV 着手,与 NLP 并行;二者结合语言、图像,搞多模态;最后还有一个科学计算。

  当然,大模型四个大方向的制定,也是以华为云自身业务为出发点。

  不难看出,田奇团队要打造的大模型,不再是一个方向的“单项选手”,而是全能型的那种。

  也正是由于打造大模型的必要性,以及打法的差异化,2020 年 11 月,“华为云盘古大模型”的设想在内部立项成功!

  ……

  好的开局已经铺设好,但接下来的路才是攀峰的开始。

  虽说得益于华为在 AI 领域已有的功底:左手一个 CANN 算子(异构计算框架),右手 MindSpore(全场景 AI 计算框架)和 ModelArts(一站式 AI 开发平台),工程方面的挑战并没有成为最大的阻力。

  反倒是那些非技术问题,成为了团队最大的压力。

  他们面临的第一个困难,便是“与时间赛跑”。

  从国外的 BERT 到 GPT-3,以及它们的各种“衍生品”;再到国内友商们在大模型上的发力。

  很明显的一个趋势是,参数规模在不断扩大、能力在大幅提升,而迭代的速度却越来越快。

  正因如此,留给他们打造盘古大模型的时间是真的不多,而且一开始田奇团队人数也并不充裕。

  为了解决这个问题,田奇给他的团队成员们封了一个称号——特战队员:

  我们在做 NLP、CV 和多模态大模型的时候,团队成员的身份是会互换的。

  比如一个 CV 专家,可能也会去参与 NLP 和多模态大模型的开发,甚至他的 CV 知识都会灵活运用到其它领域中。

  而且在后期,这些技术专家们还需要更长远地去考虑商业化模式方面的问题。

  这还不算完,在处理诸如医疗方面的问题时,团队成员还得跟医学等行业专家“登门请教”。

  因为唯有如此,才能让大模型在应用的过程中拿捏得住。

  一人多用,是有种特战队员的意思了。

  除了时间,数据和资源又是一道大坎。

  毕竟要训练大模型,数据是必不可缺的要素;而训练,又需要消耗大量的算力。

  比如训练一个千亿参数的盘古 NLP 大模型,可能需要 2000 块 v 100 甚至更多的机器,一起跑上5、6 个月。

  为此,田奇团队采取的对策,总结为一个词就是——合作。

  例如数据方面,他们便找到了气象局等合作伙伴;资源、算力方面,又寻求与鹏城实验室进行合作。

  但可想而知其间过程的复杂,谈下来合作的难度,定然不会是一蹴而就的事情。

  ……

  就这样,零星的几个人为了一个共同的目标,排除万难地熬过了这样的大半年时间。

  是上阵的时刻了

  2021 年 4 月 25 日,这是属于田奇和“特战队员”们的高光时刻。

  在这一天,一年一度的华为开发者大会(HDC.Cloud)隆重召开,余承东也前来站台。

  但纵观整场发布会,主角之一就是田奇和团队成员们打造的华为云盘古大模型。

  “Hi,盘古”,这一声久违了的唤醒,终于让田奇在公众面前说了出来。

  田奇:什么样的车没有油也可以跑?

  盘古:新能源车和自行车没有油都可以跑。当然,还有玩具车。

  田奇:什么是碳中和?碳排放主要来自于哪些行业?

  盘古:碳中和就是把人为排放的二氧化碳,通过植树造林、节能减排等形式抵消掉,从而使得释放到大气中的总碳量净值为零。目前发电和供热行业、制造和建筑业是主要的碳排放行业。

  ……

  这便是他与盘古流畅且超出众人意料的对话,盘古的常识推理等能力展露无疑。

  田奇进一步解释道:

  这段话的背后盘古模型阅读和理解了大量的相关文章,通过小样本学习对意图进行识别,转化为知识库和数据库查询,并根据返回的结果,生成最终的答案。

  这种方式与 GPT-3 等仅基于端到端生成的方式不同,可以更准确地处理复杂场景,结合领域知识,具备更大的商业价值。

  而通过这一次的亮相,华为云盘古大模型更加详细的全貌也一并公布了出来。

  先观其貌,横揽 AI 领域四大热门方向:

  自然语言处理(NLP)大模型

  计算机视觉(CV)大模型

  多模态大模型

  科学计算大模型

  再闻其详,纵达业界能力之最:

  华为云盘古 NLP 大模型:是业界首个千亿参数中文语言预训练模型,预训练阶段学习了 40TB 中文文本数据,是最接近人类中文理解能力的 AI 大模型。

  华为云盘古 CV 大模型:是目前业界最大的视觉预训练模型,包含超过 30 亿参数。

  具体来说,当时盘古 NLP 大模型在权威的中文语言理解评测基准 CLUE 榜单中,总成绩及分类、阅读理解单项刷新三项榜单世界历史纪录,总成绩得分 83.046。

  而盘古 CV 大模型,则在 ImageNet 1%、10% 数据集上的小样本分类精度上,达到了业界最高水平。

  而更为重要的,华为云盘古大模型的真·奥义,实则是直击痛点——天下苦 AI 开发久矣。

  即便到了现在,AI 开发的过程,较为贴切的比喻应该是“作坊模式”,换言之,就是需要手动的工作太多、太频繁。

  而华为云盘古大模型所提供的方式,可以理解为工厂模式。

  具体来说,就是“预训练+下游微调”,这也是与目前全球主流大模型(如 Bert)所匹配的一种模式,拥有极强的泛化能力。

  换言之,这个模型可以做到“举一反三”。

  ……

  但要说上阵,真正一层的含义并不是在发布会上的首秀,而是下场去在真实场景中发挥它的作用和价值。

  这也是令盘古大模型团队成员们更为激动的事情。

  据了解,截至目前为止,华为云盘古大模型已经在多个行业,100 多个场景中发光发热,包括能源、零售、金融、工业、医疗、环境、物流等等。

  “就很神奇”、“非常激动”。

  这是来自于盘古大模型的服务客户——国网重庆永川供电公司技术人员的真真实实的反应。

  这家公司是国内最早应用无人机电力智能巡检技术的电网企业之一。

  传统的无人机智能巡检 AI 模型开发主要面临两大挑战:

  一是如何对海量数据进行高效标注。

  二是缺陷种类多达上百种,需要数十个 AI 识别模型,开发成本高。

  而盘古 CV 大模型的到来,就很好地解决了这两大难题。

  例如在数据标注方面,盘古 CV 大模型利用海量无标注电力数据进行预训练,并结合少量标注样本微调的高效开发模式,提出了针对电力行业的预训练模型。

  在应用之后,样本筛选效率提升约 30 倍,筛选质量提升约 5 倍:以永川每天采集 5 万张高清图片为例,可节省人工标注时间 170 人天。

  而在模型通用性方面,结合盘古搭载的自动数据增广以及类别自适应损失函数优化策略,可以做到一个模型适配上百种缺陷。

  具体来说,一个模型就可以替代永川原先的 20 多个小模型,极大地减少了模型维护成本,平均精度提升 18.4%,模型开发成本降低 90%。

  在应用华为云盘古大模型的前后,效能差距之大,也难怪客户会发出如此的感叹了。

  披荆斩棘的科学家“哥哥们”

  田奇,就是在华为云盘古大模型背后披荆斩棘的“哥哥们”中的一个。

  田奇本科毕业于清华大学电子工程系,硕士毕业于美国德雷塞尔大学,后赴美国伊利诺伊大学香槟分校学习,师从 Thomas S. Huang 教授,并获得博士学位。

  在 2002 年至 2019 年期间,田奇历任过美国德克萨斯大学圣安东尼奥分校计算机系助理教授、副教授、和正教授。

  他在学术界这一呆,便是十七载。

  在学术界的这些年,说田奇是“蜚声中外”一点都不足为过:

  在计算机视觉及多媒体方向顶级期刊及会议如 IEEE TPAMI、IJCV、TIP、TMM、CVPR、ICCV、ECCV、ACM MM 上发表文章超过 650 篇。

  谷歌学术引用次数超过 30700 次,h指数为 83,有 8 篇论文获最佳论文奖或者最佳学生论文(截止 2021 年 8 月)。

  田奇于 2017 年 UTSA 校长杰出研究奖、2018 年入选国家级领军人才创新项目。他还是国家自然科学基金海外杰青、中国科学院海外评审专家、IEEE Fellow(2016)、国际欧亚科学院院士(2021)。

  ……

  然而,就在一片美好未来的学术道路中,田奇在 2018 年,却作出了一个改变人生轨迹的决定:

  离开学术界,加入华为诺亚方舟实验室,出任计算视觉首席科学家。

  为什么会如此?

  田奇对此解释说:

  我在德克萨斯大学圣安东尼奥分校做了 17 年的老师,教的本科学生换了一批又一批,永远是 18 岁到 22 岁。

  但我一直希望能够将我们共同做过的东西投入到真实场景中,看能不能给社会提供作用、发挥价值。

  从中不难看出,其实在田奇的内心中,一直是有一颗科技向善的种子,他想把技术用起来,要让技术改变人们的生活、改善产业的运作。

  当然,田奇所在的盘古大模型团队、以及“特战队员”们,也是拥有着同样的理想。

  值得一提的是,团队在组建之后其实是在不断壮大中的,如今已包括 3 位华为天才少年、20 多位博士、30 多位工程师和 50 多位来自 C9 高校的参与者。

  他们夜以继日地付出和拼搏,为的是一个共同目标:

  引领工业化 AI 开发的新模式,降低 AI 使用的门槛,实现低成本、大规模的复制。

  当然,除了田奇和他的队员们,盘古大模型的成功出道,同时也离不开华为云各部门之间的整体协作和付出。

  最后,对于盘古大模型接下来的发展计划,田奇表示:

  大模型不光是一个算法、架构这么简单,它实则是一个产品。

  而一个真正的产品和一个模型之间,还有很长的一段距离。

  这个里面牵扯到各个环节:如何持续打磨这个产品的质量,让它的用户体验、性能会越来越好。

  以及在性能、体验提升的过程当中,又如何做到尽可能的减少碳排放,做到绿色 AI,这也是田奇和团队要发力的地方。

  ……

  那么华为云的科学家们,能带着固有的初心,将盘古大模型这个产品打磨到何种程度?

  是值得拭目以待了。

  BERT 综述:

  https://www.jianshu.com/p/4dbdb5ab959b?from=singlemessage

  HDC 直播:

  https://live.huawei.com/hdc2021/meeting/cn/8283.html

显示余下内容
相关文章:
  1. 信用卡 PIN 码很容易猜测
  2. 神经元簇发能模拟 AI 学习策略
  3. 蜘蛛丝可能根本不具有抗菌性质
  4. 佳能因禁止无墨水打印机扫描被起诉
  5. DeepMind盈利后开始「买买买」!收购机器人模拟平台MuJoCo,全面开源
  6. 分析师:新MacBook Pro搭载自家芯片,苹果利润率更高了
  7. 格芯提交上市申请IPO,筹资约26亿美元
  8. 美股周二:中概股普涨 阿里涨超6% 高途涨逾12%
  9. 搭配自研处理器与安卓12,谷歌新机Pixel 6起价599美元
  10. 摩根士丹利:马斯克有望凭SpaceX成首位万亿美元富豪
  11. 《鱿鱼游戏》助奈飞三季度新增用户翻倍,股价近新高
  12. DOTA 2又上热搜了 为什么这次大家到处刷“猛犸”?
  13. 多位游戏巨头联合希望美国政府监管盗版和作弊网站
  14. Google Play Data Safety开始接受开发者申请:2022年将强制执行
  15. 价格欺诈投诉引发公益诉讼 京东“划线价”格式条款须整改
 

发表回复

您的电子邮箱地址不会被公开。