国漫手机壁纸

全球最大AI巨量模型,参数2457亿炼丹16天专注中文

晓查梦晨发自凹非寺量子位报道公众号QbitAI一个比GPT-3还大的AI模型,如果把近5年中文互联网能爬取到的内容看了个遍,会怎么样?能学会日语。我们把日语词汇“气持”的中文含义告诉它,它能熟练运用“气持”造句。也许你没见过“气持”这个词,但你大概听过它的发音“kimochi

NetSmell 出品

  晓查梦晨发自凹非寺

  量子位报道公众号 QbitAI

  一个比 GPT-3 还大的 AI 模型,如果把近 5 年中文互联网能爬取到的内容看了个遍,会怎么样?

  能学会日语。

  我们把日语词汇“气持”的中文含义告诉它,它能熟练运用“气持”造句。

  也许你没见过“气持”这个词,但你大概听过它的发音“kimochi”(手动狗头)

  新词

  输入-语义

  生成文本

  气持

  “气持”是心情、精神状态的意思。例:“那种消极的气持又控制了他”。用“气持”写一句话:

  他的气持,使我无法接近

  悬命

  “悬命”是拼命,竭尽全力,做出最大努力的意思。他凡事必悬命,绝不打马虎眼。用“悬命”造句:

  他这个人做事太悬命了,为了取得第一手材料,连饭也顾不上吃

  开发它的工程师还告诉我们,如果把“yyds”的意思是“永远的神,用于夸张地赞叹某人某事很厉害”输进去,也可以达到相同效果。

  也就是说,如果网络上诞生什么新的词汇,这个 AI 学会它只需一句话。

  而且这个 AI 看完全部内容只用了16 天

  它就是全球最大规模 AI 巨量模型“源 1.0”,带着2457 亿参数最大高质量中文数据集来了,突如其来。

  在过去 4 个月里,有一群浪潮工程师,他们把近 5 年互联网内容浓缩成2000 亿词,让 AI 在 16 天内读完,终于炼成了“源 1.0”。

  除了“学习日语”,诸如知识问答:

问:大李杜是李白杜甫,小李杜是李商隐和谁?

  源 1.0 答:杜牧

  甚至和女朋友吵架(doge):

输入:我好心问你吃了饭没,你又骂我

  源 1.0 回答:我又没骂你,你自己对号入座

  这些现代社交基本技能,“源 1.0”不在话下。

  更厉害的是“源 1.0”拥有的 2000 亿词是“人类高质量中文数据集”,这是什么概念呢?

  假如一个“读书狂魔”一个月能读 10 本 20 万字小说,那么他需要读 1 万年才能看完整个语料库,而且还是剔除 99% 数据后的高质量文本。

  去年 GPT-3 横空出世效果惊人,除了1750 亿的参数规模,还有就是570GB的英文语料库。

  而“源 1.0”的参数量比 GPT-3 多出40%,语料库总体积达到5000GB,是 GPT-3 的近 10 倍

  源 1.0 中文语音模型

  GPT-3 英文语言模型

  参数量

  2457 亿

  1750 亿

  数据量

  5000GB

  570GB

  计算量

  4095PD

  3640PD

  业内人士指出,5TB 这样的数据体量在中文互联网资源上,应该已经做到了极致。

  有了“人类高质量中文数据集”,“源 1.0”通过图灵测试证明了自己能搞定中文,而且整体效果比 GPT-3 处理英文更佳。

  “源 1.0”生成的文本,只有不到半数能被人正确识别为 AI 生成,仅诗歌“骗过”人类的概率较低。

  毕竟是处理古文,对于主要学习网络中文资源的 AI 来说,是有点超纲了。

  这样一个 AI,训练起来一定花费了很多算力吧?

  的确,源 1.0 在浪潮计算集群上“火力全开”训练了 16 天,能在CLUE上成功“霸榜”也就毫无意外了。

  在零样本学习榜单中,“源 1.0”超越业界最佳成绩 18.3%,在文献分类、新闻分类,商品分类、原生中文推理、成语阅读理解填空、名词代词关系 6 项任务中获得冠军。

  (注:第一名是人类)

  在小样本学习的文献分类、商品分类、文献摘要识别、名词代词关系等 4 项任务获得冠军。在成语阅读理解填空项目中,源 1.0 的表现已超越人类得分。

  但是要让大模型效果好,不是光靠堆算力和数据就能堆出来的,还需要解决巨量模型训练不稳定等诸多技术难题。

  至于背后更多技术细节,浪潮透露,他们近期会将研究论文发布在 arxiv 上。

  作为一家提供服务器、数据存储相关业务的公司,浪潮为何也开始加入“炼大模型”队伍了?这让人感到意外,也许真的是时候转变老观念了。

  “源 1.0”诞生靠什么?

  在不少人的观念里,超大规模 NLP 模型的前沿基本由互联网软件公司把持。

  但实际上,很多超大模型已经是“三位一体”——算力、数据、算法都来自一家——的研究方式了。

  OpenAI 的研究已表明,算力、数据量、参数量的增加都会降低模型训练的损失。

  而且三者之中的任何一个因素都是独立的,优化模型性能需要三者协力。

  浪潮的硬件底子有能力把算力、数据都推到了极致。

  连续 16 天训练

  “源 1.0”整个训练过程中,消耗算力约4630PFLOPS-day,这是什么概念呢?比去年 GPT-3 还多 12.5%。

  但训练模型不是简单的插入 GPU 板卡,在大规模并行计算中的硬件优化更考验能力。

  凭借多年大型服务器上的经验,多年前,浪潮就推出了深度学习并行计算框架 Caffe-MPI,后来又推出了 TensorFlow-Opt。

  这些框架针对大型服务器进行优化,在多 GPU 场景下性能损失很少。

  人类高质量数据集

  仅仅有强大算力是远远不够的,当今的 AI 技术重度依赖于数据。

  做中文自然语言模型,面临的第一道障碍就是语料库。

  当今全球互联网仍然以英文资源为主。以维基百科为例,英文维基共有 638 万词条,而中文仅 123 万,还不到前者的1/6。

  再加上互联网上充斥着大量低质量文本,比如广告、最近流行的废话梗,要是都让 AI 学了去恐怕会学成“智障”。

  浪潮此次抓取了2017 至 2021 年所有中文网页内容、新闻、百科以及电子书

  为了剔除绝大多数的低质量文本,浪潮开发高性能分布式数据清洗软件,耗时近一个月,终于得到 5TB 的全球最大高质量中文数据集。

  最大单一模型

  另外,“源 1.0”还创下另一项之最:全球最大单体 AI 模型。如何理解?

  浪潮信息副总裁、AI&HPC 产品线总经理刘军表示:

  具体来讲就是说单体特别大叫巨量模型,现在最典型巨量模型是 GPT-3,有 1750 亿参数,浪潮“源 1.0”是 2457 亿,不管在中国还是在全球都是最大规模的。

  与单体模型对应的是混合模型。

  混合模型是专家模型的一个混合、集合。它是由多个小模型混合起来的,中间通过开关机制来工作,每一个小模型大约在 100 亿参数左右。

  如果要做比喻的话单体模型就是珠穆朗玛峰,而混合模型就是一群小山。

  研究单体模型如同去攀珠穆朗玛峰,这种巨量模型的在科学和产业中价值是非常大的。

  “会当凌绝顶,一览众山小。”

  单体模型能见所未见,从训练中产生更高层次的知识。这也是“源 1.0”为何无需微调就能在零样本和少样本任务中取得不俗成绩。因为单体模型的“思维”在训练中得到升级。

  当然,训练单体模型付出的代价也更高。

  为提升计算效率,浪潮通过优化大模型结构、节点内张量并行等算力协同优化的方式大大提升计算效率,取得了当前业界一流的计算性能。

  浪潮的深度学习训练集群管理软件 AIStation、集群并行计算深度学习框架 Caffe-MPI、TensorFlow-Opt 等在其中发挥了重要作用。

  “源 1.0”能做什么?

  浪潮花费巨大精力将 AI 巨量模型炼出来,能做什么?

  从 CLUE 榜单的成绩中可以看出,“源 1.0”最擅长的是少样本学习和零样本学习,特别是在文本分类、阅读理解和推理方面的一系列的任务上都获得冠军。

  不过真正落地应用时考验的还是 AI 模型的综合实力,就像一个人走出学校来到工作岗位,这时分科目的考试分数不再重要,最终看的是如何把学习到的知识用起来,去解决真正的问题。

  以智能客服为例,这种与人类一对一交流的场景就对 AI 模型能力的要求极高。

  从最基本的理解用户意图并给出正确答案,到多轮对话中保持上下文的连贯性,最后还要让 AI 能识别用户的情绪变化,在对话中满足用户在情感上的需求。

  如果换成手机上的智能助手,还要求 AI 在长时间对话中保持身份的一致性,不能出现前后矛盾。

  对话之外,还有商业和法律上的长文档的阅读理解、生成摘要,新闻和小说等文本生成辅助创作,都是巨量模型的用武之地。

  被问及为何将模型命名为“源”时,刘军的解释是:

希望巨量模型成为整个产业 AI 化的创新源头。

  浪潮为何要做“源 1.0”?

  一家传统观念中的服务器和 IT 服务厂商,为何突然做出超大语言模型?

  浪潮此举似乎令人意外。

  但是梳理浪潮近年来的发展轨迹,可以说是“蓄谋已久”了。

  在基础算力方面,浪潮在全国各地建立智算中心,作为 AI 基础设施。

  在基础软件方面平台方面,浪潮有 AIStation 开发训练平台,还先后推出深度学习并行计算框架 Caffe-MPI、TensorFlow-Opt、全球首个 FPGA 高效 AI 计算开源框架 TF2 等等。

  同时,浪潮还提供大数据服务云海 Insight。

  算力、软件平台、大数据能力聚齐,不足的就只剩算法。

  浪潮其实早已加码 AI 算法的研究,多年前低调成立了人工智能研究院,终于补上了最后一块拼图。

  最终,人工智能研究院的研发团队,历时 4 个月打造出 2457 亿参数中文模型“源 1.0”。

  “源 1.0”的发布,意味着 “算力、数据、算法”三位一体的时代已经到来,我们不能再将 AI 公司看成三要素中的一环,浪潮已经成为一家“全栈式”AI 企业。

  从去年 GPT-3 出现以来,人们已经看到 NLP 将大规模落地的前景。

  但问题在于,中国有能力开发出中文 AI 巨量模型的公司屈指可数,大大限制 NLP 的应用。

  去年 OpenAI 发布的 GPT-3 现在也只是少量开放 API,处于供不应求状态。超大 NLP 模型效果惊人,却难“接地气”。

  OpenAI 的解决方法是:将 AI 开放给有能力的开发者,由他们二次开发,再提供给用户。

  例如 GitHub 用 GPT-3 开发出自动编程工具 Copilot,再将插件提供给其他公司,用于提升程序员效率。

  △ 利用 GPT-3 自动补全代码

  不同于 GPT-3 商用思路,源 1.0 未来将定向免费开放 API。2019 年,浪潮推出了“元脑生态计划”,生态中的参与者有两类,一类是擅长做技术的“左手伙伴”,另一类是具有业务落地能力的“右手伙伴”。

  发布“源 1.0”巨量模型后,浪潮的下一步是向元脑生态社区内所有开发者开放 API。

  左手伙伴进行二次开发,右手伙伴再利用二次开发技术应用于产业。

  有了“源 1.0”的开放 API,左手伙伴开发出单打独斗时靠小模型难以实现的功能,再交由右手伙伴落地实施。

  且随着 NLP 推理需要的运算资源越来越大,“源 1.0”与浪潮智算中心的云端算力结合,才能开发出更多类似于 Copilot 等以前无法部署的 AI 应用。

  10 年前,没人会料到 AI 算力和模型的发展速度如此之快。

  2012 年 AlexNet 刷新 ImageNet 模型,打开了计算机视觉落地的时代,如今任何一台手机都可以轻松运行各类图像识别、后处理 AI 任务。

  去年 GPT-3 的出现,开启了 NLP 超大模型落地时代。至于它什么时候能用在手机上,刘军说:“乐观估计在 5 年以内。”

  在过去两年,我们已经零星看到了小型 NLP 模型在手机上的应用。例如谷歌在手机上实现离线的语音识别,即使没有手机没有信号、没有 WiFi。

  现在,手机 AI 离线翻译开始逐步上线,但由于手机算力以及模型体积原因,离线翻译的效果还远远比不上在线翻译。

  但 NLP 应用遭遇到算力瓶颈,由于算力资源宝贵,基于 GPT-3 的代码补全工具 Copilot 现在只能处于小规模试用阶段。

  AI 写小说、与人对话、辅助编程现在就已经充满了想象空间,待算力资源、超大 NLP 模型普及,未来还有哪些应用现在真的难以想象。

  斯坦福大学李飞飞教授等知名学者近期在一篇阐述预训练模型的机遇与风险的论文中表示,这类巨量模型的意义在于突现(Emergence)和均质(Homogenization)。

  李飞飞所说的“突现”是指,当数据规模和参数规模大到一定程度时,量变最终能产生质变,完成更高难度的任务。

  现在 2457 亿参数、5TB 数据集训练出来的“源 1.0”是通往质变路上的一次必然的尝试。

  “均质”是指,AI 有了小样本和零样本学习的泛化能力,不经过微调就能直接用于之前没见过的新任务,让语言 AI 具备举一反三的通识能力。

  而且这种通识,让预训练模型不必在经过复杂的“微调”过程,一家训练完成,便可开放给各行各业使用,进一步降低 AI 应用门槛。

  我们不知道未来 AI 巨量模型的质变会带来什么“杀手级应用”,但至少有一些科技公司正在朝着质变的道路上探索,“源 1.0”就是这样一种尝试。

显示余下内容
相关文章:
  1. 信用卡 PIN 码很容易猜测
  2. 神经元簇发能模拟 AI 学习策略
  3. 蜘蛛丝可能根本不具有抗菌性质
  4. 佳能因禁止无墨水打印机扫描被起诉
  5. DeepMind盈利后开始「买买买」!收购机器人模拟平台MuJoCo,全面开源
  6. 分析师:新MacBook Pro搭载自家芯片,苹果利润率更高了
  7. 格芯提交上市申请IPO,筹资约26亿美元
  8. 美股周二:中概股普涨 阿里涨超6% 高途涨逾12%
  9. 搭配自研处理器与安卓12,谷歌新机Pixel 6起价599美元
  10. 摩根士丹利:马斯克有望凭SpaceX成首位万亿美元富豪
  11. 《鱿鱼游戏》助奈飞三季度新增用户翻倍,股价近新高
  12. DOTA 2又上热搜了 为什么这次大家到处刷“猛犸”?
  13. 多位游戏巨头联合希望美国政府监管盗版和作弊网站
  14. Google Play Data Safety开始接受开发者申请:2022年将强制执行
  15. 价格欺诈投诉引发公益诉讼 京东“划线价”格式条款须整改
 

发表回复

您的电子邮箱地址不会被公开。