国漫手机壁纸

美国重返全球超算“霸主”之位:IBM助力全新超级计算机超越中国神威,专为AI时代而生

Summit 基于 IBM 在 2017 年 12 月于北京所发表的最新一代 Power PC 9216 架构,与多达 27648 个 NVIDIA GPU 组合而成,目的在于解决目前机器学习与神经网络等 AI 应用的性能瓶颈,而英特尔在此次的超算架构中缺席,代表 IBM 重回超算核心架构的决心有了相当的成效。

NetSmell 出品

自 2013 年以来,中国就始终占据着世界超级计算机排名第一的位置。而这一次,美国再次逆袭,重回巅峰

近日,美国能源部 ( US Department of Energy) 田纳西州橡树岭国家实验室 (Oak Ridge National Lab) 的工程师推出了一台名为Summit ”的超级计算机,其计算能力已经超过了目前排名第一的中国神威·太湖之光超级计算机。

图0:美国重返全球超算“霸主”之位:IBM助力全新超级计算机超越中国神威,专为AI时代而生

根据官方介绍,Summit 的峰值计算能力可以达到每秒 20 亿亿次,比神威·太湖之光要快60%,同时也是美国此前的明星超级计算机“Titan”计算能力的8 倍

我们做一个类比,如果一个人一秒计算一次的话,就必须要花 63 亿年才能达到 Summit 一秒的计算量。假设一个 10 万人的体育场,每个人都手握一台笔记本电脑同时计算,那么也至少需要 20 个这样的体育场同时“运转”才能达到 Summit 的计算能力。

图1:美国重返全球超算“霸主”之位:IBM助力全新超级计算机超越中国神威,专为AI时代而生

在超级计算机领域,美国的世界霸主地位曾经被动摇。一直以来,美国能源部所使用的超级计算机长期占据着世界第一的位置。但是在这次成果出来之前的几年里,中国已经成功实现追赶超越美国。我国的神威·太湖之光 93 PFLOP 的极限性能(1 PFLOP 等于每秒一千万亿次的浮点运算),相当于美国能源部下属橡树岭国家实验室开发的 Titan(18 PFLOP)超级计算机的 5 倍。

根据全球超算大会(ISC)2017 年“超级计算机 500 强”榜单,中国超算“神威·太湖之光”与“天河二号”连续第三次夺得榜单前两位,瑞士的“Piz Daint”排名第三,美国的超算 Titan 则名列第四。这也是 20 年来美国首次跌出该榜单的前三名。

图2:美国重返全球超算“霸主”之位:IBM助力全新超级计算机超越中国神威,专为AI时代而生

图丨美国能源部的“Titan ”超级计算机

当然,Summit 的出现除了再次唤起美国人的自豪感之外,其也有实际的应用场景。比如从新飞机的设计到新材料的制造、从军方核武器的设计到最基础的科学研究,可以说,无论是从科学研究还是军事能力的角度出发,Summit 都对美国继续保持全球超级大国的地位起到非常重要的作用。

橡树岭的研究小组说,Summit 是第一台既支持传统计算也支持运行人工智能应用程序的超级计算机,比如机器学习和神经网络等运行都可以在其上实现。Summit 基于 IBM 在 2017 年 12 月于北京所发表的最新一代 Power PC 9216 架构,与多达 27648 个 NVIDIA GPU 组合而成,目的在于解决目前机器学习与神经网络等 AI 应用的性能瓶颈,而英特尔在此次的超算架构中缺席,代表 IBM 重回超算核心架构的决心有了相当的成效。

IBM 的专家 Bob Picciano 认为,这让 Summit 能够在运行一些程序时比 Titan 快 10 倍,而使用的电力只增加了 50%。测试 Summit 时使用的 AI 程序包括海量的报告和医疗图像,用来尝试发现基因与癌症的关系,以及用来发现那些可能导致阿片成瘾或其他病痛的遗传特征。

像 Summit 这样更强大的超级计算机也可以用于推进气候建模。斯坦福大学卡内基科学研究所的 Patrick Brown 指出,气候建模最大的挑战之一是模拟云的行为,这对我们预测变暖量非常重要。Brown 说,如果有更强的计算能力,用更加详细的方式、模拟更长的时间范围内云中发生的事情会更容易。这可以帮助理清不同气候模型结果之间的关系。

图3:美国重返全球超算“霸主”之位:IBM助力全新超级计算机超越中国神威,专为AI时代而生

图丨超级计算机含有芯片的节点

Summit 有望在超算算力排名中拔得头筹,预计未来它的性能将达到每秒百亿亿次。全球超级计算机的竞赛已经开始,美国和中国领先。美国正在研究开发几台这样的机器,每台机器的成本可能在 4 亿美元至6 亿美元之间,并且得到了英伟达、IBM 以及英特尔等公司的合作帮助。美国的目标是在 2021 年和 2023 年之间完成使至少一台“百亿亿级”计算机。

橡树岭实验室的 Jack Wells 表示,Summit 占据了两个网球场大小的区域,每分钟有 4000 加仑的水流过,带走 约13 兆瓦热量。Summit 先进的内存管理和全新的高带宽连接在处理超级计算机产生的海量数据时必不可少。橡树岭国家实验室的科学家表示,他们已经利用 Summit 来进行高效的超大规模比较基因组计算。

图4:美国重返全球超算“霸主”之位:IBM助力全新超级计算机超越中国神威,专为AI时代而生

Summit 代表美国要在超算领域重回榜首的决心,毕竟超算是许多包含物理、化学、能源,甚至武器在内等多数基础科学发展的基础,若算力不足,那么就很难推动相关科技的持续领先地位。尤其对美国而言,虽然其超算平台发展历史悠久,并在多数科学与应用领域带来领先全球的结果,但近年来中国积极发展超算技术,在神威太湖之光与天河二号等分别针对国防与民用的超算架构带领下,连续数年夺得榜单前两位,对美国是个非常大的预警信号,代表美国在基础科学的发展上已经有落后中国的迹象。

近年来中国 AI 风潮的兴起,以及包含寒武纪、神威架构等多种计算核心的发展带动之下,成功推动领先全球的超算架构发展,同时也代表算力核心的部分也逐渐摆脱美国供货商的限制,走向自有化。

而寒武纪在 5 月发布的 MLU100 及 MLU200 更可说是完全针对云端 AI 计算的需求而推出,二者都基于 TSMC 16nm 工艺打造,以 PCIE 板卡形式呈现,这是寒武纪推出的云端市场的专用产品。

图5:美国重返全球超算“霸主”之位:IBM助力全新超级计算机超越中国神威,专为AI时代而生

这两颗芯片都同时支持推理和训练,其中 MLU100 偏重推理,将面向数据中心和中小型服务器,而 MLU200 偏重训练,将面向企业级人工智能研发中心。而随着这两个全新架构的推出,寒武纪也宣示通过其与中科曙光的合作,正式在国家级超算计算中推动真正自有的 AI 计算核心,而不是像过去必须依靠外来架构。

美国在相关技术发展的压力之下,虽然也同步推动更先进超算中心的建立,每年花费大笔预算在发展超算相关技术,但总是被中国和日本等国家领先一步。

图6:美国重返全球超算“霸主”之位:IBM助力全新超级计算机超越中国神威,专为AI时代而生

图丨IBM Power 9处理器

Summit 中采用的 IBM Power 9 架构,可以说是完全针对 NVIDIA 的 GPU 架构优化而来,其采用的 NVLINK 2.0 规格可带来高达 300GB/s 的带宽表现,很大程度上解决了数据传输过程的瓶颈,且因为 NVLIN 支持了缓存一致性设计,也同时能够有效提升 GPU 的计算性能。

然而 Power 架构的优势还不止于此,根据官方资料,IBM Power 9 的最大 I/O 带宽是 Intel x86 处理器的 9.5 倍,可支持内存容量是 2.6 倍,高效能核心数量为 x86 的 2 倍,内存带宽则是 x86 的 1.8 倍。更重要的是,通过 NVLINK 2.0,CPU 与 GPU 之间的互连带宽达到 X86 服务器目前使用的 PCIe 3.0 的 9 倍,大大舒缓了 GPU 等待数据传输所造成的计算能力浪费。

Power 9 也不是指针对了 NVIDIA 的计算架构作优化,事实上,它针对的是所有平台,包括 AMD、Xilinx,以及其他 AI 计算方案:IBM 与 AMD、ARM、华为等公司合作组件 CCIX 联盟,推出集成了 CCIX 技术,为 Power 9 提供带宽更高的总线加速器,就架构定义上来看,可以当作开放规格的 NVLINK,其最高带宽表现也相近,IBM 也为此总线技术取名为 BlueLINK,以作为和 NVLINK 的区分。

图7:美国重返全球超算“霸主”之位:IBM助力全新超级计算机超越中国神威,专为AI时代而生

另外,IBM 也针对 Power 9 环境推出了分布式深度学习软件 (Distributed Deep Learning;DDL),可以让处理器的 100% 扩容得到 95% 的效率增长,相较起一般公司,比如说 Facebook 的 89% 扩容效率明显高出不少。

IBM Power 计算架构向世界展示了它的强大,而相较英特尔为主的 X86 体系逐渐走向封闭,其在支持 NVLINK 之类的独家规格的同时,也和其他计算架构供货商合作推出了基于 CCIX 界面的 BlueLINK 开放架构,其欲取代 X86 成为 AI 计算领域通用平台的的意图非常明显。

另一方面,虽然面对寒武纪等专用 AI 计算芯片在超算领域的挑战,NVIDIA 也借此宣示 GPU 计算仍有其优势存在。

Summit 不仅代表美国重夺超算话语权的决心,也成功让 IBM Power 架构取代英特尔的 Xeon,重回超算领头地位,同时通过 IBM Power 9 的架构优势,让 GPU 计算的性能表现得以再往上提升。

不过美国虽然借 Summit 重回超算榜首地位,但这个宝座恐怕坐不了多久,毕竟在 Summit 推出的同时,中国和日本等国家的超算计划也都分别往前推进了不少,下半年恐怕就会被取而代之。

虽然Summit把算力推向另一个高峰,但接下来的几年才是超算领域真正的重头戏,全球的科技强国都会开始向号称“超级计算机界的下一顶皇冠”的 E 级超算全力进攻。E级超算是指每秒可进行百亿亿次数学运算的超级计算机,它在解决能源危机、污染和气候变化等人类共同面临的重大问题上将发挥超越以往的巨大作用。

就目前的发展情况来看,2020年或许将会成为这一重大突破实现的关键节点。例如在中国,就有中科曙光、国防科技大学以及江南计算技术研究所齐头并进,同时获批牵头E级超算的原型系统研制项目。今年 5 月 17 日在天津举办的第二届世界智能大会上,国家超算天津中心就对外首次展示了可以达到“E级超算”水平的“天河三号”的原型机。

而在其他国家,E 级超算也都有相应进展,美国阿贡国家实验室计划在 2021 年完成美国首台 E 级超级计算机 A21 的建设,Intel 和 Cray 公司也会参与到 A21 的研制之中。而日本的E级超算可能会在 2021 或 2022 年发布,欧盟也计划在2021 年实现 E 级计算的突破。

显示余下内容
相关文章:
  1. 剑指中国超算 美国动机不简单
  2. 美国超算夺回世界第一:比中国“神威”快60%
 

发表回复

您的电子邮箱地址不会被公开。