中美超算将进入交替领先时代

 (文/ 科工力量专栏作者 铁流)

日前,美国能源部田纳西州橡树岭国家实验室的工程师推出了一台名为 Summit 的超级计算机,这款超算的计算能力已经超过了中国神威·太湖之光超级计算机,比神威·太湖之光要快 60%。对于这件事,国人应该辩证的看,既要看到美国在超算方面具备非常深厚的技术积累;同时,也不要妄自菲薄,不要因中美两国错开了发展周期导致的交替领先而自叹自哀。毕竟,在超算领域,中国完全可以拿出高度国产化,且性能与美国顶尖超算比肩的大机器。

500

对美国新超算要辩证的看

根据介绍,美国Summit 的峰值计算能力可以达到每秒 20 亿亿次,是美国此前的明星超级计算机Titan计算能力的 8 倍,比神威·太湖之光要快 60%。

Summit 超算性能如此强劲,主要得益于IBM的Power9、英伟达的 V100 GPU。Summit 超算搭载了9000多片Power9和大约28000片左右的V100 GPU。Power9是IBM研发的新一代CPU,拥有80亿个晶体管,集成了22个CPU核。

值得一提的是,Power9还支持NVLink,由于NVLink相对于PCIE有很大的优势,这使得IBM和英伟达的超算方案相对于英特尔的超算方案具备一定优势。根据媒体介绍,通过NVLink,CPU和GPU之间的互联带宽,可以达到X86服务器所使用的PCIE3.0的9倍。

NVLink和bluelink有点类似,可以用来链接加速器、存储设备等。Power9上的bluelink是可以通用的,支持NVlink只是功能之一。只不过,由于英伟达的GPU只支持NVlink,这使得IBM的Power8和Power9等极少数的几款CPU成为了唯一支持NVlink的芯片。

虽然有媒体把IBM的这一做法称为“展示了IBM重返超算芯片的决心”,但实际上,NVlink也就只有英伟达自己玩。IBM可能是“顺便”支持一下,毕竟IBM本质上是想支持相对开放的OpenCAPI。

这里说明一下,既然NVlink这么好,英特尔为啥不支持呢?

主要是因为商业竞争因素,毕竟英伟达和英特尔在HPC和机器学习市场竞争非常激烈,换作你要是英特尔的主管,你会去支持么?

其实,不止NVlink英特尔不支持,像OpenCAPI、CCIX、GEN-Z 等开放的标准英特尔都没支持。

不过,在感叹Power9、V100和NVLink强悍性能的同时,我们也要看到Summit 超算的创新也是有一定局限性的。

总的来说,Summit 超算的设计思路和天河2A没有太多差别。具体来说,Summit 超算中的Power9其实就扮演着天河2A中E5的角色,而V100 GPU则发挥着天河2A中矩阵2000的作用。无外乎推出的时间迟了一点,CPU、加速器和互联都新了一点,性能好了一点。

500

神威太湖之光超算上就没有采用天河一号和天河二号上的方案,而是独辟蹊径,开创了片上微异构的设计。相比之下,美国Summit 超算则延续了前人探索出来的老路,相对保守一些。

另外,在性能功耗比上,有媒体用Summit 超算功耗与神威太湖之光相当,但性能比神威强60%来显示神威超算的不足。其实,这主要是芯片制造工艺造成的,毕竟SW26010是2014年的芯片,采用相对老旧的28nm工艺。如果换成Power9、V100的先进工艺,神威超算的性能功耗比未必会比Summit 超算差。

500


高性能超级计算机意义重大

自天河二号在TOP500榜单上以绝对优势占据第一的宝座之后,各种攻击纷至沓来。比如有媒体声称,把智能手机芯片连起来,可以轻易做出远远强于天河二号的超算;又比如因使用了美国的芯片,有媒体攻击天河二号是“组装货”。在神威太湖之光实现芯片、互联等核心技术全部国产化之后,超算无用论甚嚣尘上。一些人声称,“因为现有的超算性能够用,所以美国不需要比拼超算”,中国搞超算是“政绩工程”、“形象工程”。

非常有意思的是,当如今美国超算重回世界第一宝座之际,超算在一些舆论口中,又一下子从“政绩工程”、“形象工程”变成了高端制造业的明珠。这种精神分裂的表现着实令人啼笑皆非。

必须声明的是,超算无用论和“政绩工程”、“形象工程”的论调是站不住脚的。

其实,西方很多国家非常渴望像神威太湖之光这样的高性能超算,因为很多应用在旧的超算上已经跑不动了。所以神威超算一问世,很多国外学者就很迫切地把自己的代码、软件拿过来和中国人一起研制,特别是在不涉军涉密的科学研究上。

中国计算机学会高性能计算专业委员会秘书长张云泉曾表示:“许多国外的朋友通过邮件找到我,说他们有个应用,希望和太湖之光联合开展研究。还有法国大使馆的科技参赞也专门找到我,希望中法之间签订战略合作协议,让法国的科学家到中国来使用太湖之光。”

美国 Summit 的超级计算机也证明了,世界各国对于超算性能的追求都是无止境的。原因在于超算的性能是永远不够用的,学科需求、计算的精度和规模是无止境地向前发展,我们现在超算的性能是无法满足使用的。往往是超算应用降低精度要求、规模要求来配套现在超算的性能。

超算的重要性还体现在航天、国防、科研等诸多领域,比如国家计算流体力学实验室基于“神威·太湖之光”超级计算机,对“天宫一号”飞行器两舱简化外形陨落飞行绕流状态大规模并行模拟。国内某超算就承担着模拟核爆、情报分析等非常关键的任务。

正是因此,在数年前,美国上一任总统奥巴马就发过总统令,要求把世界第一超算的宝座抢回去。特朗普上台后,虽然砍了很多科研经费和医疗方面的钱,但他没砍超算的钱,反而给超算增加钱。这足以说明超算的重要性和意义。

结语

目前,中国和美国都在争分夺秒研发E级超算。中国三家单位分别在研发各自的E级超算原型机。

500

在上个月,相关单位公布了天河三号超算原型机。根据官方报道,天河三号将告别前代的英特尔芯片,那么原型机里的CPU极有可能是FT2000plus,而加速器则极有可能是矩阵2000,或者是矩阵2000更换更好工艺的升级版。

天河三号原型机的单个计算节点性能为6T,必须说明的是,这个只是原型机,6T的单节点性能只是原型机的性能,并不一定是天河三号的单节点性能,因为天河三号很有可能会更换性能更好的芯片。

总的来说,中美超算竞赛将会进入交替领先的状态,我们由衷的希望神威、天河、曙光超算能够在E级超算的竞赛中取胜!

全部专栏