超级计算机不是用来打游戏的,而是用来给居民供暖的 | 袁岚峰

  导读

  2021年9月19日全国科普日,袁岚峰应中央广播电视总台之邀,在央视频《奋进吧!科学少年》直播节目中做了一场演讲《构建中国的“最强大脑”》,介绍中国科学技术大学的成果“用超级计算机‘神威太湖之光’的一千万个核心对魔角石墨烯进行离散伽辽金密度泛函理论模拟”,此文为演讲稿。这次直播持续12个小时,从9:00到21:00,许多单位的科学工作者为青少年朋友们提供了丰富的科学大餐,以后录播视频将在CCTV-10播出。

  大家好,我是袁岚峰,来自中国科学技术大学。今天,我来向大家介绍我们学校的一个工作。

500

  中国科学技术大学校徽

  这项工作得到了《新闻联播》《东方时空》等许多媒体的报道。在今年5月28日的院士大会上,习总书记还提到了它,作为战略高技术领域取得的新跨越之一。

500

  媒体报道与习总书记讲话

  这项工作是什么呢?它叫做:用超级计算机“神威太湖之光”的一千万个核心对魔角石墨烯进行离散伽辽金密度泛函理论模拟。

  大家看明白这一串说的是什么了吗?

500

  黑人问号

  如果能看明白就怪了,说明你已经是这个领域的超级内行了!我想现场的观众里应该很少有这样的内行。这是一个非常复杂的工作,不过,要理解这个工作的基本意义,我相信大家都可以。我们来共同努力。

  首先,最基础的要点是:这是一个超级计算机的工作。超级计算机简称超算,是科技强国的国之重器。神威太湖之光就是我国目前最强的超算。

  实际上,许多人可能早就听说过超算,但并不知道它是干什么的。最常见的问题大概是:超算用来打游戏是不是特别快?永远不会卡?你如果听到问这种问题的,立刻就知道他对超算一无所知。因为,超算根本不是用来打游戏的!

  许多人之所以会问这样的问题,是因为一提到计算机他们想到的就是自己家里的计算机,一台显示器加一台主机这种。

500

  个人电脑

  但超级计算机并不是这个样子。它占地面积巨大,甚至能占好几层楼。它有很多个机柜,里面装满了芯片、硬盘和通信器件。还有很多配套系统,如电力系统、冷却系统、外围系统、软件系统、应用系统等等。

500

  神威太湖之光

500

  神威太湖之光运算系统与互连网络

  回头来看我们工作中的关键词,“一千万个核心”,一个核心就是一个处理器。想想看,一个计算任务动用了上千万个处理器,这是多么庞大的系统!实际上,一台超算的能耗,就顶得上一个中小城市。

  你会花这么高的成本来打游戏吗?当然不会。我们平时见到的电脑游戏,都是一个芯片就能玩的。而超算上执行的任务,都是同时使用很多个芯片,这叫做“并行计算”。所以,超算根本不是用来玩游戏的。

  那么超算真正的用处是什么呢?是科学计算。给超算输入某个问题以及这个问题的参数,比如说解方程组,然后超算就去做大量的数值计算把它解出来,最后把计算结果输出来。这才是超算干的事。

  这其中最核心的需求,就是算得快。比如说天气预报,你必须在今天就把明天的天气算出来。如果你算得不够快,到后天才能算出明天的天气,那不就没用了吗?

500

  天气预报

  说起天气预报,大家就会想到今年7月的郑州大雨(https://mp.weixin.qq.com/s/ehnqD5QJhkk1B-0ti2djLw)。当时许多人问:气象部门有没有失职?基本的回答是:没有失职,因为气象局在事前准确预报了特大暴雨,发出了预警。

500

  2021年7月19日20时至20日20时全国降水量预报图

  只是在细节层面,例如暴雨中心的位置,预报还有些偏差。这可以反映出人类当前的天气预报水平:定性的“有没有”预测得很准确,不过定量的“在哪里”和“有多强”就不见得很准了。

  这有两方面的原因。一方面是我们对气象数据的取样不够多,也就是说给超算输入的数据不够多。比如说我们没有把整个地球表面全都铺满气象站,因为那样我们就没地方住了。另一方面是我们的计算能力不够强,也就是说我们用这些数据解方程的结果不够精确。

  实际上,计算能力包括硬件和软件两方面。我们可以自豪地指出,中国科学家对天气预报的算法有重大贡献。每当听到这个天气预报的音乐(《渔舟唱晚》,https://music.163.com/#/song?app_version=8.2.55&id=30352477),我们就应该感谢曾庆存院士,他是2019年国家最高科学技术奖获得者。

500

  曾庆存

  在五十年代,他提出了解天气预报方程的“半隐式差分法”。跟半隐式相对的叫做“显式”和“隐式”,半隐式是其中最好的方法。半隐式差分法至今仍在国际上广泛使用,曾庆存先生被公认为数值天气预报的创始人之一。

  不久前的今年6月,中国开始试运行一台模拟整个地球的超算(https://www.cas.cn/zkyzs/2021/06/302/cmsm/202106/t20210615_4793121.shtml)。它叫做“寰”,寰宇的寰,英文是EarthLab,地球实验室(https://www.cas.cn/zkyzs/2021/06/303/cmsm/202106/t20210622_4794212.shtml)。这名字太有范儿了,一听就知道是模拟地球的。

500

  “寰”计算机硬件平台“硅立方”展示图

500

  地球模拟实验室

  “寰”这台超算建立了一套地球系统的模型,用来模拟地球的大气圈、水圈、岩石圈、生物圈等多个圈层。它一天就能算出这些圈层10年的变化,所以可以反推地球的过去,预测地球的未来(《为了给地球“算命”,我们建了这座大科学装置 | 朱江》)。

  那么模拟地球有什么用呢?例如大家知道,人类面临着严重的气候变化问题,极端天气越来越多。“寰”就可以预测全球的气候变化。这甚至对我国的外交都很有价值。以前我国对气候变化的预测能力不足,在国际上谈判时话语权就不足,没法用我国科学家的研究支撑我们的外交诉求。以后,这种状况就会改变了,我国将成为气候变化研究的引领者。

  除了天气预报和地球模拟之外,超算的用途还有很多。例如空气动力学,现在设计飞机和汽车的时候都需要去吹风洞,超算模拟就相当于吹一个数值的风洞。又如宇宙学,我们的宇宙是怎么变成现在这个样子的,以后又会变成什么样?超算告诉你。还有核武器,美俄英法中五大国都在1996年签署了《全面禁止核试验条约》。不能实弹爆炸了,那么他们现在怎么研究核武器呢?回答是用超算模拟。所以你看,从民用技术到基础研究到国家安全,都离不开超算。

500

  神威太湖之光应用领域

  2020年,超算还有一个非常有趣的应用:验证“九章”的结果。大家对九章都有印象吧?它是去年一个非常轰动、全世界刷屏的重大成果,它是一台量子计算机,是科大的潘建伟院士和陆朝阳教授等人做的。

  九章是什么样子呢?大家在新闻报道中看到的都是像这样的,瑰丽的光芒产生一种“不明觉厉”的效果。

500

  九章光量子干涉实物图

  但在我看来,九章是这样的。这是2020年12月5日,团中央请我拍一个宣传片,介绍科大的量子信息研究。潘建伟研究组的苑震生教授迎接我们参观实验室,然后在一个狭窄的空间中,他告诉我们:我们身前这个格子里就是九章的光路,身后那个格子里就是九章的核心器件。原来九章是个地理位置!我们就身处在九章之中!我们是在九章里面向大家介绍九章!

500

  在九章中介绍九章

  那么九章究竟是干什么的呢?我简单地解释一下:九章是一台光量子计算机。就是说,它是一个光学装置,这个装置产生的结果对应某个数学问题的解。这个数学问题叫做“玻色子取样”,它的具体表达式如下。一眼看不明白没关系,只要理解这是个有明确表达式的数学问题就好。

500

  玻色子取样的概率分布

  这个数学问题用现有的计算机算非常困难,因为它的计算量随光子数增长得非常快。比如说,算20个光子没问题,算40个光子就很吃力了,算80个光子到太阳毁灭了都算不完。

  而用九章这台实验装置把结果测出来就快得多,相当于把对这个问题的解加快了很多倍。具体是多少倍呢?回答是一百万亿倍。这是量子计算这个领域到目前为止全世界最大的成果。

  神威太湖之光对九章做出了什么贡献呢?潘建伟和陆朝阳在运行九章的时候,就请神威太湖之光来做验证(《太湖之光烧钱了?!关于“九章”量子计算机的7条冷八卦 | 测量一下scientific》)。也就是说,用超算来直接计算那个数学问题,看跟实验结果是否相同,以此判断实验对不对。神威太湖之光出色地完成了这个任务,在光子比较少的时候确认了九章的正确性。

  这项研究还有一点意外的好处。超算运行时会发热,冷却它需要大量的水。神威太湖之光的负责人表示,验证“九章”时产生的冷却水可以给周围的居民供暖!(《太湖之光烧钱了?!关于“九章”量子计算机的7条冷八卦 | 测量一下scientific》)所以现在如果有人问“超算有什么用”,你就可以回答他:给居民供暖!

500

  神威太湖之光冷却系统

  神威太湖之光位于无锡,所以祝贺无锡的观众朋友们,你们用的供暖水是世界上最有科技含量的!包含了量子计算机和超级计算机这两个超级高大上的技术!

  神威太湖之光在国际上也是非常著名的。有一个专业的超算排行榜叫做TOP500,列出全世界最强的500台超算。这个榜单每半年更新一次,最新的是2021年6月公布的(https://www.top500.org/lists/top500/2021/06/),其中神威太湖之光排在第四位。

500

  2021年6月TOP500榜单

  来看这个榜单里的技术指标。第一项Cores是核心的数目,神威太湖之光有1064万9600个核心。回顾一下我们开头提到的工作,其中一个关键词是“千万核心”,可见几乎是把神威太湖之光所有的核心都用上了!在这个意义上,这是人类运行过的规模最大的计算任务之一。第二项Rmax是实测的最高速度。神威太湖之光的Rmax是93014.6 TFlops,即每秒运行9.3亿亿次浮点运算。TOP500就是根据超算的Rmax来排名的。

  再来看这个榜单里的前三名。目前排第一的是日本的“富岳”(Fugaku),第二和第三是美国的“顶点”(Summit)和“山脊”(Sierra)。它们的最高浮点运算速度分别是每秒44.2亿亿次、14.86亿亿次和9.46亿亿次。业界正在努力的目标是,把超算的速度提高到每秒100亿亿次,这叫做E级超算。

  神威太湖之光曾经在TOP500上连续四次排名第一,即从2016年6月到2017年11月。后来它被美国的“顶点”超过,然后美国的“顶点”又被日本的“富岳”超过,成了现在这样的格局。

  过不久中国可能排名会上升,因为神威太湖之光要升级了。它可能还会叫做某某之光,大家可以想想这个某某会是什么——肯定比太湖大得多。我们现在暂且把它叫做新神威吧。新神威在硬件和软件上都有巨大的提升,我们团队就极大地帮助了它在软件上的提升。

  什么样的提升呢?这就要说到我国超算的一大问题:重硬件而轻软件。虽然在硬件指标上达到了很高的高度,但基础的软件还有很多没有做好。例如许多“库函数”就没有,导致对许多实际问题的计算速度远远达不到理论上限。也就是说,软件的缺乏限制了硬件潜力的发挥。

  我的师弟胡伟博士和高性能计算专家安虹教授等人合作,结合新神威的硬件体系,在新神威上编好了很多老神威没有的基础软件。实际上,他们在新老神威上计算的是同一个课题,即开头说的:用一千万个核心对魔角石墨烯进行离散伽辽金密度泛函理论模拟。我们又一次重复这段神秘的术语,大家现在是不是都能背出来了?很好!

  两次工作的区别在于:在老神威上,由于软件的缺乏,有些步骤空有快速的算法却不能使用,他们只能用慢速的算法,导致整体的速度被严重压低。而在新神威上,他们终于实现了这些快速的算法,大大提高了整体的速度。所以现在才称得上发挥出神威的真正力量——面对疾风吧!

500

  面对疾风吧!

  了解了这么多背景,那我们算的究竟是什么呢?这里的关键词是“魔角石墨烯”。

  很多人都知道石墨烯,它就是单层的石墨,即碳原子的六角格子。石墨烯是一种著名的二维材料,有很多神奇的力学、电学、磁学性质。但什么叫做“魔角石墨烯”呢?

500

  石墨烯

  魔角石墨烯就是像这样的结构。乍一看,你也许会觉得自己眼花了,但其实并没有。这个体系有上下两层,它们原本是相同的,但把它们之间稍微转一个角度,1.1度,就会出现这样的效果。当然这只是原子模型,实物并不会让人眼花。这个角度被称为魔角,是因为理论和实验发现,在这样的角度下,这个双层结构会出现很多奇妙的性质。例如它可能变成超导体,即电阻变成0。

500

  魔角石墨烯

  实际上,这就是曹原的成名作。大家是不是都听说过曹原,那位从科大少年班出去的MIT物理学博士?2018年,他在实验上发现了魔角石墨烯的超导,并且因此被《Nature》杂志评为年度十大科学人物之首。

500

  曹原

  到目前为止,他已经发表了8篇《Nature》和一篇《Science》。一开始每次曹原发一篇文章媒体就会沸腾一通,现在平静多了,大概是因为习惯了。

500

  《25岁曹原的第8篇Nature,或为拓扑量子计算打开大门,但仍需进一步验证》

  言归正传。我们要在超算上预测魔角石墨烯的性质,最重要的是,这样的预测不需要任何经验参数。我们唯一需要的输入,就是原子的种类、数量和位置。

  我们首先问,这个体系中有什么原子?回答是全都是C原子。然后问,这些C原子有多少个?回答有20万个。最后问,这20万个C原子在什么位置?根据已知的单层石墨烯结构和两层之间扭转的角度,我们就能构造出这些位置。然后还需要问什么?没了,我们再也不需要外界告诉我们任何信息了。

  根据基本的物理学原理,我们就可以列出方程,预测这个体系的各种性质。这个基本的物理学原理叫做“量子力学”,大家在物理或者化学专业的大学阶段就会学到量子力学。

  这样的计算叫做“第一性原理计算”,意思是从最基础的原理出发做计算,不依赖任何经验参数。神奇的是,第一性原理计算的结果往往和实验符合得非常好,这是现代科学的一大奇迹。而在很多情况下,实验很困难或者根本没法做,例如超高温超高压,这时我们就更是只能依靠计算了。

  这对大量的应用有重大意义,例如材料和药物的研发。神威太湖之光的宣传片里提到,上海药物所用它在两周内就完成了常规需要10个月的计算,大大加速了白血病、癌症、禽流感等方向的药物设计进度。

500

  上海药物所加速药物设计

  我们实验室的专业叫做“理论与计算化学”,里面有很大部分就是第一性原理计算。到同学们读研究生的时候,欢迎加入我们的专业“理论与计算化学”。

  第一性原理计算的好处是精度非常高,付出的代价就是计算量非常大。所以传统能处理的体系,一般都不超过一千个原子。但在新神威的计算中,达到了多少个原子呢?刚才说了,有20万个,准确地说,是207360个。提升了两个数量级!这才是我们这个工作核心的成果。

  使这成为可能的,有三个层面的进步。第一个是前面说的,超算硬件的进步,从老神威到新神威。第二个是前面说的,超算软件的进步,胡伟和安虹等人给新神威编好了很多底层的软件。第三个是前面没说的,第一性原理计算算法的进步。

  仔细看,那串神奇的“离散伽辽金密度泛函理论模拟”,其实就是第一性原理计算的算法。其中的伽辽金是个人(Boris Galerkin,1871 - 1945),他是一位前苏联数学家,他提出了一种解微分方程的方法。

500

  鲍里斯·伽辽金

  我国的鄂维南院士,是一位著名的应用数学家。近年来,鄂维南等人把伽辽金的方法创造性地用到了第一性原理计算中,发明了一种新的算法。这种算法的精确度跟以前最精确的相当,计算量却跟以前最快的相当,实现了一种非常巧妙的组合,所以将来肯定会得到广泛应用。

500

  鄂维南

  胡伟等人已经把这个算法编成了一个软件,叫做DGDFT。这个名字是什么意思呢?就是“离散伽辽金密度泛函理论”的英文首字母缩写,discontinuous Galerkin density functional theory。理工科专业人士的命名方式,就是这么质朴无华!无论如何,这个质朴无华的软件对整个理论与计算化学的业界都将产生重要影响。

  这项工作的主要作者,包括胡伟博士、安虹教授以及我和胡伟的博士导师杨金龙院士。那么我是干什么的?我并没有参与这项工作的研究,我是专门来向大家传播这项工作的。

500

  胡伟

500

  安虹

500

  杨金龙

  前面讲了这么多超算的内容,其实超算并不是我的专业。后面讲的这些理论与计算化学的内容,才是我的专业。大家如果对理论与计算化学有兴趣,想了解“离散伽辽金密度泛函理论”,我可以在这儿讲上一个学期。

  不过即使讲一个学期,恐怕也很难解释清楚“离散伽辽金密度泛函理论”,DGDFT。最大的困难在于,听众首先要具有化学专业研究生的水平。所以今天,我们就先讲到这儿吧。我期待同学早日成为研究生,早日成为国家的栋梁之才。

  最后总结一下,大家都记住了超算是干什么的,对吧?超算不是用来打游戏的,而是用来给居民供暖的,对不对?

  今天见到同学们对科学充满热情,我也非常高兴。正如毛主席的名言:“世界是你们的,也是我们的,但是归根结底是你们的。”谢谢大家!

全部专栏