高性能计算机系统,还有一个更为人熟知的名字——超算。自2013年以来连续登陆全球最强超级计算机榜首,国产超算包括硬件、应用等在内的优越性能便广为人知。
但很多人不了解,每天服务于我们生产生活的天气预报对超算的需求多么迫切和严苛。
预测天气和气候是世界上最复杂的问题之一。从20世纪50年代开始,数值模式预报方法取得了成功。然而,60多年来,人们所需的气象预报时空精度越来越高,数值模式已经从一个简单的正解方程发展到世界上最复杂的软件项目之一,海量数据和数百万条代码总能轻易占满计算设备的所有可用资源。
在这样迫切的时刻,2018年,中国气象局迎来了国产高性能计算机系统“派-曙光”。2019年伊始,这套国产高性能计算机系统因在前期测试、试运行中表现良好,通过业务验收,从此正式承担起气象业务运行及科研的重任,这也是首台应用国产卫星数据,运行国产模式的国产气象高性能计算机系统。
国产高性能计算机系统“派-曙光”
气象预报需要的超算有多“硬核”?
中国气象报记者 张格苗
对每一个普通人来说,手机是必备的电子产品,购买手机的时候,我们首先会看它的硬件配置,希望它处理器更强,打游戏流畅无阻,存储空间大,还能兼容市面上大多数应用程序,而且用起来省电,最好不要发热。
对全球主要气象机构来说,高性能计算机系统则是在数值模式预报方法为主流的今天不可或缺的技术支撑。他们对高性能计算机的需求与大多数普通人对手机的需求很是类似——架构更先进、计算能力更强、存储容量更大、更加绿色节能,可有效支持海量数据的处理和众多模式的运转,帮助气象部门更快地研究制作发布更加精准的天气预报,惠及每一个普通公众。
当然,和手机一样,高性能计算机也有自己的“服役期限”,这个周期大约为6-8年,也正因如此,全球主要气象机构高性能计算机更新换代的新闻频频见诸报端。2016年,在距离上一次引进进口高性能计算机系统4年之后,中国气象局再次提升高性能计算能力。
经过评估分析业务需求,中国气象局提出了这样的建设要求:高性能计算系统峰值运算速度要不低于8000万亿次每秒;机器字长,即计算机进行一次整数运算所能处理的二进制数据的位数不小于64bit;内存容量每1个CPU核至少对应6GB内存;在线存储容量要大于12.6PB,且可扩展;全系统可用度超过99%;操作系统为Unix/Linux,配套基础软件,并行语言及集成开发环境。
时值国产超算蓬勃发展,已接连在全球最强超级计算机榜单中拔得头筹。这套国产高性能计算机系统以超出预期的性能令人眼前一亮——
峰值运算速度达到每秒8189.5万亿次,约为此前中国气象局使用的进口高性能计算机系统的8倍;内存总容量达到690,432GB;在线存储物理容量为23,088TB;全系统可用度超过99%;操作系统为Linux,配套基础软件,并行语言及集成开发环境。
在系统架构上,它有两套子系统互相备份,计算资源相对独立,共享存储资源。如此一来,即便其中一套出现故障,另一套会提供同样的支持,气象业务可靠性大大提高。
除了这些厉害的配置,这套高性能计算机系统为散热和降低能耗提供的解决方案也令人惊喜。巨型的高性能计算系统常常受此困扰,而这套国产高性能计算机系统芯片液冷技术可同时对主要发热源CPU、内存进行液冷,实现部件级精确制冷,器件稳定性大幅提高。
这些强大的数据,意味着这套国产高性能计算机系统不仅拥有强大计算能力及存储能力、高带宽低延迟的网络、稳定高效的软件系统,也拥有计算和 I/O 平衡的、 可扩展的、 稳定可靠的绿色节能系统。
为了支持气象新领域的研究和适应未来高性能计算机系统的发展,中国气象局还在这套高性能计算系统中特意配置了小规模试验子系统,支持GPU/众核环境下气象模式的研发与试验,希望借此为将来天气气候模式在异构平台的移植提供实验环境。
国产超算助力气象业务运行,这不是第一次,也绝不是最后一次。气象强国与国产超算的未来,值得期待。
造就一颗气象“最强大脑”
中国气象报记者 刘钊
硬件搭台,软件唱戏。要充分发挥这套高性能计算机系统强大的计算能力,软件方面的优化必不可少。一方面,业务模式的移植、以及在新系统上效率的提升并不是一件简单的事,另一方面,这么多业务系统跑在这套国产高性能计算机系统上,如何合理调配资源,既不让它们“打架”,又不让计算资源浪费,同样是一门大学问。
调度指挥尽显灵活高效
在这套高性能计算机系统上,运行着众多的气象业务系统。它如同一个巨大的生产车间,而各个节点则相当于工人,一起在车间里面劳动。这个车间的调度者需要一个高效率的指挥工具,这样才能站在全局高度,指挥各个“工人”分工合作,发挥出最高的生产效率。这套高性能计算机系统的Gridview作业调度软件就是这样一个合格的指挥工具,它能够提供灵活的调度策略、完整的业务流程监控。
国家气象信息中心针对气象部门超算使用的特点,为这个车间设定了独具特色的计算资源管理策略。首先,将计算需求划分为多个队列,满足不同性质作业的运行需求。如常规业务、业务研发、普通科研、特殊保障所需要的计算资源各不相同,常规业务需要的计算资源和占用时间都比较稳定,而科研占用的计算资源就有很大的不确定性。这套高性能计算机系统的计算资源管理策略通过抢占、优先级等方式,优先确保业务和特殊保障的计算资源需要。
这样的计算资源管理策略,还确保了普通研发和科研用户使用资源的公平性。科研计算需求的波动性较大,如果用户独占某个节点,在不活跃时将会导致计算资源的浪费。管理策略不允许用户独占使用节点,提高了共享使用率。此外,管理系统可以通过综合用户一段时间内的CPU使用情况,确定作业的优先级,以便最大限度实现公平共享。此外人们也不必担心这个车间里出现某些工人“偷奸耍滑”,另一些则忙得半死的情况,因为负载均衡调度系统可以实时均衡节点负载,让工作量合理地分配到每一位工人身上。
它已经有了挑起业务科研“大梁”的实力
气象业务的计算量不可小觑,天气预报、气候预测、气象科研,林林总总,加在一起可谓负担繁重。因此,这套高性能计算机系统上岗前, 严格体检和业务培训总是少不了的。
近年来,国产数值模式有了长足进步,我们耳熟能详的全球同化预报系统(GRAPES-GFS)、雾-霾预报系统(CUACE-Haze/Fog),大气环流模式(BCC_AGCM)等国产模式都已经在各自领域内取得了优异成绩,成为气象业务的中坚力量。但国产数值模式如何在国产高性能计算机上顺畅运行,还需要做大量的移植与调试工作。
国家气象信息中心联合各业务中心,对数值模式的移植做了大量工作,并进行了充分的测试及试运行。目前,14个模式都已经移植完毕先行测试。
以GRAPES为例,它为GRAPES模式带来了可喜的进步。测试人员完成了GRAPES-GFS分辨率为0.25°和0.125°的8天预报。测试结果令人振奋,当采用4096核进行计算,分辨率为0.25°时,完成任务所需时间仅为我国上一代气象超算的八分之一,当分辨率进一步细化到0.125°,完成任务所需时间为原系统的五分之一多一点。而当这套高性能计算机系统开启8192核,进一步提升性能时,完成0.125°分辨率任务时间又缩短到了原来的不到七分之一。运行效率得到了巨大提升。
GRAPES全球四维变分同化系统(GRAPES_4DVAR)在这套国产高性能计算机系统上实现业务化运行。基于GRAPES_4DVAR的GRAPES全球预报在中短期时效内获得全面改进;雨带和大量级降水预报技巧提高;台风路径预报误差明显减小15%左右。
由于计算能力不足,GRAPES全球集合预报系统(GRAPES_GEPS)此前未能实现业务化运行,而这一点,也在这套国产高性能计算机系统上做到了。结果证明,31个集合预报成员的1-15天集合预报系统总体性能超过此前的T639全球集合预报系统。
值得一提的是,来自“风云”系列国产气象卫星的数据,也已经全面应用到这台国产高性能计算机系统所支持的各项业务和科研作业中。
而在2018年9月到11月短暂的试运行期间,这套国产高性能计算机系统更是扛起了包括GRAPES全球四维变分同化系统、北京市气象局冬奥睿图模式运行,全国高分辨率风能太阳能多源数值预报集成业务和全国水平分辨率200m风能资源图谱制作,全球大气再分析产品研制等多项业务、科研重担。
测试与试运行时间虽短,但它已经做出了许多贡献。在2018年汛期实时环境下,这套国产高性能计算机系统已经默默参与到预报重任中,在“玛丽亚”“安比”“山竹”等台风预报中为全国会商提供了参考。上海合作组织青岛峰会、上海进口博览会的数值预报产品保障服务工作, 都有这套高性能计算机系统的贡献的一份力量。科研人员还利用它开发了GRAPES-GFS全球卫星云图模拟产品、降水量级误差订正产品、平昌冬奥会预报产品。
计算能力的差异,带来了模式运行效率的显著提升,但它仍有提升空间。这是因为模式在新系统上的优化需要一个不断改进的过程,未来,我们可以期待新系统更为优良的表现。
那些年我们用过的高性能计算机
·从1978年引进第一台高性能计算机开始,全球高性能计算机不断更新换代,特别是近十几年来,性能迅速提升,运算能力呈几何倍数增长,应用于气象业务和科研的高性能计算机也呈现出同样的趋势。
·1978/1983/1985三年引进的高性能计算机由于运算速度数据缺失,因此暂计为0。
·由于前两项的峰值运算速度太高,以至于其他高性能计算机的运算速度显示不明显。
世界主要气象机构超算计算能力
制图:刘钊