今年8月,美国能源部(United States Department of Energy)和克雷公司(Cray)宣布了美国第三台百亿亿次超级计算机El Capitan计划。该系统计划于2023年初安装在劳伦斯·利弗莫尔国家实验室(LLNL),主要供美国国家核安全局(NNSA)使用,NNSA将在其进行的核武器建模中使用超级计算机。在宣布该系统的发布会上,美能源部和LLNL证实他们将从克雷(现在HPE的一部分)购买Shasta系统, 但当时的声明中并没有详细说明克雷公司超级计算机中到底有哪些硬件。
今年3月24日美能源部和HPE宣布了超级计算机的架构细节,透露AMD将同时提供CPU和加速器(GPU),并修正了超级计算机的性能评估,El Capitan已经被认定是美国百亿亿次级运算速度最快的系统。9个月前它最初被作为1.5个百亿亿次运算的系统投入使用的,经过后期的一些配置更改,美国能源部预计该系统一旦完全安装完成,将达到每秒2个 exaflops,这将巩固其在美国超级计算机库中的领先地位。
总的来说,El Capitan是美国能源部CORAL-2超级计算机程序的第二个系统。与类似的Frontier系统一样,Capitan的标价也高达6亿美元,旨在确保美国在百亿亿次超级计算机时代的领先地位。LLNL将使用该系统替代他们目前的IBM Power 9 + NVIDIA Volta超级计算机Sierra,据悉El Capitan的功能将比其取代的系统强大16倍! LLNL计划主要将它用于进行核武器建模,代替实际的武器测试,而该系统还将在其他领域(尤其是可以应用机器学习的领域)中将其作为研究系统进行二次使用。
El-Capitan是AMD的第二台exascale超级计算机,AMD还为橡树岭(Oak Ridge)国家实验室的1.5Exaflops Frontier系统提供了的CPU和GPU。事实上从硬件的角度来看,El Capitan看起来与Frontier非常相似,克雷公司是这两个系统的主承包商,El Capitan和Frontier是Cray Shasta系统,采用AMD的处理器、克雷的机柜以及他们的Slingshot互连技术。让我们比较感兴趣的是,LLNL将在他们的新超级计算机中使用哪种特定的硬件。
在CPU方面,AMD将提供其基于Zen 4的“ Genoa” EPYC处理器的标准版本。由于与AMD当前的产品相比尚有两代产品间隔,因此我们对Zen 4 / Genoa了解的信息量有限,但AMD承诺支持下一代存储器、Infinity Fabric 3以及单线程和多线程性能领先,这与当前使用未指定和定制的下一代EPYC CPU的Frontier相比,这是一个更详细的CPU级别说明。
同时,在GPU方面AMD和Cray仍保持着密切合作,不过两家公司确认采用新架构的下一代AMD GPU时,并没有为该架构命名,也没有提供太多细节方面的信息。目前,可以确认的是这些GPU将使用下一代HBM作为内存,它们支持混合精度计算,以提高深度学习性能。
从已知的信息来看,这些GPU规格非常接近于Frontier计划使用的GPU,因此El Capitan可能会使用相同的GPU,或者至少使用它的派生产品,有关该零件的架构细节到后期我们应该很快能够得到。
AMD首次命名了其第三代Infinity Fabric,它将用于连接每个叶片内的处理器。像Frontier一样,El Capitan将以4:1的配置运行,每个CPU都连接有四个GPU。对于Infinity Fabric 3.0,AMD承诺进一步改善芯片间带宽和延迟,这些IF 3.0设备节点将支持CPU和GPU上的统一内存,这是AMD目前还不提供的。事实上,即使是Frontier也只能提供处理器之间的一致性,这比真正的统一内存模型低一步。当然,一个统一的内存系统并不一定意味着快速访问到其他设备的内存,但这对于AMD来说是一个重大的飞跃,因为统一的内存系统不仅可以提高这样一个系统编程的易用性,又可以提高其在运行异构工作负载时的性能。
如前所述,将节点绑定在一起将是Cray自己的Slingshot互连。除此之外,Slingshot还支持自适应路由,拥塞管理和服务质量功能。互连模块每个端口的速度为200Gb / sec,每个叶片为叶片中每个GPU集成了一个端口,以便其他节点可以直接将数据读写到GPU的内存中。
目前,美能源部和Cray没有对系统的完整布局进行详细的介绍。El Capitan的功率预计将低于40MW(虽然美能源部并未披露其功率,但其宣称它将“大大低于这个数字”)。相比之下,Frontier计划使用100个Shasta机柜,总电力预算低于El Capitan。因此,如果最终El Capitan真的比Frontier快33%,其中一个原因就是美能源部投入了更多的硬件和订购了更多的机柜,但不管这个数字是多少,El Capitan都将使用直接液体冷却。
LLNL指出他们为El Capitan使用了“后期绑定”策略,在早期先决定(Shasta)架构,之后再选择特定的处理器,这样他们就能够选择最快最合适的硬件。换句话说,虽然美能源部和LLNL早在去年8月份就宣布了El-Capitan,但他们最近才决定由AMD来填补它。
总的来说,El Capitan标志着AMD在百亿亿级超级计算机领域的第二次重要胜利,也意味着Cray将参与美国全部的exascale系统,这对两家厂商来说都是一个巨大的成就。
El Capitan是Frontier的派生产品,这也意味着在所有三个exascale系统都被锁定的情况下,NVIDIA将在外面寻找这一代产品。正如我们在Frontier公告中指出的那样,Intel Aurora和AMD Frontier / El Capitan系统来自提供CPU和GPU的全方位服务处理器供应商。像Summit之类的当前系统使用混合厂商,例如IBM + NVIDIA ,因此转向集成供应商对这些CPU+加速器系统来说是一个巨大的转变,尽管LLNL以效率的名义订购其他exascale系统中的一个很有意义。但应注意的是,美国能源部的超级计算机合同既有技术性,也有政治性意义,支持国内的超级计算机产业,并确保有可行的竞争对手来帮助降低成本(过去只有几个),符合美国的既得利益,因此,在美国拥有三大处理器供应商之后,必然会有人被淘汰出局。
无论如何,El Capitan计划于2023年初交付,我们日后可以对驱动世界上最快超级计算机的硬件有更多的了解。
原文链接:https://www.anandtech.com/show/15581/el-capitan-supercomputer-detailed-amd-cpus-gpus-2-exaflops