英特尔与HPE开发的Aurora超级计算机成功安装完毕

小叶大话科技 20230626

阿贡国家实验室、英特尔和HPE周四表示，他们已经为 Aurora 超级计算机安装了全部 10,624 个刀片服务器。超级计算机项目早在 2015 年就宣布了，但其历史尤其坎坷。该系统承诺使用数万个带有HBM2E 内存的 Xeon Max“Sapphire Rapids”CPU 阵列以及代号为“Ponte Vecchio”的英特尔Max系列GPU，提供超过 2 ExaFLOPS的FP64理论峰值计算性能。该系统将于今年晚些时候上线。

英特尔公司副总裁兼超级计算事业部总经理 Jeff McVeigh 表示：“Aurora 是英特尔 Max 系列 GPU 的首次部署，同时也是全球最大的GPU集群，以及最大的基于 Xeon Max CPU 的系统。”

从数字来看，Aurora 超级计算机看起来也相当令人印象深刻。该机器配备 21248 个通用处理器，拥有超过 110 万个内核，用于需要传统 CPU 的工作负载，以及 63744 个计算 GPU，用于服务 AI 和 HPC 工作负载，基本配比为1:3。在内存方面，Aurora 具有供 CPU 使用的 1.36 PB 封装 HBM2E 内存和 19.9 PB DDR5 内存，Ponte Vecchi 则提供了8.16 PB的HBM2E供GPU使用。

Aurora 机器使用 166 个机架，每个机架容纳 66 个刀片。它横跨八排，占据相当于两个篮球场的空间。同时，这还不包括Aurora的存储子系统，该子系统采用1,024个全闪存存储节点，提供220TB的存储容量和31 TB/s的总带宽。目前，阿贡国家实验室尚未公布 Aurora 或其存储子系统的官方功耗数据。

该超级计算机将用于处理从核聚变的模拟、空气动力学预测到医学研究等各种工作负载，采用 HPE 的 Shasta 超级计算机架构和 Slingshot 互连。同时，在系统通过阿贡国家实验室验收测试之前，将用于大规模科学生成人工智能模型。

阿贡国家实验室副实验室主任 Rick Stevens 表示：“在我们努力进行验收测试的同时，我们将使用 Aurora 来训练一些大规模的开源生成式 AI 科学模型。Aurora 拥有超过 60,000 个 Intel Max GPU、非常快的 I/O 系统和全固态海量存储系统，是训练这些模型的完美环境。 ”

尽管已经安装了 Aurora 刀片，超级计算机仍然需要接受并通过一系列验收测试，这是超级计算机的常见程序。预计将于今年晚些时候上线，将达到超过 2 ExaFLOPS（每秒 20 亿次浮点运算）的理论性能。凭借出色的表现，有望稳坐Top500榜单榜首。

Aurora超级计算机的安装标志着几个里程碑：它是业界第一台性能高于2 ExaFLOPS的超级计算机，也是第一台基于英特尔的ExaFLOPS级机器。最后，它标志着八年前开始的 Aurora 传奇的结束，该超级计算机的旅程经历了相当多的坎坷。

Aurora 最初于 2015 年推出，最初打算由英特尔的 Xeon Phi 协处理器提供支持，预计在 2018 年提供约 180 PetaFLOPS。然而，英特尔决定放弃 Xeon Phi，转而使用计算 GPU，因此需要与阿贡国家实验室重新协商协议，到 2021 年提供 ExaFLOPS 级系统。

由于英特尔 7 纳米（现称为英特尔 4）节点的延迟以及需要为台积电 N5（5 纳米级）重新设计，导致长时间跳票。英特尔最终于去年年底推出了其数据中心 GPU Max 产品，目前已向阿贡国家实验室交付了超过 60,000 个此类计算 GPU。

如图所示，目前全球TOP5顶级超算最高的为HPE的前沿，其峰值计算性能为1.6 ExaFLOPS，Aurora一旦正式启动，将一跃成为世界第一超级计算机。

查看全文

小叶大话科技

作者最近更新

英特尔与HPE开发的Aurora超级计算机成功安装完毕

小叶大话科技

期刊订阅

日本专家通过超级计算机“富岳”研究新冠

日本超算时隔9年登顶 美国专家称其不会领先太久

Nvidia与佛罗里达大学携手打造AI超级计算机

日本最新超算公开：专门用于模拟计算核融合

日本超算时隔9年登顶美国专家称其不会领先太久