英特尔与HPE开发的Aurora超级计算机成功安装完毕
阿贡国家实验室、英特尔和HPE周四表示,他们已经为 Aurora 超级计算机安装了全部 10,624 个刀片服务器。超级计算机项目早在 2015 年就宣布了,但其历史尤其坎坷。该系统承诺使用数万个带有HBM2E 内存的 Xeon Max“Sapphire Rapids”CPU 阵列以及代号为“Ponte Vecchio”的英特尔Max系列GPU,提供超过 2 ExaFLOPS的FP64理论峰值计算性能。该系统将于今年晚些时候上线。
英特尔公司副总裁兼超级计算事业部总经理 Jeff McVeigh 表示:“Aurora 是英特尔 Max 系列 GPU 的首次部署,同时也是全球最大的GPU集群,以及最大的基于 Xeon Max CPU 的系统。”
从数字来看,Aurora 超级计算机看起来也相当令人印象深刻。该机器配备 21248 个通用处理器,拥有超过 110 万个内核,用于需要传统 CPU 的工作负载,以及 63744 个计算 GPU,用于服务 AI 和 HPC 工作负载,基本配比为1:3。在内存方面,Aurora 具有供 CPU 使用的 1.36 PB 封装 HBM2E 内存和 19.9 PB DDR5 内存,Ponte Vecchi 则提供了8.16 PB的HBM2E供GPU使用 。
Aurora 机器使用 166 个机架,每个机架容纳 66 个刀片。它横跨八排,占据相当于两个篮球场的空间。同时,这还不包括Aurora的存储子系统,该子系统采用1,024个全闪存存储节点,提供220TB的存储容量和31 TB/s的总带宽。目前,阿贡国家实验室尚未公布 Aurora 或其存储子系统的官方功耗数据。
该超级计算机将用于处理从核聚变的模拟、空气动力学预测到医学研究等各种工作负载,采用 HPE 的 Shasta 超级计算机架构和 Slingshot 互连。同时,在系统通过阿贡国家实验室验收测试之前,将用于大规模科学生成人工智能模型。
阿贡国家实验室副实验室主任 Rick Stevens 表示:“在我们努力进行验收测试的同时,我们将使用 Aurora 来训练一些大规模的开源生成式 AI 科学模型。Aurora 拥有超过 60,000 个 Intel Max GPU、非常快的 I/O 系统和全固态海量存储系统,是训练这些模型的完美环境。 ”
尽管已经安装了 Aurora 刀片,超级计算机仍然需要接受并通过一系列验收测试,这是超级计算机的常见程序。预计将于今年晚些时候上线,将达到超过 2 ExaFLOPS(每秒 20 亿次浮点运算)的理论性能。凭借出色的表现,有望稳坐Top500榜单榜首。
Aurora超级计算机的安装标志着几个里程碑:它是业界第一台性能高于2 ExaFLOPS的超级计算机,也是第一台基于英特尔的ExaFLOPS级机器。最后,它标志着八年前开始的 Aurora 传奇的结束,该超级计算机的旅程经历了相当多的坎坷。
Aurora 最初于 2015 年推出,最初打算由英特尔的 Xeon Phi 协处理器提供支持,预计在 2018 年提供约 180 PetaFLOPS。然而,英特尔决定放弃 Xeon Phi,转而使用计算 GPU,因此需要与阿贡国家实验室重新协商协议,到 2021 年提供 ExaFLOPS 级系统。
由于英特尔 7 纳米(现称为英特尔 4)节点的延迟以及需要为台积电 N5(5 纳米级)重新设计,导致长时间跳票。英特尔最终于去年年底推出了其数据中心 GPU Max 产品,目前已向阿贡国家实验室交付了超过 60,000 个此类计算 GPU。
如图所示,目前全球TOP5顶级超算最高的为HPE的前沿,其峰值计算性能为1.6 ExaFLOPS,Aurora一旦正式启动,将一跃成为世界第一超级计算机。
查看全文
作者最近更新
-
PID传感器原理及应用小叶大话科技2024-11-12
-
全球传感技术:未来已至,发展无限小叶大话科技2024-07-15
-
光电倍增管才是单光子探测的yyds小叶大话科技2024-07-11
评论0条评论