(原标题:一窥宇宙最快超算里面)
如果您但愿可以常常碰头,宽待标星保藏哦~
来源:实践来自servethehome,谢谢。
近日,好意思国动力部最新推出的超等盘算机、Top500 排行第一的El Capitan在加州的 LLNL 举行了落成庆典。落成庆典适度后,他们让我(作家)带入部下手机干涉 El Capitan。频繁,这是一个不允许使用电子修复的区域,手机也不成干涉。今天,我进去了。
El Capitan落成庆典
在提交信息以获取现场看望考证后,咱们获取了一个徽章并被护送到会堂。在那儿,LLNL、NNSA、DoE 和其他东谈主员就 El Capitan 发表了演讲。
昭着,HPE 的首席实施官 Antonio Neri 曾在利弗莫尔住过一段时刻。我问 Antonio,El Capitan(和其他 HPC 集群)上的这项职责何如转念为 AI 销售。他说,扫数底层工夫(包括 GPU 盘算、汇集、液体冷却、电力运送等)的大限制部署王人平直转念为 AI 集群。
AMD 首席实施官 Lisa Su 带来了一台隔断盖子的 AMD Instinct MI300A,并将其带到了讲台上。Lisa 还对这何如转念为东谈主工智能的问题给出了深刻的回复。她的回复是,这是 El Capitan 中超越 40,000 个加快器的大限制部署和运行的又一个讲解点。这意味着 AMD 和 HPE 团队需要瞎想可靠性,以便在可能需要数月的模拟中运行系统。
关于参与该项盘算东谈主们来说,这仍是由去很真切。我难忘在疫情爆发前,我被邀请到 HPE 总部的一个斗室间,在那儿晓示了HPE-Cray 和 AMD 收效。疫情前的任何事情现在王人嗅觉像是陈腐的历史。
在今天的演讲中,咱们还快速浏览了一些模拟,举例这个模拟,袒露了 El Capitan 中仅 2048 个节点上的 1390 亿个区域中的受冲击的锡名义。关于那些不知谈的东谈主来说,El Capitan 的任务是奥密的,但一般来说是为了撑持好意思国的兵器策划。这使得看到系统里面的情况变得不同寻常。
天然,这是 STH,是以我遑急地恭候着有契机看到这个系统。令我讶异的是,在电子产物投放区,他们允许我带手机拍照。起头我觉得我只会看到令东谈主印象深刻的节点。CoolIT 提供液体冷却块。几年前,在 CoolIT 液体实验室之旅中,我在卡尔加里展示并捏住一个(颠倒重的)Frontier 节点,了解液体冷却的原型瞎想和测试。
LLNL 1 的 El Capitan 节点
注视如下:
1. 节点
2. SIVOC(电力调遣器)
3. Slingshot NIC 夹层卡
4. 冷板
5. AMD Instinct MI300A APU。
还有一个托盘,上头有四个已装配的 APU 插槽和四个未装配的插槽节点。与现在大多数系统不同,每个插槽和封装王人是一组集成的芯片,涵盖 CPU 中枢、GPU 中枢和高带宽内存 (HBM),因此咱们有一组斡旋的插槽,况且每个插槽的侧面莫得 DIMM 插槽。
LLNL 1 的 El Capitan HPE 节点无需冷却和 Slingshot
庆幸的是,El Capitan 的灵通时刻恰逢其时,它行将启动实施奥密任务。接下来,让咱们来望望运行系统。
近距离不雅察El Capitan
在大楼里,El Capitan 装配在楼上,而不是一楼。频繁有一个通往数据大厅的不雅察窗,但我被允许干涉里面。
HPE Cray AMD El Capitan 位于 LLNL 1 的靠窗侧通谈
值得翔实的是,咫尺 Top500 榜单上排行第 10 的 Tuolumne 系统就装配在 El Capitan 驾驭。该系统将撑持非奥密科学。
HPE AMD Tuolumne 位于 LLNL 1
频繁情况下,俯视 El Capitan 的座位排,看起来应该是这么的。我问了一些所在穷乏瓷砖的原因。昭着,地板需要加固,以恰当 9000 磅(傍边)的架子。
LLNL 1 的 El Capitan 的 HPE Cray AMD 液冷机架的阻滞过谈
然而,在这一天,一些门被关闭了,东谈主们可以看到这个系统的光线。
LLNL 1 的 El Capitan 的 HPE Cray AMD 液冷机架的过谈下方
约略仅仅在液体冷却架前自拍。
Patrick 在 LLNL 1 使用液冷 HPE Cray 和 AMD Rack CDU El Capitan
每个机架有 128 个盘算刀片,透彻承袭液体冷却。该系统颠倒泄气,杂音主要来自存储和地板上的其他系统。
LLNL 1 的 El Capitan 承袭液冷 HPE Cray 和 AMD 机架
在机架的另一侧,咱们装配了 HPE Slingshot 互连电缆,该电缆相连了 DAC 和光学器件。Slingshot 互连侧还有蓝色和红色的液体冷却管。
LLNL 1 的 El Capitan 的 HPE Cray AMD 液冷机架汇集通谈
Slingshot 互连器莫得透彻填充,这很颜面。咱们将不才一页展示 Rabbit 占用这些机架后部的空间。
主系统后头有好多存储空间。这即是存储架的模样。
LLNL 1 的 El Capitan 分享存储架
我传说这些主如果基于磁盘的机架。这与咱们在许多专注于基于闪存的分享存储的 AI 数据中心中看到的有所不同。
The Rabbit of HPE
El Capitan 有一个我直到今天才知谈的功能。也许我其时没翔实到。这是 Slingshot 互连侧的特写。您可以看到这亦然液体冷却的,况且 Slingshot 开关托盘仅占据此处袒露的空间的下半部分。LLNL 的东谈主们说,他们的代码不需要填充通盘 HPE Slingshot 区域。相背,他们有弥漫多的带宽,一半填充,留住稀奇的空间。
LLNL 1 的 El Capitan Rabbit 和 Slingshot 的 HPE AMD 机架背面
在顶部部分,并不是空缺的,而是有“Rabbit”。Rabbit 所有这个词装有 18 个 NVMe SSD,况且像系统的其他部分同样承袭液体冷却。
El Capitan HPE Rabbit 在 LLNL 1
咱们看到了系统里面,看到了 APU 之外的东西。相背,有一个看起来像AMD EPYC 7003 Milan部件的 CPU,研究到 AMD MI300A 的代数,嗅觉还可以。与 APU 不同,Rabbit 的 CPU 有 DIMM,还有看起来像是液冷的 DDR4 内存。与范例刀片同样,扫数东西王人是液冷的,因此系统中莫得任何电扇。
El Capitan HPE Rabbit CPU 和内存位于 LLNL 1
还有许多 PCIe 电缆。昭着,Rabbit 既可以行动孤立处事器运行,领有广阔存储空间,可用于实施数据准备任务等。约略,它也可以用作集群内的分享存储。
很难不嗅觉到 Rabbit 可能是周围瞎想最过度的单插槽存储处事器。
终末的话
这是一次颠倒酷的履历,让我有契机在大型集群的幕后一探究竟。天然它的限制还不到咱们 9 月份拍摄的xAI Colossus 集群的一半,其时该集群领有 100,000 个 GPU,但值得翔实的是,这么的系统仍然颠倒重大,而且其预算仅为 100,000 多个 GPU 系统的一小部分。
LLNL 1 的 El Capitan 的 HPE Cray AMD 液冷机架的过谈下方
我还有一些相片和视频需要浏览,也许在本周末飞往台北的飞机上。如果我在浏览这些相片和视频时发现一些趣味的东西,您可能会在 Substack 上看到一篇周末著述,其中包含更高分散率的相片和更多细节。该视频可能会出现在STH Labs 短片频谈上。
看到大型系统老是一件很棒的事情,因为它们频繁荫藏在录像机之外。
https://www.servethehome.com/inside-top-classified-us-supercomputer-el-capitan-amd-hpe/
半导体极品公众号保举
专注半导体界限更多原创实践
温文宇宙半导体产业动向与趋势
*免责声明:本文由作家原创。著述实践系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或撑持,如果有任何异议,宽待联系半导体行业不雅察。
今天是《半导体行业不雅察》为您分享的第4004期实践,宽待温文。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
心爱咱们的实践就点“在看”分享给小伙伴哦足球投注app