AI 超级计算

什么是 AI 超级计算?

AI 超级计算是指组织使用由数十万台强大机器组成的超快处理器,其利用人工智能 (AI) 模型管理和分析处理大量数据。

AI 超级计算机如何运作?

AI 超级计算机通常由经过精心调优的硬件组成,其中包括数十万个处理器、专用网络和大量存储空间。

这些超级计算机将工作负载划分给不同处理器,这样每个处理器只需承担一小部分工作。由于每个处理器负责各自的部分,相互之间往往会非常频繁地通信。每个处理器通过通信网格发送消息,这样信息就可以在多个维度上进行交换;根据问题的不同,可以进行上、下、左、右、前、后等不同方向的交换。这种多维度进程有助于工作负载更好地相互调优,从而提高处理速度。

令人惊讶的是,AI 超级计算机运行的操作系统相当普通,其使用 Linux 软件来运行应用、网络以及执行调度。运行的分析程序通常用 C 或 Fortran 编写,并通过名为 MPI 的通信库在多台机器间传递消息。

由于电路板上密集地放置了较小的电路,AI 超级计算机可以更快地运行,但运行温度也会随之升高。这是因为目前将足够的电力输入和输出芯片的效率还不够高,导致芯片过热。然而,当数十万个这样的多核节点一起工作时,超级计算机的散热需求相当高。为缓解此问题,采用铜线制造电路,因为铜线能以非常高的功率密度传输能量。超级计算机还使用强制空气散热,并在整个系统中循环传送制冷剂。

AI 超级计算如何管理分析工作负载?

AI 超级计算机之所以能够管理复杂的分析工作负载,有很多原因。

节点

AI 超级计算机拥有多个 CPU,计算速度极快。这些 CPU 或节点中有 10 到 12 个核心来执行任务。由于超级计算机通常在其架构内聚集数千个节点,这意味着每千个节点中有 12,000 个核心在工作。因此,如果一台超级计算机只有 1000 个节点,那么它的工作性能就达到每秒数万亿次循环。

电路

超级计算机的电路设计拥有非常细小的电线连接,这种电路板相较于传统计算机电路板,电力容量更大。这两大技术进步使得复杂的算术和逻辑运算能够按顺序解析和执行。

处理

此外,超级计算机通过使用并行处理,可同时运行多个工作负载。具体而言,AI 超级计算机能同时处理数千个任务,在毫秒内轻松完成工作任务。因此,它能帮助各行各业训练出更大、更好和更精确的模型。因为精确度更高,团队可更快地分析信息,将关键结论引入流程,开发更多的资源,并测试更多的场景——所有这些都将加速行业的进步。

HPE 和 AI 超级计算

HPE 提供的 HPC/AI 解决方案能够助您应对多种工作负载和规模需求。我们的解决方案是一套全面的模块化软件产品组合,针对 HPC/AI 工作负载进行了优化,能够提供规模化的应用性能,同时具备所需的密度和可靠性,以支持高性能 CPU 和 GPU。

此外,HPE 还提供专为大规模部署设计的 HPC 硬件。这些经过完全集成的硬件支持任何规模的部署,而且具备高级冷却选项,适用于高密度平台。

HPE Cray 超级计算机提供了全新的超级计算方法,具有多项变革性功能。这种计算机的架构设计支持选择基础设施,能够为数万至数十万节点提供最优解决方案。高密度的八路 GPU 服务器,提供一致、可预测且可靠的性能,确保能够高效处理大规模工作流程。Slingshot 互连技术和 Cray 软件提供了类似云的用户体验,同时还通过 HPE Performance Cluster Manager 执行全面的系统管理。

HPE 还提供行业领先的企业级加速计算平台。HPE Apollo 6500 Gen10 Plus 系统为 GPU 密集型工作负载提供了卓越的性价比,而且因 NVIDIA 和 AMD 加速器性能达到新高度。该系统灵活地支持多种 CPU/加速器比率、工作负载和加速器,适合执行 HPC 工作负载通常所需的深度学习及复杂模拟和建模操作,既可通过服务形式提供,又可以作为混合 HPC 灵活部署(现场、场外或混合方式)。

无论您是在本地还是在混合云上运行 HPC,通过 HPE GreenLake 提供的 HPE Pointnext Services 可让您的 HPC IT 发挥绝佳性能。驻地工程师将为您提供指导以及针对 HPE 软件和硬件的定制化支持,助您快速设计和部署 AI 策略,从而充分发挥 HPC 投资的价值。