HPC 群集
什么是 HPC 群集?
高性能计算群集(也称为 HPC 群集)融合了专门硬件(包括一组强大的大型计算机)和分布式处理软件框架,对其进行配置后能够高速处理大量数据,与此同时,兼顾并行性能和高可用性。
如何构建 HPC 群集?
构建 HPC 群集的过程非常简单,需要组织理解每日所需的计算能力水平才能确定安装。需要谨慎评估以下问题:需要多少服务器;哪些软件层能够高效处理工作负载;群集会放在哪里;以及系统的电力和冷却需求是什么。确定答案之后,就可以按照下方列出的步骤继续构建群集:
- 构建计算节点:安装用于监控和管理资源的工具及高速互连的驱动程序/软件,以完成头节点的配置。创建共享群集目录,采集计算节点的图像,将图像复制到将运行工作负载的群集其余部分。
- 配置 IP 地址:为达到最高效率,HPC 群集会纳入使用专用 IP 子网的高速互连网络。将工作节点连接到头节点时,为每一个节点分配额外 IP 地址。
- 将作业配置为 CMU 用户组:工作负载进入队列时,需要使用脚本为每一个当前运行的作业创建 CMU 用户组。
HPC 群集有哪些关键组件?
HPC 群集有三个基本组件(计算硬件、软件和设施),每个组件具有不同的需求。
计算硬件
计算硬件包括服务器、存储和专用网络。通常,至少需要配置三台服务器,分别用作主要节点、工作节点和客户端节点。设置程序有限的情况下,需要投资购入高端服务器,才能获得充足的处理器和存储,增加每一个节点的计算容量。然而,也可以虚拟化多台服务器来纵向扩展,为群集提供更多计算能力。用以支持群集的网络基础设施需要高带宽 TCP/IP 网络设备,例如千兆以太网、NIC 和交换机。
软件
软件层包括计划用于监控、配置和管理 HPC 群集的工具。软件堆栈也包括可执行群集管理功能的库、编译器、调试程序以及文件系统。可以决定采用 Hadoop 等 HPC 框架来执行相同功能,但群集具备容错能力,且能够检测出现故障的系统,还会自动将流量重定向到可用系统。
设施
要存放 HPC 群集,就需要实际的物理空间来承受及支撑起服务器机架的重量,最多可容纳 72 台刀片型服务器和 5 部架顶式交换机(最多 1,800 磅)。还必须有充足的电力来运行和冷却服务器,最多需要 43 kW。
HPE 与 HPC 群集
HPE 提供行业领先的 HPC 解决方案组合,可协助规模不一的组织改善效率、缩短停机时间、提高工作成效。
HPE Performance Cluster Manager 提供管理 HPE 群集所需的一切功能,让 HPC 群集始终以峰值性能运行。这款灵活、易于使用的系统管理解决方案拥有针对 HPE HPC/AI 系统完成集成的全方位工具集,10 多年来一直深受全球各地客户的青睐。这款产品可供扩展,能够用于管理本地和混合 HPC 环境中只有几十个节点直至百万兆次级等任意规模的系统。此外,这款产品可以在几分钟之内运用到生产环境,也会定期运行状况检查和测试,充分发挥可用资源的价值。
HPE Slingshot 是一款适用于 HPC 和 AI 群集的现代、高性能互连解决方案,能够为 HPC、AI/ML 和数据分析应用程序提供行业领先的性能、带宽和低延迟。其能够跟踪每个交换机至交换机路径上负载的实时信息,以动态方式重新路由流量以平衡负载。
HPE GreenLake 可通过本地云服务消费模式,提高 HPC 环境所需的灵活性、可扩展性和控制力。组织可以求助技能娴熟的专家,由其为组织实施和操作环境,协助减少维护 HPC 架构时的成本并降低相关风险。