您的模型开发和 MLOps 团队是否将大量时间耗费在设置和管理 ML 基础设施上,而非构建模型并将其部署到正式环境中?

HPE 机器学习开发环境作为托管服务,是一个全托管的 MLOps 平台,可降低复杂性,也无需编写与管理 ML 基础设施相关的样板代码,因而能够让模型开发人员和研究人员专注于模型开发并提高开发速度和质量。此平台可以轻松与 ML 框架工具集成,并支持客户使用自己的 AWS 或 GCP 云环境。

我们的平台让 IT 和 MLOps 团队可以轻松设置和共享 AI 基础设施,改善 ML 团队协作和生产力,同时降低成本。

以托管服务的形式使用 HPE 机器学习开发环境,以便快速训练模型,构建更精准的模型,高效管理和共享 AI 基础设施,以及轻松跟踪和再现实验。

功能

借助前沿分布式训练策略和技巧,提升模型训练速度

HPE 机器学习开发环境软件集成 DeepSpeed,可实现 3D 并行(数据、模型和管道并行)分布式训练,加快 GPT-NeoX 等大型模型的训练速度。

启用 Horovod,提供易用的数据并行分布式训练。

提供 PyTorch 分布式数据并行 (DDP) 功能,实现灵活性和自由选择分布式训练策略。

利用前沿超参数调优技术,高效查找优化模型配置

HPE 机器学习开发环境软件具备由异步连续减半 (ASHA) 超频算法创作者提供的生产级实施,专为 HPE 搜索和优化打造。

定义自己的逻辑,协调一次实验中的多个试验。

实施您的自定义超参数搜索算法、集成、主动学习、神经架构搜索和强化学习。

通过 ML 工作流程感知智能调度和资源管理轻松共享 GPU 和加速器

有了 HPE 机器学习开发环境软件,您便可以轻松与 ML 开发和运维团队共享内部部署或云端 GPU 和加速器。

在同一群集中并排运行 ML 和 HPC 作业,支持 Slurm 或 PBS 等工作负载管理器和 Singularity/Apptainer、Podman 或 NVIDIA® Enroot 等安全容器运行时间。

无缝使用发现或抢占实例,管理云成本。

无需更改代码即可在 NVIDIA 或 AMD GPU 上训练模型,为加速器异构提供基础支持。

从笔记本电脑到超级计算机,包括裸机、虚拟机(含云端和本地 IaaS 解决方案)、Kubernetes、Slurm 和 PBS,为用户提供一致的部署体验。

利用集成实验跟踪和模型注册表跟踪和重现您的工作

HPE 机器学习开发环境软件提供内置的实验追踪,覆盖模型代码、配置、超参数、指标和检查点。

对训练的模型进行版本控制、说明和整理,让 MLOps 团队可以与模型开发人员有效协作,管理模型生命周期。

  • AMD 是 Advanced Micro Devices, Inc. 的商标。GCP 是 Google LLC 的商标。Linux 是 Linus Torvalds 在美国和其他国家(地区)的注册商标。NVIDIA 是 NVIDIA Corporation 在美国和其他国家(地区)的商标和/或注册商标。Red Hat 是 Red Hat, Inc. 在美国和其他国家(地区)的注册商标。其他第三方商标的所有权均属于各自的所有者。