Vous recherchez une solution pour adapter vos pipelines de données et d’apprentissage automatique (machine learning – ML) lorsque vous traitez un grand volume de données structurées et non structurées ? Le logiciel HPE Machine Learning Data Management offre une plateforme de couche de données flexible qui automatise les pipelines de données et d’apprentissage automatique complexes, tout en assurant la gestion des versions et la traçabilité des données afin de faciliter la reproductibilité. Améliorez les performances de vos pipelines grâce aux fonctionnalités de mise à l’échelle automatique et de traitement parallèle fournies par Kubernetes pour assurer l’orchestration des ressources. Lorsque les données sont modifiées, les magasins d’objets standard, la déduplication et les pipelines sont automatiquement déclenchés, ce qui permet à vos ingénieurs de gagner du temps et d’économiser des ressources. Cette plateforme offre une traçabilité des données immuable avec la gestion des versions de n’importe quel type de données pour pouvoir retracer leur historique. Ainsi, tous les résultats peuvent être facilement reproduits.

Nouveautés

  • Pipelines de données avec gestion des versions et traçabilité pour garantir une reproductibilité totale.
  • Gérez des charges de travail massives allant jusqu’à des pétaoctets grâce à la mise à l’échelle automatique et au traitement parallèle.
  • Pipelines centrés sur les données conçus pour se déclencher automatiquement lorsque des modifications dans les données sont détectées.
  • Stimulez la collaboration et la mise à l’échelle des équipes grâce à une plateforme centrale modulaire, partageable, agissant comme une source d’authenticité unique.
  • Générez un code plus simple, plus clair et plus facile à déboguer avec le kit SDK amélioré basé sur Python.

Caractéristiques

Évolutivité et performance

En utilisant Kubernetes pour l’orchestration des ressources, le logiciel HPE Machine Learning Data Management peut traiter des pétaoctets de données et des milliards d’enregistrements grâce à la mise à l’échelle automatique et le traitement parallèle sur plusieurs nœuds.

Automatisez la déduplication des données et ne traitez que les données nouvelles ou modifiées (traitement incrémentiel) afin que les modèles disposent toujours des données les plus récentes.

L’architecture modulaire des référentiels et des pipelines, similaire à Git, permet aux équipes de travailler à grande échelle, de partager des ressources et de collaborer efficacement.

Reproductibilité et automatisation

Grâce à la traçabilité des données et à la gestion des versions des données, le logiciel HPE de gestion de données basée sur l’apprentissage automatique assure une reproductibilité totale de tous les résultats.

Contrôle de version complet pour les données et les métadonnées, y compris les analyses, les paramètres, les artefacts, les modèles et les résultats intermédiaires.

Les pipelines centrés sur les données sont déclenchés automatiquement par la détection de modifications des données (ajouts et modifications), de pipelines ou de code.

Transformez vos projets onéreux et imprévisibles en pipelines de production AI/ML rationalisés grâce à l’automatisation, la gestion des versions des données et le traitement parallèle.

Une plateforme flexible

Polyvalent en termes de langages et d’outils, le logiciel HPE de gestion de données basée sur l’apprentissage automatique permet aux ingénieurs de choisir librement les langages, les structures ou les bibliothèques les plus adaptés à leur cas d’utilisation.

Polyvalente en termes de données, cette solution prend facilement en charge les données structurées et non structurées, ainsi que les données par lots ou en continu.

Fonctionne dans des conteneurs Docker sur Kubernetes pour une portabilité complète vers le cloud ou sur site.

Rentabilité des charges de travail ML

Le logiciel HPE de gestion de données basée sur l’apprentissage automatique peut réduire les coûts du calcul et du stockage en ne traitant que les données nouvelles ou modifiées et en dédupliquant les données.

Optimisez l’utilisation des ressources en allouant les charges de travail aux ressources CPU ou GPU en fonction des besoins spécifiques du cas d’utilisation.

  • Docker est une marque commerciale ou une marque déposée de Docker, Inc. aux États-Unis et/ou dans d’autres pays. Toutes les marques de tiers sont la propriété de leurs détenteurs respectifs.