Cluster HPC
Qu’est-ce qu’un cluster HPC ?
Un cluster HPC, ou cluster de calcul haute performance, rassemble du matériel spécialisé, dont un groupe de grands et puissants ordinateurs, et un framework logiciel de traitement distribué configuré pour traiter des quantités massives de données à grande vitesse avec de hauts niveaux de performances parallèles et de disponibilité.
Comment créer un cluster HPC ?
La construction d'un cluster HPC est relativement simple, à ceci près que l’entreprise doit bien évaluer le niveau de puissance de calcul qui sera nécessaire au quotidien afin de déterminer la configuration. Vous devez étudier avec soin tous les aspects : le nombre de serveurs requis ; la couche logicielle capable de gérer efficacement les charges de travail ; l'endroit où le cluster sera hébergé ; les exigences du système en matière d'alimentation et de refroidissement, etc. Une fois ces décisions prises, vous pouvez procéder à la création du cluster en suivant les étapes énumérées ci-dessous :
- Élaborer un nœud de calcul : configurez un nœud principal en installant des outils de surveillance et de gestion des ressources ainsi que des pilotes/logiciels d'interconnexion à haut débit. Créez un répertoire de cluster partagé, capturez une image du nœud de calcul et clonez cette image sur la partie restante du cluster qui exécutera les charges de travail.
- Configurer les adresses IP : pour une efficacité optimale, les clusters HPC contiennent un réseau d'interconnexion à haut débit qui utilise un sous-réseau IP dédié. Au fur et à mesure que vous connectez les nœuds de travailleurs au nœud principal, vous attribuez des adresses IP supplémentaires à chacun d’entre eux.
- Configurer les travaux en tant que groupes d'utilisateurs CMU : au fur et à mesure que les charges de travail arrivent dans la file d'attente, vous aurez besoin d'un script pour créer dynamiquement des groupes d'utilisateurs CMU pour chaque travail en cours d'exécution.
Quels sont les principaux composants d'un cluster HPC ?
Un cluster HPC se compose de trois éléments de base qui ont chacun des exigences différentes : le matériel, les logiciels et les infrastructures physiques de calcul.
Matériel de calcul
Le matériel de calcul comprend des serveurs, des systèmes de stockage et un réseau dédié. En général, vous devez prévoir au moins trois serveurs pour remplir les rôles de nœud principal, de nœud de travail et de nœud client. Avec une configuration aussi limitée, vous devrez investir dans des serveurs haut de gamme dotés de nombreux processeurs et d’une grande capacité de stockage afin de disposer d’une plus grande puissance de calcul sur chacun d'eux. Vous avez par ailleurs la possibilité de faire évoluer ce système en virtualisant plusieurs serveurs, ce qui permet de mettre davantage de puissance de calcul à la disposition du cluster. L'infrastructure de réseau nécessaire pour prendre en charge ces différents nœuds nécessitera des équipements de réseau TCP/IP haut débit tels qu’équipements Gigabit Ethernet, cartes réseaux et commutateurs.
Logiciels
La couche logicielle comprend les outils que vous comptez utiliser pour surveiller, approvisionner et gérer votre cluster HPC. Les stacks logicielles comprennent des bibliothèques, des compilateurs, des débogueurs, ainsi que des systèmes de fichiers permettant d’exécuter les fonctions de gestion des clusters. Vous pouvez décider d'adopter un framework HPC tel que Hadoop, qui remplit les mêmes fonctions, mais offre une tolérance aux pannes et peut détecter les systèmes défaillants afin de rediriger automatiquement le trafic vers les systèmes disponibles.
Infrastructures physiques
Pour abriter de votre cluster HPC, vous devez disposer d'un espace physique suffisant pour accueillir les racks de serveurs et supporter leur poids, sachant qu’un rack peut contenir jusqu'à 72 serveurs lame et cinq commutateurs Top-of-Rack, pour un poids total pouvant atteindre 815 kg. Vous devez également disposer d'une puissance suffisante pour faire fonctionner et refroidir les serveurs, qui peuvent demander jusqu'à 43 kW de puissance.
HPE et les clusters HPC
HPE propose un portefeuille de solutions HPC de pointe pour aider les entreprises de toutes tailles à gagner en efficacité, réduire les temps d'arrêt et accélérer la productivité.
HPE Performance Cluster Manager fournit tout ce dont vous avez besoin pour gérer votre cluster HPE de façon à optimiser son fonctionnement. Avec un ensemble complet d'outils entièrement intégrés pour les systèmes HPC/IA de HPE, il s'agit d'une solution de gestion de systèmes flexible et facile à utiliser, adoptée par des centaines de clients dans le monde entier depuis plus de dix ans. Suffisamment évolutive pour gérer des systèmes de toute taille (de quelques dizaines de nœuds jusqu'à l’exascale) dans des environnements HPC sur site aussi bien qu’hybrides, cette solution vous permet de passer en production en quelques minutes et d’effectuer des vérifications d’intégrité ainsi que des tests à intervalles réguliers pour utiliser au mieux les ressources disponibles.
HPE Slingshot est une interconnexion haute performance moderne pour les clusters HPC et IA, qui offre des performances, une bande passante et une latence de pointe pour les applications HPC, IA/ML et d'analyse de données. Elle suit en temps réel les informations relatives à la charge sur chaque trajet de commutateur à commutateur et réachemine dynamiquement le trafic pour équilibrer la charge.
HPE GreenLake vous apporte un niveau de flexibilité, d’évolutivité et de contrôle maximal pour vos solutions HPC, avec un modèle de consommation de services cloud sur site. Enfin, vous pouvez demander à nos experts qualifiés d’implémenter et d’exploiter l'environnement pour votre compte, de façon à réduire le coût et la complexité de la maintenance de votre propre architecture HPC.