HPCクラスター

HPCクラスターとは

HPCクラスターまたはハイパフォーマンスコンピューティングクラスターは、大量のデータを高速かつ並行処理のパフォーマンスと高い可用性で処理するように構成された、分散処理ソフトウェアフレームワークと大型で高性能なコンピューター群を含む専用ハードウェアを組み合わせたものです。

HPCクラスターの構築方法

HPCクラスターの構築は非常に単純ですが、設定を決定するには、組織は通常日々必要とされるコンピューティング性能のレベルを把握することが必要です。必要なサーバー数、ワークロードを効率的に処理できるソフトウェアレイヤー、クラスターが収容される場所、システムの性能と冷却に関する要件といった事項を慎重に評価する必要があります。これらを決定すると、以下のステップに従ってクラスターの構築に進むことができます。

  1. コンピュートノードの構築: モニタリングやリソース管理用のツールや高速インターコネクトドライバーソフトウェアをインストールすることでヘッドノードを構成します。共有クラスターディレクトリを作成し、コンピュートノードのイメージをキャプチャーし、ワークロードを実行するその他のクラスターにイメージをクローニングします。
  2. IPアドレスの設定: ピーク時の効率を高めるため、HPCクラスターは専用のIPサブセットを使用する高速インターコネクトネットワークを搭載しています。ワーカーノードをヘッドノードに接続すると、各ノードに追加のIPアドレスが割り当てられます。
  3. CMUユーザーグループとしてのジョブ構成: ワークロードがキューに到達したら、現在実行されている各ジョブに対してCMUユーザーグループを動的に作成するスクリプトが必要になります。

HPCクラスターの重要なコンポーネントとは

HPCクラスターには、コンピュートハードウェア、ソフトウェア、ファシリティという3つの基本的なコンポーネントがあり、それぞれ要件が異なっています。

コンピュートハードウェア

コンピュートハードウェアには、サーバーやストレージ、専用のネットワークがあります。通常は、プライマリワーカーやクライアントノードとして機能するサーバーを最低でも3台プロビジョニングする必要があります。設定にはこのような制限があるため、各サーバーのコンピュート容量を増やすには、ハイエンドなサーバーに十分なプロセッサーとストレージを導入する必要があります。ただし、複数のサーバーを仮想化することによってスケールアップし、クラスターのコンピュート性能を高めることもできます。これらをサポートするネットワークインフラストラクチャには、ギガビットイーサーネット、NIC、スイッチなどの高帯域幅のTCP/IPネットワーク機器が必要です。

ソフトウェア

ソフトウェアレイヤーには、HPCクラスターの監視、プロビジョニング、管理に使用することが想定されるツールが含まれます。ソフトウェアスタックは、ライブラリ、コンパイラ、デバッガー、ファイルシステムから構成され、クラスター管理機能を実行します。HadoopのようなHPCフレームワークを採用してもよいでしょう。Hadoopは、機能的には同一ですが、フォールトトレラントであり、不具合のあるシステムを検出しトラフィックを自動的に利用可能なシステムへリダイレクトします。

ファシリティ

HPCクラスターを格納するには、最大で72台のブレード型サーバーと5台のToRスイッチ (約800キログラム (1800ポンド)) を格納できるサーバーラックの重量を支えられる物理的なフロアスペースが必要です。また、最大で43kWの電力を必要とするサーバーを運用し冷却するだけの性能を備えたファシリティが必要です。

HPEとHPCのクラスター

HPEは、あらゆる規模の組織が効率を高め、ダウンタイムを削減し、生産性を高められる、業界随一のHPCソリューションポートフォリオを提供します。

HPE Performance Cluster Managerは、HPEクラスターを管理してパフォーマンスのピーク時でも継続稼働させるために必要なすべての機能を提供します。包括的なツールセットをHPE HPC/AIシステムに完全に統合した、使いやすく柔軟性に優れたシステム管理ソリューションであり、10年以上、世界中の数多くのお客様によって使用されています。数十のノードからオンプレミスHPC環境およびハイブリッドHPC環境のエクサスケールまで、規模を問わずシステムを管理するためにスケーリングでき、即座に本番環境に移行して、定期的なスケジュールでヘルスチェックやテストを実行して利用可能なリソースを最大限に活用できます。

HPE Slingshotは、HPCやAIクラスター向けの最新の高性能インターコネクトであり、HPCやAI/ML、データ解析アプリケーションに対して業界最高クラスの性能、帯域幅、低レイテンシを実現しました。本製品は、スイッチ間のパスでローディングされているリアルタイムな情報を追跡し、トラフィックを動的にルート変更して負荷を分散します。

HPE GreenLakeは、オンプレミスのクラウドサービス消費モデルにより、HPCソリューションの優れた柔軟性、拡張性、制御性を提供します。また、環境の導入や運用をHPEの経験豊富な専門家に依頼することができます。これにより、自社のHPCアーキテクチャーを維持する費用を抑え、複雑さを軽減できます。