クラスターの正常性を監視および維持するための重要な手順は、通常の運用状態またはパフォーマンスからの逸脱を特定することです。 HPC Cluster Manager を使用すると、クラスターとノードの状態をひとめで確認したり、問題のあるノードを特定したり、ノードの詳細にドリルダウンして詳細を調査したりできます。
このトピックの内容は以下のとおりです。
クラスターの状態を一目で確認する
ノード管理では、ノードリストビューまたはノードヒートマップビューを使用して、クラスターを一目で監視できます。 グラフとレポートでは、監視グラフには、ノードの正常性とクラスターの使用率に関する現在および最近のデータが表示されます。 詳細については、以下を参照してください。
個々のノードの詳細にドリルダウンする
[リスト] ビューと [ヒート マップ] ビューには、問題領域を特定するための開始点が用意されています。 コンピューティング ノードをダブルクリックすると、ハードウェア、オペレーティング システムのプロパティ、現在のパフォーマンス メトリックなどの詳細情報が表示されます。 1 つ以上のノードを選択し、ノードの詳細をドリルダウンしてパフォーマンスを調査することもできます。
診断テストとレポートの実行: 1 つ以上のコンピューティング ノードで診断テストを実行します。
パフォーマンス グラフの表示: 時間の経過に伴うコンピューティング ノードのパフォーマンス メトリックのグラフを表示します。
ノード イベントの表示: 特定のコンピューティング ノード上の HPC サービスによって生成されたイベントを表示します。
HPC クラスター マネージャーからノードへのリモート デスクトップ接続を開く: 1 つ以上のコンピューティング ノードへのリモート デスクトップ セッションを開きます。
ノード操作の監視
最近または進行中のクラスター操作の追跡は、クラスターの管理に不可欠なもう 1 つの監視側面です。 詳細については、以下を参照してください。
ノード、ジョブ、操作、診断の間で監視情報を関連付ける
HPC ジョブ マネージャーでは、 Pivot To アクションを使用して、ノード、ジョブ、操作、診断の間で監視情報を関連付けることができます。 たとえば、ビュー ペインで 1 つ以上のノードを選択し、[ 選択したノードのジョブ] にピボットできます。 これにより、選択したノードでフィルター処理されたジョブ リスト ビューが表示されます。
サポートされているピボット パスは次のとおりです。
ノード: ジョブ、テスト結果、操作にピボットします。
ジョブ: ノードにピボットします。
テスト結果: 失敗したノードにピボットし、操作を行います。
クラスターの使用状況と統計を経時的に監視する
HPC Cluster Manager には、クラスター リソースの使用状況とジョブとノードの統計を経時的に監視および分析するための組み込みのグラフとレポートがいくつか用意されています。 HPCReporting データベースでは、カスタム レポートもサポートされています。 詳細については、「 グラフとレポート: HPC クラスター マネージャー」を参照してください。