ノードの監視

2025-06-05

クラスターの正常性を監視および維持するための重要な手順は、通常の運用状態またはパフォーマンスからの逸脱を特定することです。 HPC Cluster Manager を使用すると、クラスターとノードの状態をひとめで確認したり、問題のあるノードを特定したり、ノードの詳細にドリルダウンして詳細を調査したりできます。

このトピックの内容は以下のとおりです。

クラスターの状態を一目で確認する
個々のノードの詳細にドリルダウンする
ノード操作の監視
ノード、ジョブ、操作、診断の間で監視情報を関連付ける
クラスターの使用状況と統計を経時的に監視する

クラスターの状態を一目で確認する

ノード管理では、ノードリストビューまたはノードヒートマップビューを使用して、クラスターを一目で監視できます。 グラフとレポートでは、監視グラフには、ノードの正常性とクラスターの使用率に関する現在および最近のデータが表示されます。詳細については、以下を参照してください。

個々のノードの詳細にドリルダウンする

[リスト] ビューと [ヒートマップ] ビューには、問題領域を特定するための開始点が用意されています。コンピューティングノードをダブルクリックすると、ハードウェア、オペレーティングシステムのプロパティ、現在のパフォーマンスメトリックなどの詳細情報が表示されます。 1 つ以上のノードを選択し、ノードの詳細をドリルダウンしてパフォーマンスを調査することもできます。

診断テストとレポートの実行: 1 つ以上のコンピューティングノードで診断テストを実行します。
パフォーマンスグラフの表示: 時間の経過に伴うコンピューティングノードのパフォーマンスメトリックのグラフを表示します。
ノードイベントの表示: 特定のコンピューティングノード上の HPC サービスによって生成されたイベントを表示します。
HPC クラスターマネージャーからノードへのリモートデスクトップ接続を開く: 1 つ以上のコンピューティングノードへのリモートデスクトップセッションを開きます。

ノード操作の監視

最近または進行中のクラスター操作の追跡は、クラスターの管理に不可欠なもう 1 つの監視側面です。詳細については、以下を参照してください。

ノード、ジョブ、操作、診断の間で監視情報を関連付ける

HPC ジョブマネージャーでは、 Pivot To アクションを使用して、ノード、ジョブ、操作、診断の間で監視情報を関連付けることができます。たとえば、ビューペインで 1 つ以上のノードを選択し、[ 選択したノードのジョブ] にピボットできます。これにより、選択したノードでフィルター処理されたジョブリストビューが表示されます。

サポートされているピボットパスは次のとおりです。

ノード: ジョブ、テスト結果、操作にピボットします。
ジョブ: ノードにピボットします。
テスト結果: 失敗したノードにピボットし、操作を行います。

クラスターの使用状況と統計を経時的に監視する

HPC Cluster Manager には、クラスターリソースの使用状況とジョブとノードの統計を経時的に監視および分析するための組み込みのグラフとレポートがいくつか用意されています。 HPCReporting データベースでは、カスタムレポートもサポートされています。詳細については、「グラフとレポート: HPC クラスターマネージャー」を参照してください。