ノードの監視

2024-10-18

クラスターの正常性を監視および維持するための重要な手順は、通常の運用状態またはパフォーマンスからの逸脱を特定することです。 HPC Cluster Manager を使用すると、クラスターとノードの状態をひとめで確認したり、問題のあるノードを特定したり、ノードの詳細にドリルダウンして詳細を調査したりできます。

このトピックでは、次の操作を行います。

クラスターの状態をひとめで確認
個々のノードの詳細にドリルダウン
ノード操作を監視する
ノード、ジョブ、操作、診断の間で監視情報を関連付ける
クラスターの使用状況と統計の時間経過に伴うの監視

クラスターの状態を一目で確認する

ノード管理では、ノードリストビューまたはヒートマップビューノードを使用して、クラスターを一目で監視できます。 グラフとレポートでは、監視グラフには、ノードの正常性とクラスターの使用率に関する現在および最近のデータが表示されます。詳細については、以下を参照してください:

個々のノードの詳細にドリルダウンする

リストビューとヒートマップビュー、問題領域を特定するための開始点が提供されます。コンピューティングノードをダブルクリックすると、ハードウェア、オペレーティングシステムのプロパティ、現在のパフォーマンスメトリックなどの詳細情報が表示されます。 1 つ以上のノードを選択し、ノードの詳細をドリルダウンしてパフォーマンスを調査することもできます。

診断テストとレポートの実行: 1 つ以上のコンピューティングノードで診断テストを実行します。
パフォーマンスグラフの表示: 時間の経過に伴うコンピューティングノードのパフォーマンスメトリックのグラフを表示します。
ノードイベントの表示: 特定のコンピューティングノード上の HPC サービスによって生成されたイベントを表示します。
HPC Cluster Managerからノードへのリモートデスクトップ接続を開く: 1 つまたは複数のコンピューティングノードへのリモートデスクトップセッションを開きます。

ノード操作の監視

最近または進行中のクラスター操作の追跡は、クラスターの管理に不可欠なもう 1 つの監視側面です。詳細については、以下を参照してください:

ノードの状態、正常性、および操作のについて
操作ログを読み取る

ノード、ジョブ、操作、診断の間で監視情報を関連付ける

HPC ジョブマネージャーでは、Pivot To アクションを使用して、ノード、ジョブ、操作、および診断の間で監視情報を関連付けることができます。たとえば、ビューペインで 1 つ以上のノードを選択し、[選択したノード]の [ジョブ] にピボットできます。これにより、選択したノードでフィルター処理されたジョブリストビューが表示されます。

サポートされているピボットパスは次のとおりです。

ノード: ジョブ、テスト結果、操作にピボット。
ジョブ: ノードへのピボット。
テスト結果: 失敗したノードへのピボットと操作。

クラスターの使用状況と統計を経時的に監視する

HPC Cluster Manager には、クラスターリソースの使用状況とジョブとノードの統計を経時的に監視および分析するための組み込みのグラフとレポートがいくつか用意されています。 HPCReporting データベースでは、カスタムレポートもサポートされています。詳細については、「グラフとレポート: HPC Cluster Manager」を参照してください。

このセクションの内容

ノードリスト、ヒートマップ、カスタムタブビューについて
ノードの状態、正常性、および操作のについて
ノードの表示
操作ログを読み取る
パフォーマンスグラフの表示
ノードイベントの表示をする
HPC Cluster Manager からノードへのリモートデスクトップ接続を開く