次の方法で共有


ノードの監視

クラスターの正常性を監視および維持するための重要な手順は、通常の運用状態またはパフォーマンスからの逸脱を特定することです。 HPC Cluster Manager を使用すると、クラスターとノードの状態をひとめで確認したり、問題のあるノードを特定したり、ノードの詳細にドリルダウンして詳細を調査したりできます。

このトピックでは、次の操作を行います。

クラスターの状態を一目で確認する

ノード管理 では、ノード リスト ビューまたはヒート マップ ビュー ノードを使用して、クラスターを一目で監視できます。 グラフとレポートでは、監視グラフには、ノードの正常性とクラスターの使用率に関する現在および最近のデータが表示されます。 詳細については、以下を参照してください:

個々のノードの詳細にドリルダウンする

リスト ビューとヒート マップ ビュー 、問題領域を特定するための開始点が提供されます。 コンピューティング ノードをダブルクリックすると、ハードウェア、オペレーティング システムのプロパティ、現在のパフォーマンス メトリックなどの詳細情報が表示されます。 1 つ以上のノードを選択し、ノードの詳細をドリルダウンしてパフォーマンスを調査することもできます。

  • 診断テストとレポートの実行: 1 つ以上のコンピューティング ノードで診断テストを実行します。

  • パフォーマンス グラフの表示: 時間の経過に伴うコンピューティング ノードのパフォーマンス メトリックのグラフを表示します。

  • ノード イベントの表示: 特定のコンピューティング ノード上の HPC サービスによって生成されたイベントを表示します。

  • HPC Cluster Managerからノードへのリモート デスクトップ接続を開く: 1 つまたは複数のコンピューティング ノードへのリモート デスクトップ セッションを開きます。

ノード操作の監視

最近または進行中のクラスター操作の追跡は、クラスターの管理に不可欠なもう 1 つの監視側面です。 詳細については、以下を参照してください:

ノード、ジョブ、操作、診断の間で監視情報を関連付ける

HPC ジョブ マネージャーでは、Pivot To アクションを使用して、ノード、ジョブ、操作、および診断の間で監視情報を関連付けることができます。 たとえば、ビュー ペインで 1 つ以上のノードを選択し、[選択したノード]の [ジョブ] にピボットできます。 これにより、選択したノードでフィルター処理されたジョブ リスト ビューが表示されます。

サポートされているピボット パスは次のとおりです。

  • ノード: ジョブ、テスト結果、操作にピボット

  • ジョブ: ノードへのピボット

  • テスト結果: 失敗したノードへのピボットと操作

クラスターの使用状況と統計を経時的に監視する

HPC Cluster Manager には、クラスター リソースの使用状況とジョブとノードの統計を経時的に監視および分析するための組み込みのグラフとレポートがいくつか用意されています。 HPCReporting データベースでは、カスタム レポートもサポートされています。 詳細については、「グラフとレポート: HPC Cluster Manager」を参照してください。

このセクションの内容