クラスターの正常性を監視および維持するための重要な手順は、通常の運用状態またはパフォーマンスからの逸脱を特定することです。 HPC Cluster Manager を使用すると、クラスターとノードの状態をひとめで確認したり、問題のあるノードを特定したり、ノードの詳細にドリルダウンして詳細を調査したりできます。
このトピックでは、次の操作を行います。
クラスターの状態を一目で確認する
ノード の表示
監視グラフ を使用した
個々のノードの詳細にドリルダウンする
診断テストとレポートの実行: 1 つ以上のコンピューティング ノードで診断テストを実行します。
パフォーマンス グラフの表示: 時間の経過に伴うコンピューティング ノードのパフォーマンス メトリックのグラフを表示します。
ノード イベントの表示: 特定のコンピューティング ノード上の HPC サービスによって生成されたイベントを表示します。
HPC Cluster Managerからノードへのリモート デスクトップ接続を開く: 1 つまたは複数のコンピューティング ノードへのリモート デスクトップ セッションを開きます。
ノード操作の監視
最近または進行中のクラスター操作の追跡は、クラスターの管理に不可欠なもう 1 つの監視側面です。 詳細については、以下を参照してください:
ノードの状態、正常性、および操作の について
操作ログ を読み取る
ノード、ジョブ、操作、診断の間で監視情報を関連付ける
HPC ジョブ マネージャーでは、Pivot To アクションを使用して、ノード、ジョブ、操作、および診断の間で監視情報を関連付けることができます。 たとえば、ビュー ペインで 1 つ以上のノードを選択し、[選択したノード]の [
サポートされているピボット パスは次のとおりです。
ノード: ジョブ、テスト結果、操作にピボット。
ジョブ: ノードへのピボット。
テスト結果: 失敗したノードへのピボットと操作。
クラスターの使用状況と統計を経時的に監視する
HPC Cluster Manager には、クラスター リソースの使用状況とジョブとノードの統計を経時的に監視および分析するための組み込みのグラフとレポートがいくつか用意されています。 HPCReporting データベースでは、カスタム レポートもサポートされています。 詳細については、「グラフとレポート: HPC Cluster Manager」を参照してください。
このセクションの内容
ノードの状態、正常性、および操作の について
ノード の表示
操作ログ を読み取る
ノード イベント の表示を
する HPC Cluster Manager からノードへのリモート デスクトップ接続を開く