ジョブ管理では、クラスターに送信されたジョブを監視および管理できます。 ジョブ一覧の各行はジョブを表し、列にはジョブのプロパティ、ジョブの状態、メトリック値が表示されます。 ジョブ一覧には、ジョブの詳細をドリルダウンし、1 つ以上のジョブに対してアクションを実行するための開始点が用意されています。
ジョブ キューの順序は、ジョブの優先度レベルと送信時刻に基づいています。 優先順位の高いジョブは、優先順位の低いジョブの前に実行されます。 ジョブの送信時間によって、各優先度レベル内の順序が決まります。 ジョブ キューの順序を調整するには、次の方法があります。
ジョブ テンプレート 作成、さまざまな種類のジョブまたは異なるユーザー セットの有効な優先度範囲を定義します。
送信されたジョブの優先順位を変更して、ジョブ キューの順序を変更する。 優先度 は、優先度バンド、優先度番号、または 2 つの組み合わせで指定できます。 数値の優先順位には、0 (最下位) から 4000 (最高) までの値を指定できます。
このトピックでは、クラスター ジョブを管理および監視する方法の概要について説明します。
ジョブ スケジュール ポリシーの構成
ジョブ送信ポリシー: ジョブ テンプレートは、クラスターのカスタム ジョブ送信ポリシーを定義するための主要な方法です。 ジョブ テンプレートを使用すると、ジョブ プロパティの一連の既定値と値制約 (優先度レベルなど) を特定のユーザー セットに関連付けることができます。 詳細については、「ジョブ テンプレートのを
リソース割り当てポリシー: ジョブ スケジューラの構成によって、キューに登録されたジョブにリソースを割り当てる方法が決まります。 HPC ジョブ スケジューラ サービスを構成するときに、スケジュール ポリシー (バランスモードまたはキューモード、プリエンプションとバックフィルなど)、エラー処理、ジョブ履歴オプションを設定できます。 詳細については、「HPC ジョブ スケジューラ サービスの構成」を参照してください。
高度なポリシー適用とライセンス対応のスケジュール設定: カスタム ジョブ送信フィルターとジョブ アクティブ化フィルターを作成することで、サイト固有のジョブ送信ポリシーとジョブ アクティブ化ポリシー (ライセンス対応のスケジュール設定など) を適用できます。 詳細については、「アクティブ化フィルターと送信フィルターについて」を参照してください。
ジョブとタスクの表示
ジョブの監視: ジョブの一覧には、クラスター内のジョブに関する情報が表示されます。 リストをフィルター処理して並べ替え、一覧に表示するジョブ のプロパティとメトリック値を選択できます。 詳細については、「ジョブ リストのフィルター処理と並べ替えを
ジョブの詳細にドリルインする: 一覧でジョブをクリックすると、そのジョブに関する詳細情報が 詳細ウィンドウに表示されます。 ジョブとタスクの結果を表示することもできます。 詳細については、「ジョブまたはタスクを表示する」を参照してください。
時間の経過と同時にジョブの統計情報を追跡する: HPC クラスター マネージャーには、クラスターのジョブ統計を追跡するためのいくつかのグラフとレポートが用意されています。 詳細については、「グラフとレポート: HPC Cluster Manager」を参照してください。
ジョブアクションとタスクアクションの実行
クラスター管理者またはジョブ所有者は、次のアクションを実行できます。
ジョブまたはタスクのを取り消す: キューからジョブまたはタスクを削除し、そのリソースを解放します。
ジョブまたはタスクを強制的に取り消す: ジョブまたはタスクを直ちに停止します。
ジョブまたはタスクのを再キューする: 未完了のジョブまたはタスクをキューに戻します。
ジョブの変更: ジョブのプロパティ (優先度レベルなど) を変更するか、アクティブなジョブにタスクを追加します。
ジョブの除外されたノードの設定とクリア: 特定のノードでタスクが一貫して失敗する場合は、そのノードを 1 つ以上のジョブから除外できます。 ノードの問題を解決する場合は、アクティブなジョブの Excluded Nodes プロパティからそのノードをクリアできます。
進行状況メッセージ ジョブのプロパティを設定: ジョブに関するカスタムの進行状況情報を提供します。
ジョブまたはタスクのをコピーする: as-is、または変更を加えた状態でジョブを再実行します。
ジョブまたはタスクをファイルに保存: ジョブまたはタスクの指定を XML 記述ファイルにエクスポートします。
このセクションの内容
ジョブまたはタスクの を表示する
ジョブまたはタスク を取り消す
ジョブまたはタスク を強制的に取り消す
ジョブまたはタスク を再キューに
する ジョブ を変更する
ジョブ の除外されたノードの
セットとクリア ジョブまたはタスク をコピーする
ジョブまたはタスクをファイル に保存する