Azure Machine Learning コンピューティングインスタンスを管理する

2024-09-03

適用対象:Azure CLI ml extension v2 (現行)Python SDK azure-ai-ml v2 (現行)

Azure Machine Learning ワークスペースでコンピューティングインスタンスを管理する方法について説明します。

コンピューティングインスタンスは、クラウド内で完全に構成され管理される自分の開発環境として使用します。開発とテストの場合、このインスタンスをトレーニングコンピューティングターゲットとして使うこともできます。コンピューティングインスタンスは複数のジョブを並列に実行でき、ジョブキューを備えています。開発環境であるため、コンピューティングインスタンスをワークスペース内の他のユーザーと共有することはできません。

この記事では、コンピューティングインスタンスを開始、停止、再起動、削除する方法について説明します。コンピューティングインスタンスを作成する方法については、「Azure Machine Learning コンピューティングインスタンスを作成する」をご覧ください。

注

この記事では、以下のセクションで CLI v2 について説明します。 CLI v1 をまだ使っている場合は、Azure Machine Learning コンピューティングクラスター CLI v1 の作成に関するページを参照してください。

前提条件

Azure Machine Learning ワークスペース。詳細については、Azure Machine Learning ワークスペースの管理に関するページを参照してください。

コンピューティングインスタンスの適切な管理方法に基づいて、前提条件の残りの部分に適したタブを選択します。

Python SDK
Azure CLI
[スタジオ](#tab/azure-studio)

コンピューティングインスタンスでコードを実行していない場合は、Azure Machine Learning Python SDK をインストールします。この SDK は、コンピューティングインスタンスに既にインストールされています。
Python スクリプトのワークスペースにアタッチします。

このコードを実行して Azure Machine Learning ワークスペースに接続します。

次のコードで、サブスクリプション ID、リソースグループ名、ワークスペース名を置き換えます。これらの値を見つけるには:
1. Azure Machine Learning Studio にサインインします。
2. 使用するワークスペースを開きます。
3. 右上の Azure Machine Learning スタジオツールバーで、ワークスペース名を選びます。
4. ワークスペース、リソースグループ、サブスクリプション ID の値をコードにコピーします。
適用対象: Python SDK azure-ai-ml v2 (現行)
```
# Enter details of your AML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"
```
```
# get a handle to the workspace
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)
```
ml_client は、他のリソースやジョブの管理に使うワークスペースに対するハンドラーです。

コンピューティングインスタンスでこれらのコマンドを実行していない場合は、Azure CLI extension for Machine Learning service (v2) をインストールします。この拡張機能は、コンピューティングインスタンスに既にインストールされています。
既定のワークスペースとリソースグループを認証して設定します。ターミナルを開いたまま、この記事の残りのコマンドを実行します。
- コンピューティングインスタンスを使用している場合:
```
az login --identity
# next line needed only if you have multiple subscriptions:
az account set --subscription "<SUBSCRIPTION-NAME>" # replace with your subscription name
az configure --defaults group=$CI_RESOURCE_GROUP workspace=$CI_WORKSPACE
```
- コマンドをローカルで実行している場合は、--identity を省略して認証の指示に従います。 $CI_RESOURCE_GROUP と $CI_WORKSPACE を独自の値で置き換えます。

注

Azure Machine Learning ワークスペースとは異なるリソースグループにある仮想ネットワーク (VNet) を構成する場合は、ネットワークセキュリティグループ (NSG)、パブリック IP、ロードバランサーなどのリソースが VNet と同じリソースグループに作成されることに注意してください。この動作により、適切なネットワーク管理と分離が保証されます。

管理する

コンピューティングインスタンスを開始、停止、再起動、削除します。コンピューティングインスタンスは常に自動的にスケールダウンするとは限らないため、課金が継続されないように必ずリソースを停止してください。コンピューティングインスタンスを停止すると、そのインスタンスは解放されます。その後、必要なときにもう一度開始します。コンピューティングインスタンスを停止するとコンピューティング時間の課金は停止されますが、ディスク、パブリック IP、Standard Load Balancer に対しては引き続き課金されます。

自動シャットダウンを有効にして、指定した時間後にコンピューティングインスタンスを自動的に停止することができます。

コンピューティングインスタンスが時刻と曜日に基づいて自動的に開始および停止するようにスケジュールを作成することもできます。

ヒント

コンピューティングインスタンスには 120 GB の OS ディスクがあります。ディスク領域が不足する場合は、コンピューティングインスタンスを停止または再起動する前に、ターミナルを使用して少なくとも 5 GB をクリアしてください。コンピューティングインスタンスは、sudo シャットダウンをターミナルから発行して停止しないでください。コンピューティングインスタンスの一時ディスクサイズは、選択した VM サイズによって異なります。これは /mnt にマウントされます。

Python SDK
Azure CLI
[スタジオ](#tab/azure-studio)

適用対象: Python SDK azure-ai-ml v2 (現行)

これらの例では、コンピューティングインスタンスの名前は変数 ci_basic_name に格納されています。

状態を取得する

from azure.ai.ml.entities import ComputeInstance, AmlCompute

# Get compute
ci_basic_state = ml_client.compute.get(ci_basic_name)

止まれ

from azure.ai.ml.entities import ComputeInstance, AmlCompute

# Stop compute
ml_client.compute.begin_stop(ci_basic_name).wait()

[開始]

from azure.ai.ml.entities import ComputeInstance, AmlCompute

# Start compute
ml_client.compute.begin_start(ci_basic_name).wait()

やり直し

from azure.ai.ml.entities import ComputeInstance, AmlCompute

# Restart compute
ml_client.compute.begin_restart(ci_basic_name).wait()

削除

from azure.ai.ml.entities import ComputeInstance, AmlCompute

ml_client.compute.begin_delete(ci_basic_name).wait()

適用対象:Azure CLI ml 拡張機能 v2 (現行)

これらの例では、コンピューティングインスタンスの名前は instance になります。

止まれ
```
az ml compute stop --name instance 
```
[開始]
```
az ml compute start --name instance 
```
やり直し
```
az ml compute restart --name instance 
```
削除
```
az ml compute delete --name instance 
```

Azure Machine Learning スタジオのワークスペースで、[コンピューティング] を選んでから、上部にある [コンピューティングインスタンス] を選びます。

次の操作を行うことができます。

新しいコンピューティングインスタンスの作成
コンピューティングインスタンスタブを更新する。
コンピューティングインスタンスを開始、停止、再起動する。インスタンスは、実行されるたびに支払いが発生します。コンピューティングインスタンスを使用していないときは、停止してコストを削減します。コンピューティングインスタンスを停止すると、そのインスタンスは解放されます。その後、必要なときにもう一度開始します。コンピューティングインスタンスが開始および停止される時刻をスケジュールすることもできます。
コンピューティングインスタンスを削除する。
コンピューティングインスタンスのリストをフィルター処理して、作成したもののみを表示します。

ワークスペース内で作成した (または作成してもらった) 各コンピューティングインスタンスに対しては、次のことを行うことができます。

コンピューティングインスタンス上の Jupyter、JupyterLab、RStudio にアクセスする。
コンピューティングインスタンスに SSH 接続する。 SSH アクセスは既定で無効になっていますが、コンピューティングインスタンスの作成時に有効にすることができます。 SSH アクセスは、公開/秘密キーのメカニズムを通じて実行されます。このタブには、SSH 接続の詳細が表示されます (IP アドレス、ユーザー名、ポート番号など)。仮想ネットワークのデプロイでは、SSH を無効にすると、パブリックインターネットからの SSH アクセスが禁止されます。コンピューティングインスタンスノードとポート 22 のプライベート IP アドレスを使用して、仮想ネットワーク内から SSH 接続できます。

ヒント

コンピューティングインスタンスがマネージド仮想ネットワーク内にあり、パブリック IP アドレスが無効になっている場合は、az ml compute connect-ssh コマンドを使用してコンピューティングインスタンスに接続します。
次のためのコンピューティング名を選択します。
- 特定のコンピューティングインスタンスに関する詳細 (IP アドレス、リージョンなど) を表示します。
- コンピューティングインスタンスを開始および停止するスケジュールを作成または変更します。ページの下部までスクロールして、スケジュールを編集します。

注意事項

Machine Learning ワークスペースを含むリソースグループ、または仮想ネットワークを構成した別のリソースグループに、"削除" や "読み取り専用" などのリソースロックを適用すると、これらのインスタンスの作成、サイズ変更、削除などの操作を防ぐことができます。意図しない中断を回避するために、リソースロックが適切に構成されていることを確かめてください。

Azure RBAC を使用すると、ワークスペース内のどのユーザーにコンピューティングインスタンスの作成、削除、開始、停止、再起動を許可するかを制御できます。ワークスペースの共同作成者および所有者ロール内のユーザーはすべて、ワークスペース全体でコンピューティングインスタンスを作成、削除、開始、停止、および再起動することができます。ただし、特定のコンピューティングインスタンスの作成者、またはその作成者に代わって作成された場合は割り当てられたユーザーのみが、そのコンピューティングインスタンス上の Jupyter、JupyterLab、および RStudio にアクセスすることが許可されます。コンピューティングインスタンスは、ルートアクセス権を持つ 1 人のユーザー専用です。そのユーザーは、インスタンスで実行されている Jupyter、JupyterLab、RStudio にアクセスできます。コンピューティングインスタンスには、シングルユーザーサインインが用意され、すべてのアクションで、そのユーザーの ID が Azure RBAC と実験ジョブの属性に使われます。 SSH アクセスは、公開/秘密キーのメカニズムを通じて制御されます。

Azure RBAC によって、次のアクションを制御できます。

Microsoft.MachineLearningServices/workspaces/computes/read
Microsoft.MachineLearningServices/workspaces/computes/write
Microsoft.MachineLearningServices/workspaces/computes/delete
Microsoft.MachineLearningServices/workspaces/computes/start/action
Microsoft.MachineLearningServices/workspaces/computes/stop/action
Microsoft.MachineLearningServices/workspaces/computes/restart/action
Microsoft.MachineLearningServices/workspaces/computes/updateSchedules/action

コンピューティングインスタンスを作成するには、以下のアクションを実行するためのアクセス許可が必要です。

Microsoft.MachineLearningServices/workspaces/computes/write
Microsoft.MachineLearningServices/workspaces/checkComputeNameAvailability/action

コンピューティングインスタンスのバージョンの監査と監視

コンピューティングインスタンスがデプロイされると、自動更新されることはありません。 Microsoft リリースは、毎月新しい VM イメージをリリースします。最新バージョンを使用して最新の状態を維持するためのオプションについては、脆弱性の管理に関するページを参照してください。

インスタンスのオペレーティングシステムのバージョンが最新かどうかを追跡するには、CLI、SDK または Studio の UI を使用して、そのバージョンをクエリで照会できます。

Python SDK
Azure CLI
[スタジオ](#tab/azure-studio)

適用対象: Python SDK azure-ai-ml v2 (現行)

from azure.ai.ml.entities import ComputeInstance, AmlCompute

# Display operating system version
instance = ml_client.compute.get("myci")
print instance.os_image_metadata

この例で使われているクラス、メソッド、パラメーターの詳細については、次のリファレンスドキュメントをご覧ください。

適用対象:Azure CLI ml 拡張機能 v2 (現行)

az ml compute show --name "myci"

# query outdated compute instances:
az ml compute list --query "[?os_image_metadata.is_latest_os_image_version == ``false``].name"

IT 管理者は Azure Policy を使用して、Azure Policy コンプライアンスポータルでワークスペース全体のインスタンスのインベントリを監視できます。 Azure サブスクリプションまたは Azure 管理グループスコープに、組み込みのポリシー Audit Azure Machine Learning Compute Instances with an outdated operating system を割り当てます。

次の方法で共有

Azure Machine Learning コンピューティング インスタンスを管理する

前提条件

管理する

コンピューティング インスタンスのバージョンの監査と監視

次のステップ

フィードバック

その他のリソース

Azure Machine Learning コンピューティングインスタンスを管理する

コンピューティングインスタンスのバージョンの監査と監視