カスタムコンテナーを使用してモデルをオンラインエンドポイントにデプロイする

2025-05-08

適用対象:Azure CLI ml extension v2 (現行)Python SDK azure-ai-ml v2 (現行)

Azure Machine Learning では、カスタムコンテナーを使用してモデルをオンラインエンドポイントにデプロイできます。カスタムコンテナーデプロイでは、Azure Machine Learning で使用される既定の Python Flask サーバー以外の Web サーバーを使用できます。

カスタムデプロイを使用すると、次のことができます。

TensorFlow Serving (TF Serving)、TorchServe、Triton Inference Server、Plumber R パッケージ、Azure Machine Learning 推論の最小イメージなど、さまざまなツールとテクノロジを使用します。
引き続き、Azure Machine Learning が提供する組み込みの監視、スケーリング、アラート、認証を活用します。

この記事では、TF サービスイメージを使用して TensorFlow モデルを提供する方法について説明します。

前提条件

Azure Machine Learning ワークスペース。ワークスペースを作成する手順については、「ワークスペースの作成」を参照してください。
Azure CLI と ml 拡張機能または Azure Machine Learning Python SDK v2:
- Azure CLI
- Python SDK
Azure CLI と ml 拡張機能をインストールするには、 CLI のインストールと設定 (v2) に関するページを参照してください。

この記事の例では、Bash シェルまたは互換性のあるシェルを使用することを前提としています。たとえば、Linux システム上のシェルや Linux 用 Windows サブシステムを使用できます。
Python SDK v2 をインストールするには、次のコマンドを使用します。
```
pip install azure-ai-ml azure-identity
```
SDK の既存のインストールを最新バージョンに更新するには、次のコマンドを使用します。
```
pip install --upgrade azure-ai-ml azure-identity
```
詳細については、「 Python 用 Azure Machine Learning パッケージクライアントライブラリ」を参照してください。

ワークスペースを含み、自分またはサービスプリンシパルが共同作成者アクセス権を持つ Azure リソースグループ。ワークスペースを作成してワークスペースを構成する手順を使用する場合は、この要件を満たします。
Docker エンジン。ローカルにインストールされ、実行されています。この前提条件を 強くお勧めします。モデルをローカルにデプロイするために必要であり、デバッグに役立ちます。

配置例

次の表に、カスタムコンテナーを使用し、さまざまなツールとテクノロジを利用するデプロイ例を示します。

例	Azure CLI スクリプト	説明
minimal/multimodel	deploy-custom-container-minimal-multimodel	Azure Machine Learning 推論の最小イメージを拡張することで、複数のモデルを 1 つのデプロイにデプロイします。
minimal/single-model	カスタムコンテナの最小限の単一モデルをデプロイ	Azure Machine Learning 推論の最小イメージを拡張して、1 つのモデルをデプロイします。
mlflow/multideployment-scikit	deploy-custom-container-mlflow-multideployment-scikit	異なる Python 要件を持つ 2 つの MLFlow モデルを、1 つのエンドポイントの背後にある 2 つの個別のデプロイにデプロイします。 Azure Machine Learning 推論の最小イメージを使用します。
r/multimodel-plumber	deploy-custom-container-r-multimodel-plumber	3 つの回帰モデルを 1 つのエンドポイントにデプロイします。 Plumber R パッケージを使用します。
tfserving/half-plus-two	deploy-custom-container-tfserving-half-plus-two	TF Serving カスタムコンテナーを使用して、Half Plus Two モデルをデプロイします。標準モデル登録プロセスを使用します。
tfserving/half-plus-two-integrated	deploy-custom-container-tfserving-half-plus-two-integrated	イメージに統合されたモデルと共に TF Serving カスタムコンテナーを使用して、Half Plus 2 モデルをデプロイします。
torchserve/densenet	deploy-custom-container-torchserve-densenet	TorchServe カスタムコンテナーを使用して 1 つのモデルをデプロイします。
triton/single-model	カスタムコンテナをデプロイ-トリトン-シングルモデル	カスタムコンテナーを使用して Triton モデルをデプロイします。

この記事では、tfserving/half-plus-2 の例を使用する方法について説明します。

警告

Microsoft サポートチームは、カスタムイメージによって発生する問題のトラブルシューティングを支援できない場合があります。問題が発生した場合は、既定のイメージまたは Microsoft が提供するイメージの 1 つを使用して、問題がイメージに固有であるかどうかを確認するように求められる場合があります。

ソースコードをダウンロードする

この記事の手順では、 azureml-examples リポジトリのコードサンプルを使用します。次のコマンドを使用して、リポジトリをクローンします。

Azure CLI
Python SDK

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/cli

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/cli

サンプルリポジトリでは、ほとんどの Python サンプルは sdk/python フォルダーの下にあります。この記事では、代わりに cli フォルダーに移動します。 cli フォルダーの下のフォルダー構造は、この場合の sdk/python 構造とは若干異なります。この記事のほとんどの手順では、cli 構造が必要です。

手順の例に従う場合は、サンプルリポジトリの Jupyter ノートブックを参照してください。ただし、そのノートブックの次のセクションでは、手順は cli フォルダーではなく azureml-examples/sdk/python フォルダーから実行されます。

1. ローカルでテストする
1. サンプルデータを使用してエンドポイントをテストする

環境変数を初期化する

TensorFlow モデルを使用するには、いくつかの環境変数が必要です。次のコマンドを実行して、これらの変数を定義します。

BASE_PATH=endpoints/online/custom-container/tfserving/half-plus-two
AML_MODEL_NAME=tfserving-mounted
MODEL_NAME=half_plus_two
MODEL_BASE_PATH=/var/azureml-app/azureml-models/$AML_MODEL_NAME/1

TensorFlow モデルをダウンロードする

入力値を 2 で除算し、結果に 2 を追加するモデルをダウンロードして解凍します。

wget https://aka.ms/half_plus_two-model -O $BASE_PATH/half_plus_two.tar.gz
tar -xvf $BASE_PATH/half_plus_two.tar.gz -C $BASE_PATH

TF サービスイメージをローカルでテストする

Docker を使用して、テスト用にイメージをローカルで実行します。

docker run --rm -d -v $PWD/$BASE_PATH:$MODEL_BASE_PATH -p 8501:8501 \
 -e MODEL_BASE_PATH=$MODEL_BASE_PATH -e MODEL_NAME=$MODEL_NAME \
 --name="tfserving-test" docker.io/tensorflow/serving:latest
sleep 10

イメージに対してライブネス要求とスコアリング要求を送信する

コンテナー内のプロセスが実行されていることを確認するライブネス要求を送信します。応答状態コード 200 OK が表示されます。

curl -v http://localhost:8501/v1/models/$MODEL_NAME

スコアリング要求を送信して、ラベル付けされていないデータに関する予測を取得できることを確認します。

curl --header "Content-Type: application/json" \
  --request POST \
  --data @$BASE_PATH/sample_request.json \
  http://localhost:8501/v1/models/$MODEL_NAME:predict

イメージを停止する

ローカルでのテストが完了したら、イメージを停止します。

docker stop tfserving-test

オンラインエンドポイントを Azure にデプロイする

オンラインエンドポイントを Azure にデプロイするには、次のセクションの手順を実行します。

Azure CLI
Python SDK

エンドポイントとデプロイ用の YAML ファイルを作成する

YAML を使用してクラウドデプロイを構成できます。たとえば、エンドポイントを構成するには、次の行を含む tfserving-endpoint.yml という名前の YAML ファイルを作成できます。

$schema: https://azuremlsdk2.blob.core.windows.net/latest/managedOnlineEndpoint.schema.json
name: tfserving-endpoint
auth_mode: aml_token

デプロイを構成するには、次の行を含む tfserving-deployment.yml という名前の YAML ファイルを作成します。

$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineDeployment.schema.json
name: tfserving-deployment
endpoint_name: tfserving-endpoint
model:
  name: tfserving-mounted
  version: <model-version>
  path: ./half_plus_two
environment_variables:
  MODEL_BASE_PATH: /var/azureml-app/azureml-models/tfserving-mounted/<model-version>
  MODEL_NAME: half_plus_two
environment:
  #name: tfserving
  #version: 1
  image: docker.io/tensorflow/serving:latest
  inference_config:
    liveness_route:
      port: 8501
      path: /v1/models/half_plus_two
    readiness_route:
      port: 8501
      path: /v1/models/half_plus_two
    scoring_route:
      port: 8501
      path: /v1/models/half_plus_two:predict
instance_type: Standard_DS3_v2
instance_count: 1

Azure Machine Learning ワークスペースに接続する

Azure Machine Learning ワークスペースを構成するには、次の手順を実行します。

必要なライブラリをインポートします。

# Import the required libraries.
from azure.ai.ml import MLClient
from azure.ai.ml.entities import (
   ManagedOnlineEndpoint,
   ManagedOnlineDeployment,
   Model,
   Environment,
   CodeConfiguration,
)
from azure.identity import DefaultAzureCredential

ワークスペース設定を構成し、ワークスペースへのハンドルを取得します。

# Enter information about your Azure Machine Learning workspace.
subscription_id = "<subscription-ID>"
resource_group = "<resource-group-name>"
workspace = "<Azure-Machine-Learning-workspace-name>"

# Get a handle to the workspace.
ml_client = MLClient(
  DefaultAzureCredential(), subscription_id, resource_group, workspace
)

詳細については、「オンラインエンドポイントを使用して機械学習モデルをデプロイおよびスコア付けする」を参照してください。

オンラインエンドポイントを構成する

オンラインエンドポイントを構成するには、次のコードを使用します。次の点に注意してください。

エンドポイントの名前は、その Azure リージョンで一意である必要があります。また、エンドポイント名は文字で始まる必要があり、英数字とハイフンのみで構成されます。名前付け規則の詳細については、 Azure Machine Learning オンラインエンドポイントとバッチエンドポイントに関するページを参照してください。
auth_mode値には、キーベースの認証にkeyを使用します。 Azure Machine Learning のトークンベースの認証に aml_token を使用します。キーには有効期限がありませんが、トークンには有効期限があります。認証の詳細については、「オンラインエンドポイントのクライアントを認証する」を参照してください。
説明とタグは省略可能です。

# To create a unique endpoint name, use a time stamp of the current date and time.
import datetime

online_endpoint_name = "endpoint-" + datetime.datetime.now().strftime("%m%d%H%M%f")

# Configure an online endpoint.
endpoint = ManagedOnlineEndpoint(
    name=online_endpoint_name,
    description="A sample online endpoint",
    auth_mode="key",
    tags={"env": "dev"},
)

オンライン展開を構成する

デプロイは、実際の推論を行うモデルをホストするために必要なリソースのセットです。 ManagedOnlineDeployment クラスを使用して、エンドポイントのデプロイを構成できます。そのクラスのコンストラクターは、次のパラメーターを使用します。

name: デプロイの名前。
endpoint_name: デプロイを作成するエンドポイントの名前。
model: デプロイに使用するモデル。この値は、ワークスペース内の既存のバージョン管理されたモデルへの参照またはインラインモデルの仕様のいずれかです。
environment: デプロイに使用する環境。この値は、ワークスペース内の既存のバージョン管理された環境への参照、またはインライン環境仕様のいずれかになります。
environment_variables: デプロイ時に設定される環境変数。
- MODEL_BASE_PATH: モデルのフォルダーを含む親フォルダーへのパス。
- MODEL_NAME: モデルの名前。
instance_type: デプロイに使用する仮想マシンのサイズ。サポートされているサイズの一覧については、マネージドオンラインエンドポイント SKU の一覧を参照してください。
instance_count: デプロイに使用するインスタンスの数。

エンドポイントのデプロイを構成するには、次のコードを使用します。

# create a blue deployment
model = Model(name="tfserving-mounted", version="1", path="half_plus_two")

env = Environment(
    image="docker.io/tensorflow/serving:latest",
    inference_config={
        "liveness_route": {"port": 8501, "path": "/v1/models/half_plus_two"},
        "readiness_route": {"port": 8501, "path": "/v1/models/half_plus_two"},
        "scoring_route": {"port": 8501, "path": "/v1/models/half_plus_two:predict"},
    },
)

blue_deployment = ManagedOnlineDeployment(
    name="blue",
    endpoint_name=online_endpoint_name,
    model=model,
    environment=env,
    environment_variables={
        "MODEL_BASE_PATH": "/var/azureml-app/azureml-models/tfserving-mounted/1",
        "MODEL_NAME": "half_plus_two",
    },
    instance_type="Standard_DS2_v2",
    instance_count=1,
)

以降のセクションでは、YAML パラメーターと Python パラメーターに関する重要な概念について説明します。

ベースイメージ

YAML の environment セクション、または Python の Environment コンストラクターでは、基本イメージをパラメーターとして指定します。この例では、image値としてdocker.io/tensorflow/serving:latestを使用します。

コンテナーを検査すると、このサーバーが ENTRYPOINT コマンドを使用してエントリポイントスクリプトを開始していることがわかります。このスクリプトは、 MODEL_BASE_PATH や MODEL_NAMEなどの環境変数を受け取り、 8501などのポートを公開します。これらの詳細はすべてこのサーバーに関連しており、この情報を使用してデプロイを定義する方法を決定できます。たとえば、展開定義で MODEL_BASE_PATH 環境変数と MODEL_NAME 環境変数を設定した場合、TF Serving はこれらの値を使用してサーバーを開始します。同様に、展開定義で各ルートのポートを 8501 に設定すると、それらのルートへのユーザー要求が TF サービスサーバーに正しくルーティングされます。

この例は、TF サービスケースに基づいています。ただし、稼働状態を維持し、liveness、readiness、スコアリングルートに移動する要求に応答する、任意のコンテナーを使用できます。 Dockerfile を形成してコンテナーを作成する方法については、他の例を参照してください。一部のサーバーでは、ENTRYPOINT命令の代わりにCMD命令が使用されます。

inference_config パラメーター

environment セクションまたは Environment クラスでは、inference_configはパラメーターです。これは、3 種類のルート (liveness、readiness、スコアリングルート) のポートとパスを指定します。マネージドオンラインエンドポイントで独自のコンテナーを実行する場合は、 inference_config パラメーターが必要です。

readiness ルートと liveness ルート

一部の API サーバーには、サーバーの状態を確認する方法が用意されています。状態を確認するために指定できるルートには、次の 2 種類があります。

ライブネス ルート: サーバーが実行されているかどうかを確認するには、liveness ルートを使用します。
準備ルート: サーバーが動作する準備ができているかどうかを確認するには、準備ルートを使用します。

機械学習推論のコンテキストでは、モデルを読み込む前に、サーバーが状態コード 200 OK でライブネス要求に応答する場合があります。サーバーは、モデルをメモリに読み込んだ後にのみ、状態コード 200 OK で準備要求に応答する場合があります。

liveness および readiness probe の詳細については、liveness、readiness、startup probe の構成を参照してください。

選択した API サーバーによって、ライブ性と準備のルートが決まります。コンテナーをローカルでテストするときは、前の手順でそのサーバーを識別します。この記事では、TF Serving はライブネスルートのみを定義するため、デプロイ例では、ライブネスルートと準備ルートに同じパスを使用します。ルートを定義するその他の方法については、他の例を参照してください。

スコアを獲得するルート

使用する API サーバーは、作業するペイロードを受け取る方法を提供します。機械学習推論のコンテキストでは、サーバーは特定のルートを介して入力データを受信します。前の手順でコンテナーをローカルでテストするときに、API サーバーのルートを特定します。作成するデプロイを定義するときに、そのルートをスコアリングルートとして指定します。

デプロイが正常に作成されると、エンドポイントの scoring_uri パラメーターも更新されます。この事実を確認するには、次のコマンドを実行します: az ml online-endpoint show -n <endpoint-name> --query scoring_uri。

マウントされたモデルを見つける

モデルをオンラインエンドポイントとしてデプロイすると、Azure Machine Learning によってモデルがエンドポイントに "マウント" されます。モデルがマウントされると、新しい Docker イメージを作成しなくても、新しいバージョンのモデルをデプロイできます。既定では、 my-model とバージョン 1 という名前で登録されたモデルは、デプロイされたコンテナー内のパス /var/azureml-app/azureml-models/my-model/1 にあります。

たとえば、次の設定を考えてみましょう。

ローカルコンピューターにおける /azureml-examples/cli/endpoints/online/custom-container のディレクトリ構造
モデル名はhalf_plus_twoです

ローカルディレクトリ構造のツリービューを示すスクリーンショット。/azureml-examples/cli/endpoints/online/custom-container パスが表示されます。

Azure CLI
Python SDK

tfserving-deployment.yml ファイルの model セクションに次の行が含まれているとします。このセクションでは、 name 値は、Azure Machine Learning にモデルを登録するために使用する名前を参照します。

model:
    name: tfserving-mounted
    version: 1
    path: ./half_plus_two

次のコードを使用して、 Model クラスを作成するとします。このコードでは、 name 値は、Azure Machine Learning にモデルを登録するために使用する名前を参照します。

model = Model(name="tfserving-mounted", version="1", path="half_plus_two")

この場合、デプロイを作成すると、モデルは /var/azureml-app/azureml-models/tfserving-mounted/1 フォルダーの下にあります。

デプロイディレクトリ構造のツリービューを示すスクリーンショット。var/azureml-app/azureml-models/tfserving-mounted/1 パスが表示されます。

必要に応じて、 model_mount_path 値を構成できます。この設定を調整することで、モデルをマウントするパスを変更できます。

重要

model_mount_path値は、Linux (コンテナーイメージの OS) の有効な絶対パスである必要があります。

model_mount_pathの値を変更する場合は、MODEL_BASE_PATH環境変数も更新する必要があります。ベースパスが見つからないというエラーが原因でデプロイが失敗しないように、 MODEL_BASE_PATH を model_mount_path と同じ値に設定します。

Azure CLI
Python SDK

たとえば、tfserving-deployment.yml ファイルに model_mount_path パラメーターを追加できます。そのファイルの MODEL_BASE_PATH 値を更新することもできます。

name: tfserving-deployment
endpoint_name: tfserving-endpoint
model:
  name: tfserving-mounted
  version: 1
  path: ./half_plus_two
model_mount_path: /var/tfserving-model-mount
environment_variables:
  MODEL_BASE_PATH: /var/tfserving-model-mount
...

たとえば、ManagedOnlineDeployment クラスに model_mount_path パラメーターを追加できます。そのコードの MODEL_BASE_PATH 値を更新することもできます。

blue_deployment = ManagedOnlineDeployment(
    name="blue",
    endpoint_name=online_endpoint_name,
    model=model,
    environment=env,
    model_mount_path="/var/tfserving-model-mount",
    environment_variables={
        "MODEL_BASE_PATH": "/var/tfserving-model-mount",
    ...
)

デプロイでは、モデルは /var/tfserving-model-mount/tfserving-mounted/1 にあります。 azureml-app/azureml-models ではなく、ご自分で指定したマウントパスの下に配置されます。

デプロイディレクトリ構造のツリービューを示すスクリーンショット。/var/tfserving-model-mount/tfserving-mounted/1 パスが表示されます。

YAML ファイルを作成したら、次のコマンドを使用してエンドポイントを作成します。

az ml online-endpoint create --name tfserving-endpoint -f endpoints/online/custom-container/tfserving/half-plus-two/tfserving-endpoint.yml

次のコマンドを使用してデプロイを作成します。この手順は数分実行される場合があります。

az ml online-deployment create --name tfserving-deployment -f endpoints/online/custom-container/tfserving/half-plus-two/tfserving-deployment.yml --all-traffic

ワークスペースにエンドポイントを作成するには、次のコードを使用します。このコードでは、前に作成した MLClient のインスタンスを使用します。 begin_create_or_update メソッドは、エンドポイントの作成を開始します。その後、エンドポイントの作成が続行されている間に確認応答が返されます。

ml_client.begin_create_or_update(endpoint)

次のコードを実行してデプロイを作成します。

ml_client.begin_create_or_update(blue_deployment)

エンドポイントを呼び出す

デプロイが完了したら、デプロイされたエンドポイントにスコアリング要求を行います。

Azure CLI
Python SDK

RESPONSE=$(az ml online-endpoint invoke -n $ENDPOINT_NAME --request-file $BASE_PATH/sample_request.json)

前に作成した MLClient のインスタンスを使用して、エンドポイントへのハンドルを取得します。次に、 invoke メソッドと次のパラメーターを使用してエンドポイントを呼び出します。

endpoint_name: エンドポイントの名前
request_file: 要求データを含むファイル
deployment_name: エンドポイントでテストするデプロイの名前

要求データには、サンプルリポジトリのサンプル JSON ファイルを使用できます。

# Test the blue deployment by using some sample data.
response = ml_client.online_endpoints.invoke(
    endpoint_name=online_endpoint_name,
    deployment_name="blue",
    request_file="sample_request.json",
)

エンティティを削除する

エンドポイントが不要になった場合は、次のコマンドを実行して削除します。

Azure CLI
Python SDK

az ml online-endpoint delete --name tfserving-endpoint

ml_client.online_endpoints.begin_delete(name=online_endpoint_name)

次の方法で共有

カスタム コンテナーを使用してモデルをオンライン エンドポイントにデプロイする