カスタムモデルサービングエンドポイントを作成する

2025-04-30

この記事では、Databricks Model Serving を使用してカスタムモデルを提供するモデルサービスエンドポイントを作成する方法について説明します。

Model Serving には、提供エンドポイントの作成に関する次のオプションが用意されています。

提供 UI
REST API
MLflow デプロイ SDK

生成型 AI モデルを提供するエンドポイントの作成については、「エンドポイントにサービスを提供する基盤モデル作成する」を参照してください。

要件

ワークスペースは、サポートされているリージョンに存在する必要があります。
モデルでプライベートミラーサーバーのカスタムライブラリまたはライブラリを使用する場合は、モデルエンドポイントを作成する前に、「モデルサービスでカスタム Python ライブラリを使用する」を参照してください。
MLflow デプロイ SDK を使用してエンドポイントを作成するには、MLflow デプロイクライアントをインストールする必要があります。インストールするには、以下を実行します。

import mlflow.deployments

client = mlflow.deployments.get_deploy_client("databricks")

アクセス制御

エンドポイント管理用のモデルサービスエンドポイントのアクセス制御オプションについては、「モデルサービスエンドポイントに対するアクセス許可の管理」を参照してください。

環境変数を追加して、モデル提供の資格情報を格納することもできます。モデルサービスエンドポイントからのリソースへのアクセスの構成を参照してください

エンドポイントの作成

提供 UI

サービス UI を使用してサービスを提供するモデルのエンドポイントを作成できます。

サイドバーで [Serving]\( サービス \) をクリックして、サービス UI を表示します。
[ サービスエンドポイントの作成] をクリックします。

ワークスペースモデルレジストリに登録されているモデル、または Unity Catalog 内のモデルの場合:

[ 名前 ] フィールドに、エンドポイントの名前を指定します。
[Served entities]\(提供されるエンティティ\) セクションで、次のようにします。
1. [エンティティ] フィールドをクリックして、[提供されたエンティティの選択] フォームを開きます。
2. 提供するモデルの種類を選択します。フォームは、選択内容に基づいて動的に更新されます。
3. 提供したいモデルとモデルのバージョンを選択します。
4. 提供されるモデルにルーティングするトラフィックの割合を選択します。
5. 使用するコンピューティングのサイズを選択します。ワークロードには CPU または GPU コンピューティングを使用できます。使用可能な GPU コンピューティングの詳細については、 GPU ワークロードの種類を参照してください。
6. 使用するコンピューティングのサイズを選択します。ワークロードには CPU または GPU コンピューティングを使用できます。使用可能な GPU コンピューティングの詳細については、 GPU ワークロードの種類を参照してください。
7. [ コンピューティングスケールアウト] で、このサービスモデルが同時に処理できる要求の数に対応するコンピューティングスケールアウトのサイズを選択します。この数値は、QPS にモデル実行時間を掛けた値とほぼ同じである必要があります。
  1. 使用可能なサイズは、0 から 4 要求の場合は Small 、 Medium 8 から 16 要求、16 から 64 要求の場合は Large です。
8. 使用しないときにエンドポイントをゼロにスケールダウンする必要があるかどうかを指定します。運用環境のエンドポイントでは、容量がゼロにスケーリングされると保証されないため、ゼロにスケーリングすることはお勧めしません。
9. [ 詳細設定] で、環境変数を追加してエンドポイントからリソースに接続したり、機能参照 DataFrame をエンドポイントの推論テーブルに記録したりできます。機能参照 DataFrame をログに記録するには、MLflow 2.14.0 以降が必要です。
[AI Gateway] セクションでは、エンドポイントで有効にするガバナンス機能を選択できます。モザイク AI ゲートウェイの概要を参照してください。
[ ルートの最適化 ] セクションでは、エンドポイントのルート最適化を有効にすることができます。サービスエンドポイントでのルートの最適化に関する説明を参照してください。
[ 作成] をクリックします。 [ サービスエンドポイント] ページが 表示され、 サービスエンドポイントの状態 が [準備ができていません] と表示されます。

REST API

REST API を使ってエンドポイントを作成できます。エンドポイント構成パラメーターについては、 POST /api/2.0/serving-endpoints を参照してください。

次の例では、Unity カタログモデルレジストリに登録されている ads1 モデルの最初のバージョンを提供するエンドポイントを作成します。 Unity Catalog からモデルを指定するには、catalog.schema.example-model などの親カタログとスキーマを含む完全なモデル名を指定します。


POST /api/2.0/serving-endpoints

{
  "name": "uc-model-endpoint",
  "config":
  {
    "served_entities": [
      {
        "name": "ads-entity"
        "entity_name": "catalog.schema.my-ads-model",
        "entity_version": "3",
        "workload_size": "Small",
        "scale_to_zero_enabled": true
      },
      {
        "entity_name": "catalog.schema.my-ads-model",
        "entity_version": "4",
        "workload_size": "Small",
        "scale_to_zero_enabled": true
      }
    ],
    "traffic_config":
    {
      "routes": [
        {
          "served_model_name": "my-ads-model-3",
          "traffic_percentage": 100
        },
        {
          "served_model_name": "my-ads-model-4",
          "traffic_percentage": 20
        }
      ]
    }
  },
  "tags": [
    {
      "key": "team",
      "value": "data science"
    }
  ]
}

応答の例を次に示します。エンドポイントの config_update 状態が NOT_UPDATING され、提供されるモデルは READY 状態です。

{
  "name": "uc-model-endpoint",
  "creator": "user@email.com",
  "creation_timestamp": 1700089637000,
  "last_updated_timestamp": 1700089760000,
  "state": {
    "ready": "READY",
    "config_update": "NOT_UPDATING"
  },
  "config": {
    "served_entities": [
      {
        "name": "ads-entity",
        "entity_name": "catalog.schema.my-ads-model-3",
        "entity_version": "3",
        "workload_size": "Small",
        "scale_to_zero_enabled": true,
        "workload_type": "CPU",
        "state": {
          "deployment": "DEPLOYMENT_READY",
          "deployment_state_message": ""
        },
        "creator": "user@email.com",
        "creation_timestamp": 1700089760000
      }
    ],
    "traffic_config": {
      "routes": [
        {
          "served_model_name": "catalog.schema.my-ads-model-3",
          "traffic_percentage": 100
        }
      ]
    },
    "config_version": 1
  },
  "tags": [
    {
      "key": "team",
      "value": "data science"
    }
  ],
  "id": "e3bd3e471d6045d6b75f384279e4b6ab",
  "permission_level": "CAN_MANAGE",
  "route_optimized": false
}

MLflow デプロイ SDK

MLflow デプロイには、作成、更新、削除のタスク用の API が用意されています。これらのタスクの API は、提供エンドポイントの REST API と同じパラメーターを受け取ります。エンドポイント構成パラメーターについては、 POST /api/2.0/serving-endpoints を参照してください。

次の例では、Unity カタログモデルレジストリに登録されている my-ads-model モデルの 3 番目のバージョンを提供するエンドポイントを作成します。親カタログやスキーマを含む完全なモデル名を指定する必要があります (例: catalog.schema.example-model)。


from mlflow.deployments import get_deploy_client

client = get_deploy_client("databricks")
endpoint = client.create_endpoint(
    name="unity-catalog-model-endpoint",
    config={
        "served_entities": [
            {
                "name": "ads-entity"
                "entity_name": "catalog.schema.my-ads-model",
                "entity_version": "3",
                "workload_size": "Small",
                "scale_to_zero_enabled": True
            }
        ],
        "traffic_config": {
            "routes": [
                {
                    "served_model_name": "my-ads-model-3",
                    "traffic_percentage": 100
                }
            ]
        }
    }
)

次のこともできます。

複数のモデルを提供するようにエンドポイントを構成します。
ルートの最適化のためにエンドポイントを構成します。
推論テーブルを有効にして、受信した要求と、エンドポイントを提供するモデルへの送信応答を自動的にキャプチャします。
エンドポイントで推論テーブルが有効になっている場合は、特徴参照 DataFrame を推論テーブルにログに記録できます。

GPU ワークロードの種類

GPU デプロイは、次のパッケージバージョンと互換性があります。

Pytorch 1.13.0 - 2.0.1
TensorFlow 2.5.0 - 2.13.0
MLflow 2.4.0 移行

GPU を使用してモデルをデプロイするには、workload_type中にエンドポイント構成にフィールドを含めるか、API を使用したエンドポイント構成の更新としてフィールドを含めます。 サービス UI を使用して GPU ワークロードのエンドポイントを構成するには、[コンピューティングの種類] ドロップダウンから目的の GPU の種類を選択します。

{
  "served_entities": [{
    "entity_name": "catalog.schema.ads1",
    "entity_version": "2",
    "workload_type": "GPU_LARGE",
    "workload_size": "Small",
    "scale_to_zero_enabled": false,
  }]
}

次の表は、サポートされる使用可能な GPU ワークロードの種類をまとめたものです。

GPU ワークロードの種類	GPU インスタンス	GPU メモリ
`GPU_SMALL`	1xT4	16 GB
`GPU_LARGE`	1xA100	80 GB
`GPU_LARGE_2`	2xA100	160 GB

カスタムモデルエンドポイントを変更する

カスタムモデルエンドポイントを有効化すると、必要に応じてコンピューティング構成を更新できます。特にモデルのリソースを増やす必要が生じた場合に、この構成を有効活用できます。モデルを提供するためのリソース割り当てには、ワークロードのサイズとコンピューティング構成が重要な役割を果たします。

新しい構成の準備ができるまでは、古い構成が予測トラフィックを提供し続けます。更新が進行中の間は、別の更新を行うことはできません。ただし、進行中の更新は、Serving UI から取り消すことができます。

提供 UI

モデルエンドポイントを有効にしたら、[ エンドポイントの編集] を選択してエンドポイントのコンピューティング構成を変更します。

次の操作を実行できます。

いくつかあるワークロードサイズから選択すると、自動スケーリングはそのワークロードサイズ内で自動的に構成されます。
使用しない場合にエンドポイントを 0 にスケールダウンする必要があるかどうかを指定します。
提供されるモデルにルーティングするトラフィックの割合を変更します。

進行中の構成の更新をキャンセルするには、エンドポイントの詳細ページの右上にある [更新のキャンセル ] を選択します。この機能は、Serving UI でのみ使用できます。

REST API

REST API を使用したエンドポイント構成の更新例を次に示します。 PUT /api/2.0/serving-endpoints/{name}/config を参照してください。


PUT /api/2.0/serving-endpoints/{name}/config

{
  "name": "unity-catalog-model-endpoint",
  "config":
  {
    "served_entities": [
      {
        "entity_name": "catalog.schema.my-ads-model",
        "entity_version": "5",
        "workload_size": "Small",
        "scale_to_zero_enabled": true
      }
    ],
    "traffic_config":
    {
      "routes": [
        {
          "served_model_name": "my-ads-model-5",
          "traffic_percentage": 100
        }
      ]
    }
  }
}

MLflow デプロイ SDK

MLflow Deployments SDK は REST API と同じパラメーターを使用します。要求と応答のスキーマの詳細については、 PUT /api/2.0/serving-endpoints/{name}/config を参照してください。

次のコードサンプルでは、Unity カタログのモデルレジストリのモデルを使用します。

import mlflow
from mlflow.deployments import get_deploy_client

mlflow.set_registry_uri("databricks-uc")
client = get_deploy_client("databricks")

endpoint = client.create_endpoint(
  name=f"{endpointname}",
  config={
    "served_entities": [
        {
            "entity_name": f"{catalog}.{schema}.{model_name}",
            "entity_version": "1",
            "workload_size": "Small",
            "scale_to_zero_enabled": True
        }
    ],
    "traffic_config": {
        "routes": [
            {
                "served_model_name": f"{model_name}-1",
                "traffic_percentage": 100
            }
        ]
    }
  }
)

モデルエンドポイントのスコアリング

モデルのスコアを付けるには、モデルサービングエンドポイントに要求を送信します。

カスタムモデルのクエリサービスエンドポイントを参照してください。
基礎モデルの使用を参照してください。

その他のリソース

モデルの提供エンドポイントを管理します
モザイク AI モデルサービスの外部モデル。
Python を使用する場合は、 Databricks リアルタイムサービス Python SDK を使用できます。

ノートブックの例

以下のノートブックには、モデルサービングエンドポイントを起動して実行するために使用できるさまざまな Databricks の登録モデルが含まれています。その他の例については、「チュートリアル: カスタムモデルのデプロイとクエリ」を参照してください。

モデルの例は、「ノートブックのインポート」の指示に従ってワークスペースにインポートできます。いずれかの例からモデルを選択して作成した後、 Unity カタログに登録し、モデルの提供に関する UI ワークフローの手順に従います。

モデル提供に関する scikit-learn モデルのトレーニングと登録ノートブック

ノートブックを取得する

モデル提供に関する HuggingFace モデルのトレーニングと登録ノートブック

ノートブックを取得する

次の方法で共有

カスタム モデル サービング エンドポイントを作成する

要件

アクセス制御

エンドポイントの作成

提供 UI

REST API

MLflow デプロイ SDK

GPU ワークロードの種類

カスタム モデル エンドポイントを変更する

提供 UI

REST API

MLflow デプロイ SDK

モデル エンドポイントのスコアリング

その他のリソース

ノートブックの例

モデル提供に関する scikit-learn モデルのトレーニングと登録ノートブック

モデル提供に関する HuggingFace モデルのトレーニングと登録ノートブック

フィードバック

その他のリソース

カスタムモデルサービングエンドポイントを作成する

カスタムモデルエンドポイントを変更する

モデルエンドポイントのスコアリング