次の方法で共有


サービス エンドポイントでのルートの最適化

この記事では、 モデル サービス または 機能サービス エンドポイントでルートの最適化を有効にする方法について説明します。 ルート最適化提供エンドポイントを使用すると、オーバーヘッド待機時間が大幅に短縮され、エンドポイントでサポートされるスループットを大幅に向上できます。

高スループットのワークロードまたは待機時間の影響を受けやすいワークロードには、ルートの最適化をお勧めします。

ルートの最適化とは

エンドポイントでルートの最適化を有効にすると、Databricks Model Serving によって推論要求のネットワーク パスが改善され、クライアントとモデル間の通信が高速化され、より直接的になります。 この最適化されたルーティングにより、最適化されていないエンドポイントと比較して 1 秒あたりのクエリ数 (QPS) が増え、アプリケーションの待機時間が安定して短くなります。

ルート最適化エンドポイントの利点を活用するには、クライアントに次の変更を加える必要があります。

  • ルート最適化 URL を使用します。各ルート最適化エンドポイントには一意の URL があります。 この特定の URL に推論要求を送信する必要があります。
  • OAuth トークンを使用した認証: ルート最適化エンドポイントでは、認証用の OAuth トークンのみがサポートされます。 その他の認証メカニズムはサポートされていません。

要件

  • モデル サービス エンドポイントでのルートの最適化については、「要件」を参照してください。
  • 機能提供エンドポイントでのルートの最適化については、「要件」を参照してください。

モデル サービング エンドポイント でルートの最適化を有効にする

ユーザーインターフェースの提供

サービス UI を使用してモデル サービス エンドポイントを作成するときに、ルートの最適化を有効にすることができます。 エンドポイントの作成時にのみルートの最適化を有効にできます。ルート最適化されるように既存のエンドポイントを更新することはできません。

  1. サイドバーで[サービス]をクリックして、 サービス UI を表示します。
  2. [ サービス エンドポイントの作成] をクリックします。
  3. [ルートの最適化] セクションで、[ルートの最適化を有効にする] を選択します。
  4. エンドポイントが作成されると、Databricks からルート最適化エンドポイントのクエリに必要な内容に関する通知が送信されます。

モデル サービス エンドポイントを作成する

REST API

REST API を使用してルートの最適化のためにサービス エンドポイントを構成するには、モデル サービス エンドポイントの作成時に route_optimized パラメーターを指定します。 このパラメーターはエンドポイントの作成時にのみ指定でき、ルートが最適化されるように既存のエンドポイントを更新することはできません。

POST /api/2.0/serving-endpoints

{
  "name": "my-endpoint",
  "config":
  {
    "served_entities":
    [{
      "entity_name": "ads1",
      "entity_version": "1",
      "workload_type": "CPU",
      "workload_size": "Small",
      "scale_to_zero_enabled": true,
    }],
  },
  "route_optimized": true
}

Python(プログラミング言語)

Python を使用する場合は、次のノートブックを使用して、ルート最適化提供エンドポイントを作成できます。

Python ノートブックを使用してルート最適化エンドポイントを作成する

ノートブックを取得する

特徴量提供エンドポイントでルートの最適化を有効にする

Feature & Function Serving にルートの最適化を使用する場合、提供エンドポイントの作成要求の entity_name フィールドに、特徴量の仕様の完全な名前を指定します。 entity_versionFeatureSpecs は必要ありません。


POST /api/2.0/serving-endpoints

{
  "name": "my-endpoint",
  "config":
  {
    "served_entities":
    [
      {
        "entity_name": "catalog_name.schema_name.feature_spec_name",
        "workload_type": "CPU",
        "workload_size": "Small",
        "scale_to_zero_enabled": true
      }
    ]
  },
  "route_optimized": true
}

制限事項

  • ルートの最適化は、カスタムのモデル サービング エンドポイント と特徴量提供エンドポイントでのみ使用できます。 Foundation Model API または外部モデルを使用するエンドポイントの提供はサポートされていません。
  • ルートの最適化でサポートされる認証は、Databricks 社内 OAuth トークンのみです。 個人用アクセス トークンはサポートされません。

その他のリソース