次の方法で共有


Model Serving の制限とリージョン

この記事では、Mosaic AI Model Serving の制限および利用可能なリージョンと、サポートされるエンドポイントの種類についてまとめます。

リソースとペイロードの制限

Mosaic AI Model Serving では、信頼性の高いパフォーマンスを確保するために既定の制限事項が適用されます。 これらの制限に関するフィードバックがある場合は、Databricks アカウント チームにお問い合わせください。

次の表は、モデル提供エンドポイントのリソースとペイロードの制限事項をまとめたものです。

特徴量 粒度 制限
ペイロードのサイズ リクエストに応じて 16 MB。 基盤モデル、外部モデル、または AI エージェント サービスを提供するエンドポイントの場合、制限は 4 MB です。
要求/応答サイズ リクエストに応じて 1 MB を超える要求/応答はログに記録されません。
1秒あたりのクエリ数 (QPS) ワークスペースごと 200 ですが、Databricks アカウント チームに連絡することで 25,000 以上に増やすことができます。
モデルの実行時間 リクエストに応じて 120 秒
CPU エンドポイント モデルのメモリ使用量 エンドポイントあたり 4 GB
GPU エンドポイント モデルのメモリ使用量 エンドポイントあたり 割り当てられた GPU メモリ以上 (GPU ワークロードのサイズによって異なります)
プロビジョニング済みのコンカレンシー モデルごとおよびワークスペースごと 200 個のコンカレンシー。 Databricks アカウント チームに問い合わせて増やすことができます。
オーバーヘッド待機時間 リクエストに応じて 50 ミリ秒未満
init スクリプト init スクリプトはサポートされていません。
Foundation Model API (トークンごとの支払い) のレート制限 ワークスペースごと ユース ケースに対して次の制限が不十分な場合は、プロビジョニングされたスループットを使用することをお勧めします。
  • Claude Sonnet 4 には、1 秒あたり 2 つのクエリの制限があります。
  • Claude Opus 4 には、1 秒あたり 2 つのクエリの制限があります。
  • Llama 4 Maverick には、1 秒あたり 4 つのクエリと 1 時間あたり 2400 クエリの制限があります。
  • Claude 3.7 Sonnet には、1 秒あたり 4 つのクエリと 1 時間あたり 2400 個のクエリの制限があります。
  • Llama 3.3 70B Instruct には、1 秒あたり 4 つのクエリと 1 時間あたり 2400 個のクエリの制限があります。
  • Llama 3.1 405B Instruct には、1 秒あたり 1 クエリと 1 時間あたり 1200 クエリの制限があります。
  • Llama 3.1 8B Instruct には、1 秒あたり 2 クエリの制限があります。
  • GTE Large (En) のレート制限は 1 秒あたり 150 クエリです
  • BGE Large (En) には、1 秒あたり 600 クエリのレート制限があります。
Foundation Model API (プロビジョニングされたスループット) のレート制限 ワークスペースごと 1 秒あたり 200 クエリ。

ネットワークとセキュリティの制限事項

  • Model Serving エンドポイントは、アクセス制御によって保護され、IP 許可リストや PrivateLink など、ワークスペース上に構成されたネットワーク関連のイングレス ルールを尊重します。
  • プライベート接続 (Azure Private Link など) は、プロビジョニングされたスループットを使用するエンドポイントまたはカスタム モデルにサービスを提供するエンドポイントを提供するモデルでのみサポートされます。
  • 既定では、Model Serving は外部エンドポイント (Azure OpenAI など) への Private Link をサポートしていません。 この機能のサポートは、リージョンごとに評価および実装されます。 詳細については、Azure Databricks アカウント チームにお問い合わせください。
  • 運用環境のデプロイが不安定になるリスクがあるため、Model Serving では、既存のモデル イメージにセキュリティ パッチが提供されません。 最新のパッチは、新しいモデル バージョンから作成された新しいモデル イメージに含まれています。 詳細については、Databricks アカウント チームにお問い合わせください。

コンプライアンス セキュリティ プロファイル標準: CPU ワークロード

次の表に、CPU ワークロードの主要なモデル サービス機能でサポートされているコンプライアンス セキュリティ プロファイルのコンプライアンス標準を示します。

これらのコンプライアンス標準では、最新の 30 日以内に提供されたコンテナーを構築する必要があります。 Databricks は、ユーザーに代わって古いコンテナーを自動的に再構築します。 ただし、この自動ジョブが失敗した場合は、次のようなイベント ログ メッセージが表示され、エンドポイントがコンプライアンス要件内に収まるようにする方法に関するガイダンスが提供されます。

"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."

リージョン ロケーション HIPAA HITRUST(ヒートラスト) PCI-DSS IRAP CCCSミディアム(Protected B) 英国 Cyber Essentials Plus
australiacentral オーストラリア中部            
australiacentral2 AustraliaCentral2            
australiaeast オーストラリア東部      
australiasoutheast オーストラリア南東部            
brazilsouth ブラジル南部      
canadacentral カナダ中部      
canadaeast カナダ東部            
centralindia CentralIndia      
centralus セントラルUS      
chinaeast2 ChinaEast2            
chinaeast3 ChinaEast3            
chinanorth2 ChinaNorth2            
chinanorth3 ChinaNorth3            
eastasia EastAsia      
eastus イーストUS      
eastus2 EastUS2      
francecentral FranceCentral      
germanywestcentral ドイツ中西部      
japaneast JapanEast      
japanwest JapanWest            
koreacentral KoreaCentral      
mexicocentral MexicoCentral            
northcentralus NorthCentralUS      
northeurope NorthEurope      
norwayeast ノルウェー東部            
qatarcentral カタールセントラル            
southafricanorth 南アフリカ北部            
southcentralus SouthCentralUS      
southeastasia 東南アジア      
southindia 南インド            
swedencentral スウェーデンセントラル      
switzerlandnorth スイス北部      
switzerlandwest スイス西部            
uaenorth UAENorth      
uksouth UKSouth    
ukwest UKWest            
westcentralus WestCentralUS            
westeurope 西ヨーロッパ      
westindia WestIndia            
westus WestUS      
westus2 WestUS2      
westus3 WestUS3      

Foundation Model API の制限

Foundation Model API の提供の一環として、Databricks は、データが発生したリージョンの外部でデータを処理する可能性がありますが、関連する 地理上の場所の外部では処理されません

トークンごとの支払いとプロビジョニングされたスループットの両方ワークロードの場合:

  • Foundation Model API エンドポイントのレート制限など、ガバナンス設定を変更できるのはワークスペース管理者だけです。 レート制限を変更するには、以下の手順を使用します。
    1. ワークスペースで Serving UI を開き、提供エンドポイントを表示します。
    2. 編集したい Foundation Model API エンドポイントのケバブ メニューから、[詳細の表示] を選択します。
    3. エンドポイントの詳細ページの右上にあるケバブ メニューから、[レート制限の変更] を選択します。
  • GTE Large (En)埋め込みモデルでは、正規化された埋め込みは生成されません。

トークンごとの支払いの制限

Foundation Model API トークンごとの支払い ワークロードに関連する制限を次に示します。

  • トークンごとの支払い ワークロードは HIPAA に準拠しています。
    • コンプライアンス セキュリティ プロファイルが有効になっているお客様の場合、コンプライアンス標準 HIPAA または None が選択されている場合は、トークンごとの支払いワークロードを使用できます。 その他のコンプライアンス標準は、トークンごとの支払いワークロードではサポートされていません。
  • 次のトークン単位の支払いモデルは、トークン単位の支払いをサポートしている米国リージョンでのみサポートされます。
    • アントロピック クロード ソネット 4
    • アントロピック・クロード・オプス 4
    • メタ・ラマ3.1 405B インストラクション
    • BGE Large (英語版)
  • Anthropic Claude 3.7 Sonnet は、トークンごとの支払い EU および米国でサポートされているリージョンで利用できます。 ワークスペースが EU または米国のリージョンではなく、サポートされているモデル サービス リージョンにある場合は、 クロス Geo データ処理 を有効にしてこのモデルにアクセスできます。
  • ワークスペースがモデル サービス リージョン内にあり、米国または EU リージョンではない場合は、 クロス Geo データ処理に対してワークスペースを有効にする必要があります。 有効にすると、トークンごとの支払いワークロードが米国の にルーティングされます。Databricks Geo。 トークンごとの支払いワークロードを処理する地理的リージョンを確認するには、「 Databricks 指定サービスを参照してください。

プロビジョニング済みスループットの制限

Foundation Model API プロビジョニングされたスループット ワークロードに関連する制限を次に示します。

  • プロビジョニングされたスループット は HIPAA コンプライアンス プロファイルをサポートし、コンプライアンス認定を必要とするワークロードに推奨されます。

  • Unity カタログの system.ai から Meta Llama モデルをデプロイするには、該当する Instruct バージョンを選択する必要があります。 Meta Llama モデルの基本バージョンは、Unity カタログからのデプロイではサポートされていません。 「[推奨] Unity カタログから基盤モデルをデプロイする」を参照してください。

  • Llama 4 Maverick を使用するプロビジョニング済みスループット ワークロードの場合:

    • プロビジョニングされたスループット ワークロードでのこのモデルのサポートは、 パブリック プレビュー段階です
    • 自動スケールはサポートされていません。
    • メトリック パネルはサポートされていません。
    • Llama 4 Maverick にサービスを提供するエンドポイントでは、トラフィックの分割はサポートされていません。 Llama 4 Maverick にサービスを提供するエンドポイントで複数のモデルを提供することはできません。

利用可能なリージョン

サポートされていないリージョンにエンドポイントが必要な場合は、Azure Databricks アカウントチームにお問い合わせください。

ワークスペースがモデルサービスをサポートするリージョンにデプロイされているが、サポートされていないリージョンの コントロール プレーンによって提供されている場合 ワークスペースはモデルサービスをサポートしません。 このようなワークスペースでサービスを提供するモデルを使用しようとすると、ワークスペースがサポートされていないことを示すエラー メッセージが表示されます。 詳細については、Azure Databricks アカウント チームにお問い合わせください。

各モデル サービス機能のリージョン別の可用性の詳細については、「 モデル サービスのリージョンの可用性」を参照してください。

Databricks でホストされる基盤モデルのリージョンの可用性については、 Databricks でホストされている Foundation モデルを参照してください。