Model Serving の制限とリージョン

2025-06-02

この記事では、Mosaic AI Model Serving の制限および利用可能なリージョンと、サポートされるエンドポイントの種類についてまとめます。

リソースとペイロードの制限

Mosaic AI Model Serving では、信頼性の高いパフォーマンスを確保するために既定の制限事項が適用されます。これらの制限に関するフィードバックがある場合は、Databricks アカウントチームにお問い合わせください。

次の表は、モデル提供エンドポイントのリソースとペイロードの制限事項をまとめたものです。

特徴量	粒度	制限
ペイロードのサイズ	リクエストに応じて	16 MB。基盤モデル、外部モデル、または AI エージェントサービスを提供するエンドポイントの場合、制限は 4 MB です。
要求/応答サイズ	リクエストに応じて	1 MB を超える要求/応答はログに記録されません。
1秒あたりのクエリ数 (QPS)	ワークスペースごと	200 ですが、Databricks アカウントチームに連絡することで 25,000 以上に増やすことができます。
モデルの実行時間	リクエストに応じて	120 秒
CPU エンドポイントモデルのメモリ使用量	エンドポイントあたり	4 GB
GPU エンドポイントモデルのメモリ使用量	エンドポイントあたり	割り当てられた GPU メモリ以上 (GPU ワークロードのサイズによって異なります)
プロビジョニング済みのコンカレンシー	モデルごとおよびワークスペースごと	200 個のコンカレンシー。 Databricks アカウントチームに問い合わせて増やすことができます。
オーバーヘッド待機時間	リクエストに応じて	50 ミリ秒未満
init スクリプト		init スクリプトはサポートされていません。
Foundation Model API (トークンごとの支払い) のレート制限	ワークスペースごと	ユースケースに対して次の制限が不十分な場合は、プロビジョニングされたスループットを使用することをお勧めします。 Claude Sonnet 4 には、1 秒あたり 2 つのクエリの制限があります。 Claude Opus 4 には、1 秒あたり 2 つのクエリの制限があります。 Llama 4 Maverick には、1 秒あたり 4 つのクエリと 1 時間あたり 2400 クエリの制限があります。 Claude 3.7 Sonnet には、1 秒あたり 4 つのクエリと 1 時間あたり 2400 個のクエリの制限があります。 Llama 3.3 70B Instruct には、1 秒あたり 4 つのクエリと 1 時間あたり 2400 個のクエリの制限があります。 Llama 3.1 405B Instruct には、1 秒あたり 1 クエリと 1 時間あたり 1200 クエリの制限があります。 Llama 3.1 8B Instruct には、1 秒あたり 2 クエリの制限があります。 GTE Large (En) のレート制限は 1 秒あたり 150 クエリです BGE Large (En) には、1 秒あたり 600 クエリのレート制限があります。
Foundation Model API (プロビジョニングされたスループット) のレート制限	ワークスペースごと	1 秒あたり 200 クエリ。

ネットワークとセキュリティの制限事項

Model Serving エンドポイントは、アクセス制御によって保護され、IP 許可リストや PrivateLink など、ワークスペース上に構成されたネットワーク関連のイングレスルールを尊重します。
プライベート接続 (Azure Private Link など) は、プロビジョニングされたスループットを使用するエンドポイントまたはカスタムモデルにサービスを提供するエンドポイントを提供するモデルでのみサポートされます。
既定では、Model Serving は外部エンドポイント (Azure OpenAI など) への Private Link をサポートしていません。この機能のサポートは、リージョンごとに評価および実装されます。詳細については、Azure Databricks アカウントチームにお問い合わせください。
運用環境のデプロイが不安定になるリスクがあるため、Model Serving では、既存のモデルイメージにセキュリティパッチが提供されません。最新のパッチは、新しいモデルバージョンから作成された新しいモデルイメージに含まれています。詳細については、Databricks アカウントチームにお問い合わせください。

コンプライアンスセキュリティプロファイル標準: CPU ワークロード

次の表に、CPU ワークロードの主要なモデルサービス機能でサポートされているコンプライアンスセキュリティプロファイルのコンプライアンス標準を示します。

注

これらのコンプライアンス標準では、最新の 30 日以内に提供されたコンテナーを構築する必要があります。 Databricks は、ユーザーに代わって古いコンテナーを自動的に再構築します。ただし、この自動ジョブが失敗した場合は、次のようなイベントログメッセージが表示され、エンドポイントがコンプライアンス要件内に収まるようにする方法に関するガイダンスが提供されます。

"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."

リージョン	ロケーション	HIPAA	HITRUST（ヒートラスト）	PCI-DSS	英国 Cyber Essentials Plus
`australiacentral`	オーストラリア中部
`australiacentral2`	AustraliaCentral2
`australiaeast`	オーストラリア東部	✓	✓	✓
`australiasoutheast`	オーストラリア南東部
`brazilsouth`	ブラジル南部	✓	✓	✓
`canadacentral`	カナダ中部	✓	✓	✓
`canadaeast`	カナダ東部
`centralindia`	CentralIndia	✓	✓	✓
`centralus`	セントラルUS	✓	✓	✓
`chinaeast2`	ChinaEast2
`chinaeast3`	ChinaEast3
`chinanorth2`	ChinaNorth2
`chinanorth3`	ChinaNorth3
`eastasia`	EastAsia	✓	✓	✓
`eastus`	イーストUS	✓	✓	✓
`eastus2`	EastUS2	✓	✓	✓
`francecentral`	FranceCentral	✓	✓	✓
`germanywestcentral`	ドイツ中西部	✓	✓	✓
`japaneast`	JapanEast	✓	✓	✓
`japanwest`	JapanWest
`koreacentral`	KoreaCentral	✓	✓	✓
`mexicocentral`	MexicoCentral
`northcentralus`	NorthCentralUS	✓	✓	✓
`northeurope`	NorthEurope	✓	✓	✓
`norwayeast`	ノルウェー東部
`qatarcentral`	カタールセントラル
`southafricanorth`	南アフリカ北部
`southcentralus`	SouthCentralUS	✓	✓	✓
`southeastasia`	東南アジア	✓	✓	✓
`southindia`	南インド
`swedencentral`	スウェーデンセントラル	✓	✓	✓
`switzerlandnorth`	スイス北部	✓	✓	✓
`switzerlandwest`	スイス西部
`uaenorth`	UAENorth	✓	✓	✓
`uksouth`	UKSouth	✓	✓	✓	✓
`ukwest`	UKWest
`westcentralus`	WestCentralUS
`westeurope`	西ヨーロッパ	✓	✓	✓
`westindia`	WestIndia
`westus`	WestUS	✓	✓	✓
`westus2`	WestUS2	✓	✓	✓
`westus3`	WestUS3	✓	✓	✓

Foundation Model API の制限

注

Foundation Model API の提供の一環として、Databricks は、データが発生したリージョンの外部でデータを処理する可能性がありますが、関連する地理上の場所の外部では処理されません。

トークンごとの支払いとプロビジョニングされたスループットの両方ワークロードの場合:

Foundation Model API エンドポイントのレート制限など、ガバナンス設定を変更できるのはワークスペース管理者だけです。レート制限を変更するには、以下の手順を使用します。
1. ワークスペースで Serving UI を開き、提供エンドポイントを表示します。
2. 編集したい Foundation Model API エンドポイントのケバブメニューから、[詳細の表示] を選択します。
3. エンドポイントの詳細ページの右上にあるケバブメニューから、[レート制限の変更] を選択します。
GTE Large (En)埋め込みモデルでは、正規化された埋め込みは生成されません。

トークンごとの支払いの制限

Foundation Model API トークンごとの支払い ワークロードに関連する制限を次に示します。

トークンごとの支払い ワークロードは HIPAA に準拠しています。
- コンプライアンスセキュリティプロファイルが有効になっているお客様の場合、コンプライアンス標準 HIPAA または None が選択されている場合は、トークンごとの支払いワークロードを使用できます。その他のコンプライアンス標準は、トークンごとの支払いワークロードではサポートされていません。
次のトークン単位の支払いモデルは、トークン単位の支払いをサポートしている米国リージョンでのみサポートされます。
- アントロピッククロードソネット 4
- アントロピック・クロード・オプス 4
- メタ・ラマ3.1 405B インストラクション
- BGE Large (英語版)
Anthropic Claude 3.7 Sonnet は、トークンごとの支払い EU および米国でサポートされているリージョンで利用できます。ワークスペースが EU または米国のリージョンではなく、サポートされているモデルサービスリージョンにある場合は、クロス Geo データ処理を有効にしてこのモデルにアクセスできます。
ワークスペースがモデルサービスリージョン内にあり、米国または EU リージョンではない場合は、クロス Geo データ処理に対してワークスペースを有効にする必要があります。有効にすると、トークンごとの支払いワークロードが米国のにルーティングされます。Databricks Geo。トークンごとの支払いワークロードを処理する地理的リージョンを確認するには、「 Databricks 指定サービスを参照してください。

プロビジョニング済みスループットの制限

Foundation Model API プロビジョニングされたスループット ワークロードに関連する制限を次に示します。

プロビジョニングされたスループット は HIPAA コンプライアンスプロファイルをサポートし、コンプライアンス認定を必要とするワークロードに推奨されます。
Unity カタログの system.ai から Meta Llama モデルをデプロイするには、該当する Instruct バージョンを選択する必要があります。 Meta Llama モデルの基本バージョンは、Unity カタログからのデプロイではサポートされていません。「[推奨] Unity カタログから基盤モデルをデプロイする」を参照してください。
Llama 4 Maverick を使用するプロビジョニング済みスループットワークロードの場合:
- プロビジョニングされたスループットワークロードでのこのモデルのサポートは、パブリックプレビュー段階です。
- 自動スケールはサポートされていません。
- メトリックパネルはサポートされていません。
- Llama 4 Maverick にサービスを提供するエンドポイントでは、トラフィックの分割はサポートされていません。 Llama 4 Maverick にサービスを提供するエンドポイントで複数のモデルを提供することはできません。

利用可能なリージョン

注

サポートされていないリージョンにエンドポイントが必要な場合は、Azure Databricks アカウントチームにお問い合わせください。

ワークスペースがモデルサービスをサポートするリージョンにデプロイされているが、サポートされていないリージョンのコントロールプレーンによって提供されている場合ワークスペースはモデルサービスをサポートしません。このようなワークスペースでサービスを提供するモデルを使用しようとすると、ワークスペースがサポートされていないことを示すエラーメッセージが表示されます。詳細については、Azure Databricks アカウントチームにお問い合わせください。

各モデルサービス機能のリージョン別の可用性の詳細については、「モデルサービスのリージョンの可用性」を参照してください。

Databricks でホストされる基盤モデルのリージョンの可用性については、 Databricks でホストされている Foundation モデルを参照してください。

次の方法で共有