模型服务限制和区域

本文总结了 Mosaic AI 模型服务的限制和区域可用性,以及支持的终结点类型。

资源和有效负载限制

Mosaic AI 模型服务施加了默认限制,以确保可靠的性能。 如果对这些限制有反馈,请联系 Databricks 帐户团队。

下表汇总了模型服务终结点的资源和有效负载限制。

功能 粒度 限制
有效负载大小 应要求 16 MB。 对于为 基础模型外部模型AI 代理提供服务的 终结点,限制为 4 MB。
请求/响应大小 应要求 不会记录超过 1 MB 的任何请求/响应。
每秒查询次数 (QPS) 每个工作区 200,但可通过联系你的 Databricks 帐户团队来增加到 25,000 或更多。
模型执行持续时间 应要求 120 秒
CPU 端点模型的内存使用情况 每个终结点 4GB
GPU 终结点模型内存使用 每个终结点 大于或等于分配的 GPU 内存,取决于 GPU 工作负载大小
预配的并发 每个模型和每个工作区 200 并发。 可通过联系你的 Databricks 帐户团队增加。
开销延迟 应要求 小于 50 毫秒
Init 脚本 不支持 init 脚本。
基础模型 API(按令牌付费)费率限制 每个工作区 如果以下限制不足以满足你的用例,Databricks 建议使用预配的吞吐量。
  • Claude Sonnet 4 的限制为每秒 2 个查询。
  • Claude Opus 4 限制为每秒 2 个查询。
  • Llama 4 Maverick 限制为每秒 4 个查询和每小时 2400 个查询。
  • Claude 3.7 Sonnet 限制为每秒 4 个查询和每小时 2400 个查询。
  • Llama 3.3 70B 指令的查询限制是每秒 4 个查询,每小时 2400 个查询。
  • Llama 3.1 405B Instruct 的查询限制为每秒 1 次和每小时 1200 次。
  • Llama 3.1 8B Instruct 每秒限制为 2 个查询。
  • GTE Large (En) 的速率限制为每秒 150 次查询
  • BGE Large (En) 的速率限制为每秒 600 个查询。
基础模型 API(预配吞吐量)速率限制 每个工作区 每秒 200 个查询。

网络和安全限制

  • 模型服务终结点受 访问控制 保护,并遵循在工作区上配置的与网络相关的入口规则,例如 IP 允许列表和 专用链接
  • 专用连接(例如 Azure 专用链接)仅支持使用预配吞吐量的终结点的模型服务终结点或提供自定义模型的终结点。
  • 默认情况下,模型服务不支持指向外部终结点(例如 Azure OpenAI)的专用链接。 支持此功能的评估与实施是按每个区域进行的。 有关详细信息,请联系 Azure Databricks 帐户团队。
  • 由于生产部署存在不稳定的风险,模型服务不提供现有模型映像的安全修补程序。 从新模型版本创建的新模型映像将包含最新的修补程序。 有关详细信息,请联系 Databricks 帐户团队。

合规安全配置文件的标准:CPU 工作负载

下表列出了 CPU 工作负载上核心模型服务功能支持的符合性安全配置文件符合性标准。

注意

这些符合性标准要求在最近 30 天内生成服务容器。 Databricks 会自动为您重建过时的容器。 但是,如果此自动化作业失败,将显示如下所示的事件日志消息,并提供有关如何确保终结点保持在符合性要求的指导:

"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."

区域 位置 HIPAA HITRUST (健康信息信托联盟) PCI-DSS IRAP CCCS 中等(保护级别B) 英国 Cyber Essentials Plus
australiacentral AustraliaCentral            
australiacentral2 AustraliaCentral2            
australiaeast 澳大利亚东部      
australiasoutheast 澳大利亚东南部            
brazilsouth 巴西南部      
canadacentral CanadaCentral      
canadaeast CanadaEast            
centralindia CentralIndia      
centralus CentralUS      
chinaeast2 ChinaEast2            
chinaeast3 ChinaEast3            
chinanorth2 ChinaNorth2            
chinanorth3 ChinaNorth3            
eastasia EastAsia      
eastus EastUS      
eastus2 EastUS2      
francecentral FranceCentral      
germanywestcentral 德国西中部      
japaneast JapanEast      
japanwest 日本西部            
koreacentral KoreaCentral      
mexicocentral 墨西哥中心            
northcentralus NorthCentralUS      
northeurope NorthEurope      
norwayeast 挪威东部            
qatarcentral 卡塔尔中央            
southafricanorth 南非北部            
southcentralus SouthCentralUS      
southeastasia 东南亚      
southindia 南印度            
swedencentral 瑞典中心      
switzerlandnorth 瑞士北部      
switzerlandwest 瑞士西部            
uaenorth 阿联酋北部      
uksouth UKSouth    
ukwest UKWest            
westcentralus WestCentralUS            
westeurope 西欧      
westindia WestIndia            
westus WestUS      
westus2 WestUS2      
westus3 WestUS3      

基础模型 API 限制

注意

作为提供基础模型 API 的一部分,Databricks 可能会处理数据的来源区域以外的数据,但不在相关 地理位置之外。

对于按令牌付费和预配吞吐量工作负载:

  • 只有工作区管理员可以更改治理设置,例如基础模型 API 终结点的速率限制。 若要更改速率限制,请执行以下步骤:
    1. 在工作区中打开服务 UI 以查看服务终结点。
    2. 在要编辑的基础模型 API 终结点的垂直三点菜单中选择“查看详细信息”。
    3. 在终结点详细信息页右上角的垂直三点菜单中,选择“更改速率限制”。
  • GTE 大型(英语)嵌入模型不会生成规范化嵌入

按令牌付费限制

以下是与基础模型 API 按令牌付费工作负载相关的限制:

  • 按令牌付费 工作负载符合 HIPAA 要求。
    • 对于启用了合规性安全配置文件的客户,只要选择了符合性标准 HIPAANone ,即可使用按令牌付费的工作负荷。 按令牌付费工作负载不支持其他合规性标准。
  • 以下 按令牌付费 模型仅适用于基础模型 API 支持的美国区域。
    • 人类克劳德十四行诗 4
    • 人类克劳德·奥普斯 4
    • Meta Llama 3.1 405B 指令
    • BGE 大型(英语)
  • 欧盟和美国支持的区域中已推出按令牌付费模式的 Anthropic Claude 3.7 Sonnet。 如果工作区不在欧盟或美国区域,但位于受支持的“模型服务”区域中,则可以启用 跨地理位置数据处理 来访问此模型。
  • 如果工作区位于模型服务区域,但不是美国或欧盟区域,则必须为 工作区启用跨地理位置数据处理。 启用后,按令牌付费的工作负荷将被路由到美国 Databricks Geo。 若要查看哪些地理区域处理按令牌付费工作负荷,请参阅 Databricks 指定服务

预配的吞吐量限制

以下是与基础模型 API 预配的吞吐量 工作负荷相关的限制:

  • 预配的吞吐量 符合 HIPAA 合规性配置文件的要求,建议用于需要合规性认证要求的工作负荷。

  • 若要从 system.ai Unity 目录中部署 Meta Llama 模型,必须选择适用的 “指示 ”版本。 Unity 目录中不支持部署 Meta Llama 模型的基础版本。 请参阅 [建议] 从 Unity 目录部署基础模型

  • 对于使用 Llama 4 Maverick 的预配吞吐量工作负载:

    • 对于预配的吞吐量工作负载,此模型的支持正处于公共预览版阶段。
    • 不支持自动缩放。
    • 不支持指标面板。
    • 服务Llama 4 Maverick的端点不支持流量拆分。 不能在提供 Llama 4 特立独行者的服务端点上部署多个模型。

区域可用性

注意

如果您需要在不支持的区域中创建端点,请联系 Azure Databricks 账户团队。

如果工作区部署在支持模型服务的区域,但由不受支持区域的 控制平面 提供服务,则工作区不支持模型服务。 当您尝试在此类工作区中使用模型服务时,您会在错误消息中看到,您的工作区不受支持。 有关详细信息,请联系 Azure Databricks 帐户团队。

有关每个模型服务功能的区域可用性的详细信息,请参阅 提供区域可用性的模型

有关 Databricks 托管的基础模型区域可用性,请参阅 Databricks 上托管的基础模型