你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure AI Foundry 模型配额和限制

本文包含有关 Azure AI Foundry 模型的配额和限制的快速参考和详细说明。 有关特定于 Foundry 模型中 Azure OpenAI 的配额 和限制,请参阅 Azure OpenAI 中的配额和限制

配额和限制参考

Azure 使用配额和限制来防止由于欺诈导致的预算超支,并遵循 Azure 容量约束。 对于生产工作负载,请在缩放时考虑这些限制。 以下部分提供在 Azure AI 服务中适用于 Azure AI 模型推理服务的默认配额和限制的快速指南:

资源限制

限制名称 限制值
每个 Azure 订阅中每个区域的 Azure AI 服务资源 30
每个资源的最大部署数 32

速率限制

限制名称 适用于 限制值
每分钟标记数 Azure OpenAI 模型 因模型和 SKU 而异。 请参阅 Azure OpenAI 的限制
每分钟请求数 Azure OpenAI 模型 因模型和 SKU 而异。 请参阅 Azure OpenAI 的限制
每分钟标记数 DeepSeek-R1
DeepSeek-V3-0324
5,000,000
每分钟请求数 DeepSeek-R1
DeepSeek-V3-0324
5,000
并发请求 DeepSeek-R1
DeepSeek-V3-0324
300
每分钟标记数 其余模型 400,000
每分钟请求数 其余模型 1,000
并发请求 其余模型 300

您可以请求提高默认限制。 由于需求量很高,可以提交提高限制的请求,并根据请求进行评估。

其他限制

限制名称 限制值
API 请求中的最大自定义标头数1 10

1 当前 API 最多允许 10 个自定义标头(通过管道传递并返回)。 我们注意到一些客户现在超过了此标头计数,从而导致 HTTP 431 错误。 除了减少标头量之外,此错误没有其他解决方案。 在未来的 API 版本中,我们将不再传递自定义标头。 我们不建议客户在未来的系统体系结构中依赖自定义标头。

使用层

全球标准部署使用 Azure 的全球基础结构,将客户流量动态路由到可用性最好的数据中心,以满足客户的推理请求。 这样,对于流量低到中等级别的客户,这可实现更一致的延迟。 持续使用率较高的客户可能会发现响应延迟的可变性更高。

使用限制决定了使用水平,超过该水平客户可能会看到响应延迟的可变性更高。 客户使用情况按模型定义,是给定租户在所有区域的所有订阅中的所有部署中消耗的总令牌。

请求提高默认限制

可以提交限制提高请求,并根据请求进行评估。 打开联机客户支持请求。 在请求提高终结点限制时,请提供以下信息:

  1. 在打开支持请求时,选择“服务和订阅限制(配额)”作为“问题类型”。

  2. 选择所选的订阅。

  3. 选择 认知服务 作为 配额类型

  4. 选择“下一步”。

  5. 在“其他详细信息”选项卡上,需要提供提高限制的详细原因,以便处理请求。 务必将以下信息添加到提高限制的原因中:

    • 模型名称、模型版本(如果适用)和部署类型(SKU)。
    • 您的方案和工作负荷的描述。
    • 请求提高的理由。
    • 提供目标吞吐量:每分钟令牌数、每分钟请求数等。
    • 提供计划时间计划(当需要提高限制时)。
  6. 最后,选择“保存并继续”以继续。

保持在速率限制范围内的一般最佳做法

若要最大程度地减少与速率上限相关的问题,可以遵循以下方法:

  • 在应用程序中实现重试逻辑
  • 避免工作负载的急剧变化。 逐步增大工作负载。
  • 测试不同负载增加模式。
  • 增加分配给部署的配额。 如有必要,从另一个部署中移动配额。

后续步骤