你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
本文包含有关 Azure AI Foundry 模型的配额和限制的快速参考和详细说明。 有关特定于 Foundry 模型中 Azure OpenAI 的配额 和限制,请参阅 Azure OpenAI 中的配额和限制。
配额和限制参考
Azure 使用配额和限制来防止由于欺诈导致的预算超支,并遵循 Azure 容量约束。 对于生产工作负载,请在缩放时考虑这些限制。 以下部分提供在 Azure AI 服务中适用于 Azure AI 模型推理服务的默认配额和限制的快速指南:
资源限制
限制名称 | 限制值 |
---|---|
每个 Azure 订阅中每个区域的 Azure AI 服务资源 | 30 |
每个资源的最大部署数 | 32 |
速率限制
限制名称 | 适用于 | 限制值 |
---|---|---|
每分钟标记数 | Azure OpenAI 模型 | 因模型和 SKU 而异。 请参阅 Azure OpenAI 的限制。 |
每分钟请求数 | Azure OpenAI 模型 | 因模型和 SKU 而异。 请参阅 Azure OpenAI 的限制。 |
每分钟标记数 | DeepSeek-R1 DeepSeek-V3-0324 |
5,000,000 |
每分钟请求数 | DeepSeek-R1 DeepSeek-V3-0324 |
5,000 |
并发请求 | DeepSeek-R1 DeepSeek-V3-0324 |
300 |
每分钟标记数 | 其余模型 | 400,000 |
每分钟请求数 | 其余模型 | 1,000 |
并发请求 | 其余模型 | 300 |
您可以请求提高默认限制。 由于需求量很高,可以提交提高限制的请求,并根据请求进行评估。
其他限制
限制名称 | 限制值 |
---|---|
API 请求中的最大自定义标头数1 | 10 |
1 当前 API 最多允许 10 个自定义标头(通过管道传递并返回)。 我们注意到一些客户现在超过了此标头计数,从而导致 HTTP 431 错误。 除了减少标头量之外,此错误没有其他解决方案。 在未来的 API 版本中,我们将不再传递自定义标头。 我们不建议客户在未来的系统体系结构中依赖自定义标头。
使用层
全球标准部署使用 Azure 的全球基础结构,将客户流量动态路由到可用性最好的数据中心,以满足客户的推理请求。 这样,对于流量低到中等级别的客户,这可实现更一致的延迟。 持续使用率较高的客户可能会发现响应延迟的可变性更高。
使用限制决定了使用水平,超过该水平客户可能会看到响应延迟的可变性更高。 客户使用情况按模型定义,是给定租户在所有区域的所有订阅中的所有部署中消耗的总令牌。
请求提高默认限制
可以提交限制提高请求,并根据请求进行评估。 打开联机客户支持请求。 在请求提高终结点限制时,请提供以下信息:
在打开支持请求时,选择“服务和订阅限制(配额)”作为“问题类型”。
选择所选的订阅。
选择 认知服务 作为 配额类型。
选择“下一步”。
在“其他详细信息”选项卡上,需要提供提高限制的详细原因,以便处理请求。 务必将以下信息添加到提高限制的原因中:
- 模型名称、模型版本(如果适用)和部署类型(SKU)。
- 您的方案和工作负荷的描述。
- 请求提高的理由。
- 提供目标吞吐量:每分钟令牌数、每分钟请求数等。
- 提供计划时间计划(当需要提高限制时)。
最后,选择“保存并继续”以继续。
保持在速率限制范围内的一般最佳做法
若要最大程度地减少与速率上限相关的问题,可以遵循以下方法:
- 在应用程序中实现重试逻辑
- 避免工作负载的急剧变化。 逐步增大工作负载。
- 测试不同负载增加模式。
- 增加分配给部署的配额。 如有必要,从另一个部署中移动配额。