你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
注意
有关预配吞吐量产品/服务的最新更改的详细信息,请参阅 更新文章 了解详细信息。
Azure AI Foundry 预配的吞吐量产品/服务是一种模型部署类型,可用于指定模型部署中所需的吞吐量。 然后,Azure AI Foundry 分配必要的模型处理容量,并确保它已准备就绪。 您可以在 Azure 直接销售的各种不同模型组合中使用所请求的预配吞吐量。 这些模型包括 Azure OpenAI 模型和 Azure AI Foundry 模型中新推出的旗舰模型系列,如 Azure DeepSeek、Azure Grok、Azure Llama 等。
预配的吞吐量提供:
- 最新旗舰模型中的更广泛模型选择
- 灵活性 可在给定预配吞吐量配额下切换模型和部署
- 大幅折扣 和通过更灵活的预留选择提高预留利用率的能力
- 通过为统一工作负荷提供稳定的最大延迟和吞吐量,可预测性能。
- 分配的处理容量:部署会配置吞吐量。 部署后,无论是否使用,都可以使用吞吐量。
- 成本节省:与基于令牌的消耗相比,高吞吐量工作负载可能节省成本。
小窍门
- 购买 Microsoft Azure AI Foundry 预配吞吐量预留时,可以节省更多成本。
- 预配的吞吐量可按以下部署类型提供: 全局预配、 数据区域预配 和 区域预配。
何时使用预配吞吐量
在明确定义、可预测的吞吐量和延迟要求时,应考虑从标准部署切换到预配的吞吐量部署。 通常,当应用程序已准备好投入生产或已部署到生产环境中并且了解预期的流量时,将发生这种情况。 这样,用户就可以准确预测所需的容量并避免意外计费。 预配的吞吐量部署对于具有实时/延迟敏感要求的应用程序也很有用。
关键概念
以下各节介绍了在使用预配吞吐量产品时应注意的关键概念。
预配的吞吐量单位 (PTU)
预配吞吐量单位 (PTU) 是模型处理容量的通用单位,可用于调整预配部署的大小,以实现处理提示和生成补全所需的吞吐量。 预配的吞吐量单位作为配额授予订阅,用于定义成本。 每个配额特定于某个区域,并定义了可以分配给该订阅及其区域内部署的最大 PTU 数量。
在共享PTU预留机制下的成本管理
可以使用 PTU 功能无缝管理共享 PTU 预留下的 Foundry 模型成本。 但是,部署和吞吐量性能所需的 PTU 单元会根据所选模型动态定制。 若要详细了解 PTU 成本和模型延迟点,请参阅 了解与 PTU 关联的成本。
现有 PTU 预留会自动升级,以便客户在部署 Foundry 模型时提高效率和节省成本。 例如,假设你有一个现有的 PTU 预留,并且购买了 500 PTU。 对 Azure OpenAI 模型使用 300 个单位,并且你选择使用 PTU 来部署具有 Foundry 模型上的 PTU 功能的 Azure DeepSeek、Azure Llama 或其他模型。
如果您将剩余的 200 PTU 用于 DeepSeek-R1,那么这 200 PTU 将自动享受预留折扣,总的预留使用量为 500 PTU。
如果使用 DeepSeek-R1 时使用 300 PTU,则其中 200 PTU 自动享受预留折扣,而超出预留的 100 PTU 将按 DeepSeek-R1 的小时费率收费。
若要了解如何通过 PTU 预留节省成本,请参阅使用 Microsoft Azure AI Foundry 预配吞吐量预留节省成本。
部署类型
在 Azure AI Foundry 中创建预配部署时,“创建部署”对话框中的部署类型可以设置为全局预配吞吐量、数据区域预配吞吐量或区域预配吞吐量部署类型,具体取决于给定工作负荷的数据处理需求。
在 Azure AI Foundry 中通过 CLI 或 API 创建预配部署时,可以将 sku-name
设置为 GlobalProvisionedManaged
、DataZoneProvisionedManaged
或 ProvisionedManaged
,这取决于给定工作负荷的数据处理需求。
部署类型 | CLI 中的 sku-name |
---|---|
全局预配吞吐量 | GlobalProvisionedManaged |
数据区域预配吞吐量 | DataZoneProvisionedManaged |
区域预配吞吐量 | ProvisionedManaged |
若要将以下 Azure CLI 示例命令适应不同的部署类型,请更新 sku-name
参数以匹配要部署的部署类型。
az cognitiveservices account deployment create \
--name <myResourceName> \
--resource-group <myResourceGroupName> \
--deployment-name MyDeployment \
--model-name gpt-4o \
--model-version 2024-08-06 \
--model-format OpenAI \
--sku-capacity 15 \
--sku-name GlobalProvisionedManaged
容量透明度
Azure 直接销售的模型是备受追捧的服务,客户需求可能超过服务 GPU 容量。 Microsoft 努力为所有需求旺盛的区域和模型提供容量,但但某个区域总是有售罄的可能。。 此约束可以限制某些客户在所需区域中创建所需模型、版本或 PTU 数量的部署的能力,即使它们在该区域中具有可用配额。 一般而言:
- 配额对可在订阅和区域中部署的最大 PTU 数施加限制,并且不能保证容量可用性。
- 容量是在部署时分配的,其保留的时间与部署的存在时间一样长。 如果服务容量不可用,部署将失败。
- 客户使用有关配额/容量可用性的实时信息,为具有所需模型容量的方案选择适当的区域。
- 纵向缩减或删除部署会将容量释放回区域。 如果以后纵向扩展或重新创建部署,则不能保证容量可用。
区域容量指南
若要确定部署所需的容量,请使用容量 API 或 Azure AI Foundry 部署体验来提供有关容量可用性的实时信息。
在 Azure AI Foundry 中,部署体验可以确定某个区域何时缺少部署模型所需的容量。 这涉及所需的模型、版本和 PTU 数量。 如果容量不可用,体验会指示用户选择备用区域。
有关部署体验的详细信息,请参阅 Azure AI Foundry 预配入门指南。
模型容量 API 可用于以编程方式标识指定模型的最大大小部署。 该 API 会同时考虑区域中的配额和服务容量。
如果可接受的区域无法支持所需的模型、版本和/或 PTU,客户还可以尝试以下步骤:
- 尝试使用较少的 PTU 进行部署。
- 尝试在不同的时间部署。 容量可用性根据客户需求动态变化,以后可能提供更多容量。
- 确保在所有可接受的区域中都有可用配额。 模型容量 API 和 Azure AI Foundry 体验在创建部署时会考虑返回的备用区域中的配额可用性。
如何监视容量?
Azure Monitor 中的预配托管使用率 V2 指标以 1 分钟的增量度量给定的部署使用率。 所有预配部署类型均经过优化,可确保使用一致的模型处理时间处理接受的调用(实际的端到端延迟取决于调用的特征)。
使用率性能的工作原理
预配的部署提供分配的模型处理容量,用于运行给定的模型。
在所有预配的部署类型中,超过容量时,API 将返回 429 HTTP 状态错误。 快速响应使用户能够决定如何管理其流量。 用户可以将请求重定向到单独的部署、标准部署实例,或使用重试策略来管理给定的请求。 服务将持续返回 429 HTTP 状态代码,直到利用率下降到 100% 以下。
收到 429 响应时该怎么办?
429 响应不是错误,而是设计中的一部分,其目的是告知用户某个时刻给定的部署已经完全被利用。 通过提供快速故障响应,可以控制如何以最符合应用程序要求的方式处理这些情况。
响应中的 retry-after-ms
和 retry-after
标头指示下一次调用接受前等待的时间。 选择如何处理此响应取决于应用程序要求。 下面是一些注意事项:
- 可考虑将流量重定向到其他模型、部署或体验。 此选项是最低延迟的解决方案,因为只要收到 429 信号,就可以立即执行该操作。 有关如何有效实现此模式的想法,请参阅此社区帖子。
- 如果可以接受更长的每次调用延迟,可实现客户端重试逻辑。 此选项提供每个 PTU 的最大吞吐量。 Azure AI Foundry 客户端库包含用于处理重试的内置功能。
服务如何决定何时发送 429?
在所有预配的部署类型中,每个请求都根据其提示大小、预期生成大小和模型单独评估,以确定其预期利用率。 此行为与标准部署形成鲜明对比,这些部署具有基于估计流量负载的 自定义速率限制行为 。 对于标准部署,如果流量未均匀分布,则此自定义速率限制行为可能会导致在定义配额值超出之前生成 HTTP 429 错误。
对于预配部署,我们通过使用漏桶算法的变体,将使用率保持在 100% 以下,同时允许出现一些流量突发。 宏观层面的逻辑如下:
每个客户都有可在部署中利用的容量且是固定的
发出请求时:
a。 当前利用率超过 100% 时,服务会返回一个 429 代码,其
retry-after-ms
标头设置为 100%,并一直持续到利用率低于 100% 为止b. 其他情况下,服务会结合提示令牌数(减去所有缓存令牌)和调用中的指定
max_tokens
来估计满足请求所需的利用率增量变更。 根据缓存令牌的大小,客户最多可以收到其提示令牌的 100% 折扣。max_tokens
如果未指定参数,服务将估计一个值。 当实际生成的令牌数量较少时,此估计可能会导致并发低于预期。 为实现最高的并发,请确保max_tokens
值尽可能接近实际生成大小。请求完成后,我们现在可知调用的实际计算成本。 为了确保计帐准确,我们使用以下逻辑更正利用率:
a。 如果估计了实际 >,则向部署的利用率添加差值。
b. 如果估计了实际 <,则减去差值。
根据部署的 PTU 数,总体利用率以连续速率递减。
注意
在利用率达到 100% 之前会接受调用。 在短时间内,可能会允许超过 100% 的突发,但随着时间的推移,流量利用率上限为 100%。
在部署中可以进行多少次并发调用?
可以实现的并发调用数取决于每个调用的形状(提示大小、max_tokens
参数等)。 服务会持续接受调用,直到利用率达到 100%。 若要确定并发调用的大致数量,可以在容量计算器中为特定调用形态模拟出每分钟的最大请求数。 如果系统生成的输出令牌数少于为 max_tokens
参数设置的数量,则预配的部署将接受更多请求。
Azure 直售模型的预配吞吐量功能
本部分列出了支持预配吞吐量功能的 Foundry 模型。 可以在表格中显示的模型中使用 PTU 配额和 PTU 预留。
以下是表中的一些重要要点:
此表中不包含模型版本。 在 Azure AI Foundry 门户中选择部署选项时,请检查每个模型支持的版本。
区域预配的吞吐量部署选项因区域而异。
新的 Azure 直售模型首先搭载全球预配吞吐量部署选项。 稍后会提供“数据区域预配”选项。
PTU 按区域和产品/服务类型进行管理。 PTU 配额和任何预留必须位于你希望使用的区域和形状(全球、数据区域、区域)中。
溢出是一项可选功能,用于管理预配部署的流量波动。 有关溢出的详细信息,请参阅使用溢出功能管理预配部署的流量(预览版)。
模型系列 | 模型名称 | 全局预配 | 数据区域预配 | 区域预配 | 溢出功能 |
---|---|---|---|---|---|
Azure OpenAI | Gpt4.1 | ✅ | ✅ | ✅ | ✅ |
Gpt 4.1 mini | ✅ | ✅ | ✅ | ✅ | |
Gpt 4.1 nano | ✅ | ✅ | ✅ | ✅ | |
Gpt 4o | ✅ | ✅ | ✅ | ✅ | |
Gpt 4o mini | ✅ | ✅ | ✅ | ✅ | |
Gpt 3.5 Turbo | ✅ | ✅ | ✅ | ✅ | |
o1 | ✅ | ✅ | ✅ | ✅ | |
O3 微型 | ✅ | ✅ | ✅ | ✅ | |
O4 微型 | ✅ | ✅ | ✅ | ✅ | |
Azure DeepSeek | DeepSeek-R1 | ✅ | |||
DeepSeek-V3-0324 | ✅ |
预配吞吐量功能的区域可用性
全局预配吞吐量模型可用性
区域 | o3 2025-04-16 |
o4-mini 2025-04-16 |
gpt-4.1 2025-04-14 |
gpt-4.1-nano 2025-04-14 |
gpt-4.1-mini 2025-04-14 |
o3-mini 2025年1月31日 |
o1 2024年12月17日 |
gpt-4o 2024年5月13日 |
gpt-4o 2024-08-06 |
gpt-4o 2024年11月20日 |
gpt-4o-mini 2024年07月18日 |
DeepSeek-R1 | DeepSeek-V3-0324 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
巴西南部 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
canadaeast | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
eastus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
eastus2 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
francecentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
德国西中部 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
italynorth | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
日本东部 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
koreacentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
northcentralus | ✅ | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
norwayeast | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
polandcentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
southafricanorth | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
southcentralus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
southeastasia | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
南印度 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
spaincentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
瑞典中部 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
瑞士北部 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
switzerlandwest | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
uaenorth | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
uksouth | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
欧洲西部 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
westus | ✅ | ✅ | ✅ | - | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
westus3 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
注意
gpt-4
版本:turbo-2024-04-09
的预配版本当前仅限于文本。