你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

了解与预配置吞吐量单位(PTU)相关的成本

本文介绍如何计算和了解与 PTU 相关的成本。 有关预配吞吐量产品/服务的概述,请参阅 什么是预配吞吐量?。 准备好注册预配的吞吐量产品/服务后,请参阅 入门指南

注意

在函数调用和代理用例中,令牌的使用量可能会变化。 在将工作负载迁移到 PTU 之前,应详细了解预期的每分钟令牌数 (TPM) 使用情况。

预配吞吐量单位

预配的吞吐量单位(PTU)是模型处理容量的通用单位,可用于调整预配部署的大小,以实现处理提示和生成完成所需的吞吐量。 预配吞吐量单位以配额的形式授予订阅。 每个配额特定于一个区域,定义了可分配给该订阅和区域中的部署的最大 PTU 数量。

了解预配的吞吐量计费

Azure AI Foundry 区域预配吞吐量数据区域预配吞吐量全局预配吞吐量 基于已部署的 PTU 数按小时购买,通过购买 Azure 预留提供大量期限折扣。

按小时计费的模型对于短期部署需求很有用,例如验证新模型或提升黑客马拉松的容量。  但是,Azure 预留为 Azure AI Foundry 区域预配、数据区域预配、全局预配提供的折扣相当可观,并且大多数长期持续使用的客户会发现预留模型具有更好的价值主张。

注意

在 8 月自助更新之前入驻的 Azure AI Foundry 预配客户使用称为“承诺模型”的购买模式。 这些客户可以继续将此旧购买模型与按小时计费/预留购买模型一起使用。 承诺模型不适用于新客户或 2024 年 8 月之后引入 的某些新模型 。 有关承诺购买模型和共存和迁移选项的详细信息,请参阅 Azure AI Foundry 预配的 8 月更新

与模型无关的配额

与其他 Azure AI Foundry 产品/服务使用的令牌每分钟(TPM)配额不同,PTU 与模型无关。 PTU 可用于部署区域中Microsoft直接托管和销售的任何受支持模型。

示意图显示与模型无关的配额,其中一个 PTU 池可用于多个 Azure OpenAI 模型。

预配部署的配额在 Azure AI Foundry 中显示为以下部署类型: 全局预配数据区域预配区域预配

部署类型 配额名称
区域预配 区域预配吞吐量单位
全局预配 全局预配吞吐量单位
预配的数据区域 数据区域预配吞吐量单位

Azure AI Foundry 预配的配额 UI 的屏幕截图。

每小时使用情况

区域性预配、数据区预配和全局性预配部署根据已部署的 PTU 数量按照每小时的费率($/PTU/小时)收费。  例如,部署 300 PTU 时将按小时费率乘以 300 收费。  Azure 定价计算器中提供了所有 Azure AI Foundry 模型定价。

如果部署时间不足一小时,则会根据该小时内部署的分钟数按比例收取费用。  例如,如果部署在一小时内持续了 15 分钟,则会按 1/4 的小时费用收费。 

如果部署规模发生变化,则部署成本将会调整以匹配新的 PTU 数量。

显示按小时计费的关系图。

按每小时付费使用区域预配、数据区预配和全球预配的部署方式,是短期部署场景的理想选择。  例如:对新模型的质量和性能进行基准测试,或暂时增加 PTU 容量以承载诸如黑客马拉松之类​​的活动。 

但是,需要长期使用区域预配、数据区域预配和全局预配部署的客户,可以通过通过 Azure 预留 购买期限折扣(如本文稍后所述)每月支付显著减少的费用。

重要

不建议根据传入流量缩放生产部署,并按小时付费。 原因有两点:

  • 通过购买 Azure AI Foundry 预配吞吐量、数据区域预配、全球预配的 Azure 预留可以节省大量成本,而且在许多情况下,与通过传入流量缩放部署相比,通过预留支付来维护一个适合全生产量规模的部署所需的成本更低。
  • 拥有未使用的预配配额(PTU)并不能保证在需要时有足够的容量来支持部署规模的增加。 配额限制可部署的最大 PTU 数,但这不是容量保证。 每个区域和模式的配置容量全天动态变化,并且可能在需要时不可用。 因此,建议保留永久部署以满足流量需求(通过预留付费)。 在清除资源之前,对已删除的资源的部署收费将继续进行。 若要防止这种情况,请先删除资源的部署,然后再删除资源。 有关详细信息,请参阅 “恢复或清除已删除的 Azure OpenAI 资源”。

每个模型的每个 PTU 的吞吐量是多少

部署的每个 PTU 的吞吐量(以每分钟标记数 (TPM) 为单位)取决于给定分钟的输入和输出标记数。 生成输出令牌所需的处理要比生成输入令牌多。  从 GPT 4.1 模型及更高版本开始,系统会匹配输入和输出令牌之间的全球标准价格比率。 缓存的令牌将从利用率中扣除 100%。

例如,对于 gpt-4.1:2025-04-14,1 个输出令牌相当于 4 个输入令牌,这些输入令牌计算在与 定价相匹配的使用限额中。 较旧的模型使用不同的比率,并更深入地了解输入和输出令牌的不同比率如何影响工作负荷所需的吞吐量,请参阅 Azure AI Foundry PTU 配额计算器

主题 o4-mini gpt-4.1 gpt-4.1-mini gpt-4.1-nano o3 o3-mini o1 gpt-4o gpt-4o-mini DeepSeek-R1 DeepSeek-V3-0324
全局和数据区域预配最小部署 15 15 15 15 15 15 15 15 15 100 100
全局和数据区域预配规模增量 5 5 5 5 5 5 5 5 5 100 100
区域预配的最低部署 二十五 50 二十五 二十五 50 二十五 二十五 50 二十五 暂无 暂无
区域预配的规模增量 二十五 50 二十五 二十五 50 二十五 50 50 二十五 暂无 暂无
每个 PTU 的输入 TPM 5,400 3,000 14,900 59,400 600 2,500 230 2,500 37,000 4,000 4,000
延迟目标值 每秒 66 个令牌 每秒 40 个令牌 每秒 50 个令牌 每秒 60 个令牌 每秒 40 个令牌 每秒 66 个令牌 每秒 25 个令牌 每秒 25 个令牌 每秒 33 个令牌 每秒 50 个令牌 每秒 50 个令牌

有关完整列表,请参阅 Azure AI Foundry 计算器

确定工作负载所需的 PTU 数

确定工作负载所需的适量预配吞吐量 (PTU) 是优化性能和成本的重要步骤。

PTU 表示模型处理容量。 与计算机或数据库类似,对模型的不同工作负载或请求将消耗不同的基础处理容量。 你可以使用历史令牌使用情况数据或调用形状估计(输入令牌、输出令牌和每分钟请求数)来近似计算从吞吐量需求到 PTU 的转换,如我们性能和延迟一文中所述。 为了简化此过程,可以使用 Azure AI Foundry PTU 配额计算器 调整特定工作负荷形状的大小。

一些笼统的注意事项:

  • 生成比提示需要更多的容量
  • 对于 GPT-4o 及更新的模型,将分别为输入和输出标记设置每个 PTU 的 TPM。 对于较旧的模型,越大的调用计算起来越昂贵。 例如,100 个具有 1000 标记提示大小的调用所需的容量小于提示中具有 100,000 个标记的 1 个调用。 这种分层意味着这些调用形态的分布对于整体吞吐量来说很重要。 平均提示和补全标记大小相同的情况下,分布广泛的流量模式(包含一些较大的调用)可能比分布较窄的模式经历更低的每 PTU 吞吐量。

获取 PTU 配额

客户需要通过 请求配额链接请求配额。 如果需要更多配额,则还需要通过此链接请求配额。 可以在 Azure AI Foundry 管理中心的配额中心找到此链接。 客户可以利用表单请求增加给定区域的指定 PTU 配额。 一旦请求获得批准,客户将在包含的地址收到一封电子邮件(通常在两个工作日内收到)。

每模型的 PTU 最小值

与每个单元关联的最小 PTU 部署、增量和处理容量因模型类型和版本而异。 有关详细信息,请参阅上

估计预配吞吐量单位和成本

若要使用输入和输出 TPM 快速估计工作负载,请使用部署对话屏幕的部署详细信息部分中的内置容量规划器。 内置容量规划器是部署工作流的一部分,可帮助简化给定工作负载的 PTU 部署的大小调整和配额分配。 有关如何识别和估计 TPM 数据的详细信息,请查看性能和延迟文档中的建议。

若要使用容量规划器,请转到 Azure AI Foundry 门户,然后选择“ 部署 ”按钮。 然后选择“ 部署模型”。

模型部署屏幕的屏幕截图。

选择模型,然后单击“ 确认”。 选择预配吞吐量部署类型。 在内置容量计算器中填写输入和输出 TPM 数据后,选择“计算”按钮以查看 PTU 分配建议。

部署工作流 PTU 容量计算器的屏幕截图。

若要使用请求级别数据估计预配的容量,请在 Azure AI Foundry 中打开容量规划器。 容量计算器位于 管理中心>配额>预配吞吐量下。

预配吞吐量 ”选项和计算器仅在“配额”窗格中的某些区域中可用,如果未看到此选项将配额区域设置为 “瑞典中部 ”,则此选项将可用。 根据工作负载输入以下参数。

输入 说明
型号 计划使用的模型。 例如:GPT-4
版本 计划使用的模型版本,例如 0614
每分钟的峰值调用数 预期发送到模型的每分钟调用数
提示调用中的令牌 每次调用模型时提示中的令牌数。 具有较大提示的调用会耗费更多 PTU 部署。 目前,该计算器会假设一个提示值,以便处理差异很大的工作负载。 建议根据你的流量对部署进​​行基准测试,以确定部署所需的 PTU 最准确的估计值。
模型响应中的令牌 每次调用模型时生成的令牌数。 生成规模较大的调用将耗费更多 PTU 部署。 目前,该计算器会假设一个提示值,以便处理差异很大的工作负载。 建议根据你的流量对部署进​​行基准测试,以确定部署所需的 PTU 最准确的估计值。

填写所需详细信息后,在输出列中选择“计算”按钮。

输出列中的值是提供的工作负载输入所需的 PTU 单元的估计值。 第一个输出值表示工作负载所需的预估 PTU 单元数,舍入为最近的 PTU 缩放增量。 第二个输出值表示工作负载所需的原始估计 PTU 单元数。 使用以下公式计算令牌总数:Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response)

容量计算器的屏幕截图

注意

容量计算器根据简单的输入条件提供预估值。 确定容量的最准确方法是使用用例的代表性工作负载对部署进行基准测试。

Azure AI Foundry 预配吞吐量的 Azure 预留

通过购买 Azure AI Foundry 区域预配、数据区域预配、全局预配的 Azure 预留,可以在每小时使用价格的基础上获享折扣。 Azure 预留是许多 Azure 产品共享的期限折扣机制。 例如,计算和 Cosmos DB。 对于 Azure AI Foundry 区域预配、数据区域预配和全球预配,预留会提供一个折扣,以换取承诺在一个月或一年内为固定数量的 PTU 付费。 

  • Azure 预留是通过 Azure 门户购买的,而不是通过 Azure AI Foundry 门户。请参见链接以访问 Azure 预留门户。

  • 预留是按区域购买的,并且可以灵活地调整范围以覆盖一组部署的使用。 预留范围包括:

    • 单个资源组或订阅

    • 管理组中的一组订阅

    • 计费帐户中的所有订阅

  • 这意味着新的预留可以覆盖与当前预留相同的范围,从而可以针对新计划部署获取折扣。 也可以在不受到处罚的情况下随时更新现有预留的范围,例如覆盖新的订阅。

  • 全球、数据区域和区域部署的预留不可互换。 你需要为每个部署类型购买单独的预留。

  • 可以在购买后取消预留,但额度有限。

  • 如果预留范围内配置的部署规模超出预留量,则超出部分将按小时费率收费。 例如,如果在 200 PTU 预留范围内存在总计 250 PTU 的部署,则每小时将收取 50 PTU 的费用,直到部署规模减少到 200 PTU,或者创建新的预留以容纳余下的 50 PTU。

  • 预留可保证在选定期限内享受折扣价格。  它们不会保留服务容量,也不会保证在创建部署时可用。 强烈建议客户在购买预留之前创建部署,以防止过度购买预留。

重要

  • 模型部署的容量可用性是动态的,并且会在区域和模型间频繁变化。 若要防止购买比可以使用的 PTU 更多的预留,请先创建部署,然后购买 Azure 预留,以覆盖你已部署的 PTU。 此最佳做法将确保你可以充分利用预留折扣,并防止购买你无法使用的期限套餐。

  • 购买预留的 Azure 角色和租户策略要求与创建部署或 Azure AI Foundry 资源所需的要求不同。 在需要之前验证购买预留的授权。 有关更多详细信息,请参阅 Azure AI Foundry 预配吞吐量预留

重要说明:调整 Azure AI Foundry 预配吞吐量预留的大小

预留购买中的 PTU 数量与配额中分配的或部署中使用的 PTU 数量无关。 可以购买超出配额的 PTU 预留,或者可以为所需的区域、模型或版本进行部署。 过度购买预留的额度有限,客户必须采取措施,确保其预留大小符合已部署的 PTU。

最佳做法是在创建部署后始终购买预留。 这可以避免出现在购买预留后发现所需的容量不适用于所需的区域或模型的情况。

全球、数据区域和区域部署的预留不可互换。 你需要为每个部署类型购买单独的预留。

协助客户购买正确的预留数量。 Azure AI Foundry 的“配额”页上列出了订阅和区域中可通过预留覆盖的 PTU 总数。 请参阅消息“可用于预留的 PTU。”

显示可用 PTU 配额的屏幕截图。

管理 Azure 预留

创建预留后,最佳做法是对其进行监视,以确保其达到预期的使用效果。 这可以通过 Azure 预留门户或 Azure Monitor 来完成。 关于这些文章和其他文章的详细信息可以在这里找到:

后续步骤