限制 Azure OpenAI API 令牌使用量

项目
2025-05-20

适用范围：开发人员 | 基本 | 基本 v2 | 标准 | 标准 v2 | 高级 | 高级 v2

该 azure-openai-token-limit 策略通过将语言模型令牌的使用限制为指定速率（每分钟数）、指定时间段内配额，或同时限制每个键的 Azure OpenAI 服务 API 使用率峰值。超过指定的令牌速率限制后，调用方会收到 429 Too Many Requests 响应状态代码。超过指定的配额后，调用方会收到 403 Forbidden 响应状态代码。

通过依赖于 OpenAI 终结点返回的令牌使用指标，策略可以实时准确监视和强制实施限制。策略还允许 API 管理预先计算提示令牌，在已超出限制时最大程度地减少对 OpenAI 后端的不必要的请求。

注意

按照策略声明中提供的顺序设置策略的元素和子元素。详细了解如何设置或编辑 API 管理策略。

受支持的 Azure OpenAI 服务模型

策略与从以下类型的 Azure OpenAI 服务添加到 API 管理的 API 结合使用：

API 类型	支持的模型
聊天补全	`gpt-3.5` `gpt-4` `gpt-4o` `gpt-4o-mini` `o1` `o3`
嵌入	`text-embedding-3-large` `text-embedding-3-small` `text-embedding-ada-002`
响应（预览版）	`gpt-4o`（版本：`2024-11-20`、`2024-08-06`、`2024-05-13`） `gpt-4o-mini` （版本： `2024-07-18`） `gpt-4.1` （版本： `2025-04-14`） `gpt-4.1-nano` （版本： `2025-04-14`） `gpt-4.1-mini` （版本： `2025-04-14`） `gpt-image-1` （版本： `2025-04-15`） `o3` （版本： `2025-04-16`） `o4-mini` （版本：'2025-04-16）

注意

传统完成 API 仅适用于旧模型版本，并且支持受到限制。

有关模型及其功能的当前信息，请参阅 Azure OpenAI 服务模型。

策略语句

<azure-openai-token-limit counter-key="key value"
        tokens-per-minute="number"
        token-quota="number"
        token-quota-period="Hourly | Daily | Weekly | Monthly | Yearly"
        estimate-prompt-tokens="true | false"    
        retry-after-header-name="custom header name, replaces default 'Retry-After'" 
        retry-after-variable-name="policy expression variable name"
        remaining-quota-tokens-header-name="header name"  
        remaining-quota-tokens-variable-name="policy expression variable name"
        remaining-tokens-header-name="header name"  
        remaining-tokens-variable-name="policy expression variable name"
        tokens-consumed-header-name="header name"
        tokens-consumed-variable-name="policy expression variable name" />

属性

属性	说明	需要	默认
counter-key	用于令牌限制策略的密钥。对于每个键值，单个计数器用于配置策略的所有范围。允许使用策略表达式。	是	空值
token-per-minute	每分钟提示和完成消耗的最大令牌数。	必须指定速率限制（`tokens-per-minute`）、配额（`token-quota` 超过一个 `token-quota-period`）或两者。	空值
token-quota	在指定的时间间隔内 `token-quota-period`允许的最大令牌数。不允许使用策略表达式。	必须指定速率限制（`tokens-per-minute`）、配额（`token-quota` 超过一个 `token-quota-period`）或两者。	空值
token-quota-period	在其中重置的固定窗口 `token-quota` 的长度。该值必须是下列值之一：`Hourly`、`Daily`、`Weekly`、`MonthlyYearly`。配额周期的开始时间是使用 UTC 时间戳截断为该时间段使用的单位（小时、天等）。。	必须指定速率限制（`tokens-per-minute`）、配额（`token-quota` 超过一个 `token-quota-period`）或两者。	空值
estimate-prompt-tokens	确定是否估算提示所需的令牌数的布尔值： - `true`：根据 API 中的提示架构估算令牌数；可能会降低性能。 - `false`：不要估算提示令牌。当设置为 `false` 时，每个 `counter-key` 的剩余令牌将根据模型响应中的实际令牌使用情况来计算。这可能导致向模型发送超出令牌限制的提示。在这种情况下，会在响应中检测到它，所有后续请求会被策略阻止，直到令牌限制再次被取消。	是	空值
retry-after-header-name	自定义响应标头的名称，其值是指定或`tokens-per-minute`超出指定`token-quota`或超出后建议的重试间隔（以秒为单位）。不允许使用策略表达式。	否	`Retry-After`
retry-after-variable-name	一个变量的名称，该变量存储建议的重试间隔（以秒为单位指定或`tokens-per-minutetoken-quota`超出）。不允许使用策略表达式。	否	空值
remaining-quota-tokens-header-name	响应标头的名称，其每个策略执行后的值是对应于允许的`token-quota`剩余令牌`token-quota-period`数。不允许使用策略表达式。	否	空值
remaining-quota-tokens-variable-name	每个策略执行之后的变量的名称存储与 `token-quota` 允许的 `token-quota-period`剩余令牌数。不允许使用策略表达式。	否	空值
remaining-tokens-header-name	响应标头的名称，其每个策略执行后的值是时间间隔所允许的剩余令牌 `tokens-per-minute` 数。不允许使用策略表达式。	否	空值
remaining-tokens-variable-name	每个策略执行后存储时间间隔所允许的剩余令牌 `tokens-per-minute` 数的变量的名称。不允许使用策略表达式。	否	空值
tokens-consumed-header-name	响应标头的名称，其值为提示和完成使用的令牌数。只有当从后端收到响应后，才会将标头添加到响应。不允许使用策略表达式。	否	空值
tokens-consumed-variable-name	如果`backend`为`estimate-prompt-tokens`，则变量在管道的`true`部分中初始化为估算的令牌数，否则为零。在`outbound`部分收到响应时，该变量会随报告的计数一起更新。	否	空值

使用情况

策略节：入站
策略范围：全局、工作区、产品、API、操作
网关：经典、v2、自承载、工作区

使用注意事项

每个策略定义可以多次使用此策略。
使用门户从 Azure OpenAI 服务添加 API 时，可以选择配置此策略。
如果可以将 estimate-prompt-tokens 设置为 false，则使用 Azure OpenAI 服务 API 响应的使用情况部分中的值来确定令牌使用情况。
某些 Azure OpenAI 终结点支持流式处理响应。如果在 API 请求中将 stream 设为 true 来启用流式处理，则无论 estimate-prompt-tokens 属性的值如何，都始终会估算提示令牌。当响应被流式传输时，将同时估计补全标记。
对于接受图像输入的模型，映像令牌通常由后端语言模型计数，并包含在限制和配额计算中。但是，使用或 estimate-prompt-tokens 设置为 true流式处理时，策略当前会将每个图像的计数过度，最大计数为 1200 个令牌。
API 管理对策略中指定的每个 counter-key 值使用单个计数器。在策略配置了此键值的所有作用域中，计数器都会更新。如果要在不同的作用域（例如，特定 API 或产品）配置单独的计数器，请在不同的作用域指定不同的键值。例如，将标识作用域的字符串追加到表达式的值。
此策略在应用令牌的每个网关上独立跟踪令牌使用情况，包括多区域部署中的工作区网关和区域网关。它不会在整个实例中聚合令牌计数。

例子

令牌速率限制

在以下示例中，令牌速率限制为每分钟 5000 个，由调用方 IP 地址进行密钥处理。策略不会估算提示所需的令牌数。每次执行策略后，在该时间段内允许用于此调用方 IP 地址的剩余令牌存储在变量 remainingTokens 中。

<policies>
    <inbound>
        <base />
        <azure-openai-token-limit
            counter-key="@(context.Request.IpAddress)"
            tokens-per-minute="5000" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens" />
    </inbound>
    <outbound>
        <base />
    </outbound>
</policies>

令牌配额

在以下示例中，令牌配额为 10000 由订阅 ID 进行密钥，每月重置。执行每个策略后，该时间段内该订阅 ID 允许的剩余令牌数存储在变量 remainingQuotaTokens中。

<policies>
    <inbound>
        <base />
        <azure-openai-token-limit
            counter-key="@(context.Subscription.Id)"
            token-quota="100000" token-quota-period="Monthly" remaining-quota-tokens-variable-name="remainingQuotaTokens" />
    </inbound>
    <outbound>
        <base />
    </outbound>
</policies>

有关使用策略的详细信息，请参阅：

通过