大規模言語モデル API トークンの使用を制限する

2025-05-11

llm-token-limit ポリシーでは、言語モデルトークンの使用量を、指定したレート (1 分あたりの数)、指定した期間のクォータ、またはその両方に制限することで、キーごとに大規模な言語モデル (LLM) API の使用が急増しないようにします。指定したトークンレート制限を超えると、呼び出し元は 429 Too Many Requests 応答状態コードを受け取ります。指定したクォータを超えると、呼び出し元は 403 Forbidden 応答状態コードを受け取ります。

LLM エンドポイントから返されるトークン使用状況メトリックを使用することで、ポリシーはリアルタイムで制限を正確に監視して適用できます。このポリシーにより、API Management によるプロンプトトークンの事前計算も可能になり、制限を既に超えている場合に LLM バックエンドへの不要な要求が最小限に抑えられます。

注

ポリシーの要素と子要素を、ポリシーステートメントで指定された順序で設定します。 API Management ポリシーを設定または編集する方法について説明します。

サポートされているモデル

Azure AI モデル推論 API またはサードパーティの推論プロバイダーを介して提供される OpenAI と互換性のあるモデルを使用して、Azure API Management に追加された LLM API でポリシーを使用します。

ポリシーステートメント

<llm-token-limit counter-key="key value"
        tokens-per-minute="number"
        token-quota="number"
        token-quota-period="Hourly | Daily | Weekly | Monthly | Yearly"
        estimate-prompt-tokens="true | false"    
        retry-after-header-name="custom header name, replaces default 'Retry-After'" 
        retry-after-variable-name="policy expression variable name"
        remaining-quota-tokens-header-name="header name"  
        remaining-quota-tokens-variable-name="policy expression variable name"
        remaining-tokens-header-name="header name"  
        remaining-tokens-variable-name="policy expression variable name"
        tokens-consumed-header-name="header name"
        tokens-consumed-variable-name="policy expression variable name" />

属性

属性	説明	必要	既定値
counter-key	トークン制限ポリシーに使用するキー。キー値ごとに、ポリシーが構成されているすべてのスコープに対して 1 つのカウンターが使用されます。ポリシー式を使用できます。	はい	該当なし
tokens-per-minute	1 分あたりのプロンプトと入力候補によって消費されるトークンの最大数。	レート制限 (`tokens-per-minute`)、クォータ (`token-quota`に対する`token-quota-period`)、またはその両方を指定する必要があります。	該当なし
token-quota	`token-quota-period`で指定された時間間隔中に許可されるトークンの最大数。ポリシー式は使用できません。	レート制限 (`tokens-per-minute`)、クォータ (`token-quota`に対する`token-quota-period`)、またはその両方を指定する必要があります。	該当なし
token-quota-period	`token-quota`がリセットされた後の固定ウィンドウの長さ。値は、 `Hourly`、`Daily`、 `Weekly`、 `Monthly`、 `Yearly`のいずれかである必要があります。クォータ期間の開始時刻は、期間に使用された単位 (時間、日など) に切り捨てられた UTC タイムスタンプとして計算されます。	レート制限 (`tokens-per-minute`)、クォータ (`token-quota`に対する`token-quota-period`)、またはその両方を指定する必要があります。	該当なし
estimate-prompt-tokens	プロンプトに必要なトークンの数を見積もるかどうかを決定するブール値。 - `true`: API のプロンプトスキーマに基づいてトークンの数を見積もります。パフォーマンスが低下する可能性があります。 - `false`: プロンプトトークンを見積もりません。 `false` に設定すると、モデルの応答からの実際のトークン使用量を使って、`counter-key` ごとの残りのトークンが計算されます。これにより、トークンの制限を超えるプロンプトがモデルに送信される可能性があります。そのような場合、これは応答で検出され、トークンの制限が再び解放されるまで、すべての後続の要求はポリシーによってブロックされます。	はい	該当なし
retry-after-header-name	指定した `tokens-per-minute` または `token-quota` を超えた後の推奨される再試行間隔を秒単位で指定したカスタム応答ヘッダーの名前。ポリシー式は使用できません。	いいえ	`Retry-After`
retry-after-variable-name	指定した `tokens-per-minute` または `token-quota` を超えた後の推奨される再試行間隔を秒単位で格納する変数の名前。ポリシー式は使用できません。	いいえ	該当なし
remaining-quota-tokens-header-name	各ポリシーの実行後の値が、`token-quota`で許可される`token-quota-period`に対応する残りのトークンの数である応答ヘッダーの名前。ポリシー式は使用できません。	いいえ	該当なし
remaining-quota-tokens-variable-name	各ポリシーの実行後に、`token-quota`で許可される`token-quota-period`に対応する残りのトークンの数を格納する変数の名前。ポリシー式は使用できません。	いいえ	該当なし
remaining-tokens-header-name	各ポリシーの実行後の値が、時間間隔で許可される `tokens-per-minute` に対応する残りのトークンの数である応答ヘッダーの名前。ポリシー式は使用できません。	いいえ	該当なし
remaining-tokens-variable-name	各ポリシーの実行後に、時間間隔で許可される `tokens-per-minute` に対応する残りのトークンの数を格納する変数の名前。ポリシー式は使用できません。	いいえ	該当なし
tokens-consumed-header-name	値がプロンプトと入力候補の両方で使用されるトークンの数である応答ヘッダーの名前。ヘッダーは、バックエンドから応答を受信した後にのみ応答に追加されます。ポリシー式は使用できません。	いいえ	該当なし
tokens-consumed-variable-name	`backend` が `estimate-prompt-tokens` の場合はパイプラインの `true` セクションにおけるプロンプトのトークンの見積もり数 (それ以外の場合は 0) に初期化された変数の名前。この変数は、`outbound` セクションで応答を受信すると、報告されたカウントで更新されます。	いいえ	該当なし

使用法

ポリシーセクション: inbound
ポリシースコープ: グローバル、ワークスペース、製品、API、操作
ゲートウェイ: クラシック、v2、セルフホステッド、ワークスペース

使用上の注意

このポリシーは、ポリシー定義ごとに複数回使用できます。
estimate-prompt-tokens が false に設定されているときに使用可能な場合、LLM API からの応答の使用状況セクションの値を使用してトークンの使用状況を判別します。
特定の LLM エンドポイントでは、応答のストリーミングがサポートされています。 API 要求で stream が true に設定されてストリーミングを有効になっている場合は、estimate-prompt-tokens 属性の値に関係なく、プロンプトトークンが常に推定されます。
イメージ入力を受け入れるモデルの場合、通常、イメージトークンはバックエンド言語モデルによってカウントされ、制限とクォータの計算に含まれます。ただし、ストリーミングが使用されるか、 estimate-prompt-tokens が trueに設定されている場合、ポリシーは現在、各イメージを 1200 トークンの最大カウントとしてオーバーカウントします。
API Management では、ポリシーで指定した counter-key 値ごとに 1 つのカウンターが使用されます。このカウンターは、ポリシーがそのキー値で構成されているすべてのスコープで更新されます。異なるスコープ (特定の API や製品など) で個別のカウンターを構成する場合は、異なるスコープで異なるキー値を指定します。たとえば、式の値にスコープを識別する文字列を追加します。
このポリシーは、複数リージョンデプロイのワークスペースゲートウェイやリージョンゲートウェイなど、適用される各ゲートウェイでトークンの使用状況を個別に追跡します。インスタンス全体のトークン数は集計されません。

例示

トークンレートの制限

次の例では、1 分あたり 5000 のトークンレート制限が呼び出し元の IP アドレスによってキー設定されます。このポリシーでは、プロンプトに必要なトークンの数は見積もられません。各ポリシーの実行後、その期間中にその呼び出し元 IP アドレスに対して許可されている残りのトークンが remainingTokens 変数に格納されます。

<policies>
    <inbound>
        <base />
        <llm-token-limit
            counter-key="@(context.Request.IpAddress)"
            tokens-per-minute="5000" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens" />
    </inbound>
    <outbound>
        <base />
    </outbound>
</policies>

トークンクォータ

次の例では、10000 のトークンクォータがサブスクリプション ID によってキー設定され、毎月リセットされます。各ポリシーの実行後、期間内にそのサブスクリプション ID に対して許可される残りのトークンの数は、変数 remainingQuotaTokensに格納されます。

<policies>
    <inbound>
        <base />
        <llm-token-limit
            counter-key="@(context.Subscription.Id)"
            token-quota="100000" token-quota-period="Monthly" remaining-quota-tokens-variable-name="remainingQuotaTokens" />
    </inbound>
    <outbound>
        <base />
    </outbound>
</policies>

ポリシーに対する処理の詳細については、次のトピックを参照してください。

チュートリアル:API を変換および保護する
ポリシーステートメントとその設定の一覧に関するポリシーリファレンス
ポリシー式
ポリシーの設定または編集
ポリシー構成を再利用する
ポリシースニペットのリポジトリ
ポリシープレイグラウンドリポジトリ
Azure API Management ポリシーツールキット
ポリシーの作成、説明、トラブルシューティングを行う Copilot のサポートを受ける

次の方法で共有

大規模言語モデル API トークンの使用を制限する

サポートされているモデル

ポリシー ステートメント

属性

使用法

使用上の注意

例示

トークン レートの制限

トークン クォータ

関連ポリシー

関連するコンテンツ

フィードバック

その他のリソース

ポリシーステートメント

トークンレートの制限

トークンクォータ