次の方法で共有


プロビジョニング済みスループット ユニット (PTU) に関連するコストについて

この記事では、PTU に関連するコストの計算と理解について説明します。 プロビジョニング済みスループット オファリングの概要については、「 プロビジョニング済みスループットとは」を参照してください。 プロビジョニングされたスループット オファリングにサインアップする準備ができたら、 ファースト ステップ ガイドを参照してください。

関数呼び出しとエージェントのユース ケースでは、トークンの使用法が変わる可能性があります。 ワークロードを PTU に移行する前に、予想される 1 分あたりのトークン (TPM) の使用状況について詳しく理解しておく必要があります。

プロビジョニング スループット ユニット

プロビジョニング済みスループット ユニット (PTU) は、プロンプトの処理と完了の生成に必要なスループットを実現するためにプロビジョニングされたデプロイのサイズを設定するために使用できる、モデル処理容量の汎用ユニットです。 プロビジョニングされたスループット ユニットは、クォータとしてサブスクリプションに付与されます。 各クォータは Azure リージョンに固有であり、そのサブスクリプションおよび Azure リージョン内のデプロイに割り当てられる PTU の最大数が定義されます。

プロビジョニングされたスループットの課金について

Azure AI Foundry リージョンプロビジョニングスループットデータ ゾーンプロビジョニングスループットグローバルプロビジョニングスループット は、デプロイされた PTU の数に基づいてオンデマンドで 1 時間ごとに購入され、 Azure 予約を購入すると大幅な期間割引が利用できます。

時間単位モデルは、新しいモデルの検証やハッカソン用の容量の取得など、短期的なデプロイのニーズに便利です。  ただし、Azure RESERVATION for Azure AI Foundry Regional Provisioned、Data Zone Provisioned、Global Provisioned によって提供される割引は相当なものであり、一貫した長期的な使用を持つほとんどのお客様は、予約済みモデルをより適切な価値提案と見なします。

8 月のセルフサービス更新プログラムの前にオンボードされた Azure AI Foundry Provisioned のお客様は、コミットメント モデルと呼ばれる購入モデルを使用します。 これらの顧客は、時間単位の予約購入モデルと共に、この以前の購入モデルを引き続き使用できます。 コミットメント モデルは、2024 年 8 月以降に導入された新規顧客または 特定の新しいモデル では使用できません。 コミットメント購入モデルと共存と移行のオプションの詳細については、 Azure AI Foundry Provisioned August Update を参照してください。

モデルに依存しないクォータ

他の Azure AI Foundry オファリングで使用される 1 分あたりのトークン (TPM) クォータとは異なり、PTU はモデルに依存しません。 PTU を使用して、Microsoft によって直接ホストおよび販売されているサポートされているモデルをリージョンにデプロイできます。

複数の Azure OpenAI モデルで使用できる 1 つの PTU プールを持つ、モデルに依存しないクォータの図。

プロビジョニングされたデプロイのクォータは、Azure AI Foundry に次のデプロイの種類として表示されます。 グローバル プロビジョニング済みデータ ゾーンプロビジョニング 済み、 リージョンプロビジョニング済み

展開の種類 クォータ名
リージョン プロビジョニング済み リージョン プロビジョニング スループット ユニット
グローバルに設定済み グローバル プロビジョニング スループット ユニット
プロビジョニングされたデータ ゾーン データ ゾーン プロビジョニング スループット ユニット

プロビジョニングされた Azure AI Foundry のクォータ UI のスクリーンショット。

時間単位の使用量

リージョン プロビジョニング済み、データ ゾーン プロビジョニング済み、グローバル プロビジョニング済みデプロイは、デプロイされた PTU の数に対して 1 時間あたりの料金 ($/PTU/時間) が課金されます。  たとえば、300 PTU のデプロイでは、時間単位料金の 300 倍が課金されます。  すべての Azure AI Foundry モデルの価格は、Azure 料金計算ツールで入手できます。

ある 1 時間についてデプロイが存在する場合、その時間内にデプロイされた分数に基づいて日割り料金が発生します。  たとえば、1 時間のうち 15 分間存在したデプロイには、時間単位の料金の 1/4 がかかります。 

デプロイのサイズが変更された場合、デプロイのコストは、新しい PTU の数に合わせて調整されます。

時間単位の課金を示す図。

リージョン プロビジョニング済み、データ ゾーン プロビジョニング済み、グローバル プロビジョニング済みデプロイの時間単位での支払いは、短期的なデプロイシナリオに最適です。  たとえば、新しいモデルの品質とパフォーマンスのベンチマークや、ハッカソンなどのイベントに対応するための PTU 容量の一時的な増量などです。 

ただし、リージョンプロビジョニング済み、プロビジョニング済みデータ ゾーン、グローバル プロビジョニング済みデプロイの長期使用を必要とするお客様は、この記事で後述するように 、Azure Reservations を使用して期間割引を購入することで、1 か月あたりの支払いが大幅に少なくなる可能性があります。

重要

生じるトラフィックに応じて運用環境の展開を拡大し、時間単位で料金を純粋に支払うことは推奨されません。 これには 2 つの理由があります:

  • Azure AI Foundry Provisioned Throughput、Data Zone Provisioned、Global Provisioned の Azure Reservations を購入することで実現されるコスト削減は大きく、多くの場合、着信トラフィックでデプロイをスケーリングするよりも、予約を介して支払われる完全な運用ボリュームのデプロイ サイズを維持する方がコストが低くなります。
  • 未使用のプロビジョニング済みクォータ (PTU) を使用しても、必要に応じてデプロイのサイズの増加をサポートするために容量が使用可能になることは保証されません。 クォータでは、デプロイできる PTU の最大数が制限されますが、容量の保証ではありません。 リージョンとモデルごとのプロビジョニングされた容量は、1 日を通して動的に変化し、必要なときに利用できない場合があります。 その結果、トラフィックのニーズに対応するために永続的なデプロイを維持することをお勧めします (予約経由で支払われます)。 削除されたリソース上のデプロイにかかる料金は、リソースが消去されるまで継続されます。 これを回避するには、リソースを削除する前に、リソースのデプロイを削除します。 詳細については、「 削除された Azure OpenAI リソースの復旧または消去」を参照してください。

各モデルに対して取得される PTU あたりのスループット量

デプロイが PTU ごとに取得するスループットの量 (1 分あたりのトークン数または TPM 単位) は、特定の分の入力トークンと出力トークンの関数です。 出力トークンの生成には、入力トークンより多くの処理が必要です。  GPT 4.1 以降のモデル以降、システムは入力トークンと出力トークンのグローバル標準価格比に一致します。 キャッシュされたトークンは、使用率から 100% 差し引かれます。

たとえば、 gpt-4.1:2025-04-14の場合、1 つの出力トークンは、 価格に一致する使用率制限に対して 4 つの入力トークンとしてカウントされます。 古いモデルでは異なる比率が使用され、入力トークンと出力トークンの比率がワークロードのニーズのスループットにどのように影響するかについて詳しく理解するには、 Azure AI Foundry PTU クォータ計算ツールを参照してください。

トピック o4-mini gpt-4.1 gpt-4.1-mini gpt-4.1-nano o3 o3-mini o1 gpt-4o gpt-4o-mini DeepSeek-R1 DeepSeek-V3-0324
グローバルおよびデータ ゾーン プロビジョニング済み最小デプロイ 15 15 15 15 15 15 15 15 15 100 100
グローバルおよびデータ ゾーン プロビジョニング済みスケールの増分 5 5 5 5 5 5 5 5 5 100 100
リージョンでプロビジョニングされた最小デプロイ 二十五 50 二十五 二十五 50 二十五 二十五 50 二十五 NA NA
リージョンによってプロビジョニングされたスケールの増分 二十五 50 二十五 二十五 50 二十五 50 50 二十五 NA NA
PTU あたりの入力 TPM 5,400 3,000 14,900 5万9千4百 600 2,500 230 2,500 37,000 4,000 4,000
待機時間目標値 99% > 1 秒あたり 66 トークン* 99% > 1 秒あたり 40 トークン* 99% > 1 秒あたり 50 トークン* 99% > 1 秒あたり 60 トークン* 99% > 1 秒あたり 40 トークン* 99% > 1 秒あたり 66 トークン* 99% > 1 秒あたり 25 トークン* 99% > 1 秒あたり 25 トークン* 99% > 1 秒あたり 33 トークン* 99% > 1 秒あたり 50 トークン* 99% > 1 秒あたり 50 トークン*

* 1 か月の平均要求待ち時間 (分単位) として計算されます。

完全な一覧については、 Azure AI Foundry 計算ツールを参照してください。

ワークロードに必要な DTU の数の決定

ワークロードに必要なプロビジョニング スループット (PTU) の適切な量を決定することは、パフォーマンスとコストを最適化するために不可欠な手順です。

PTU は、モデルの処理容量の大きさを表します。 コンピューターやデータベースと同様に、モデルに対するワークロードや要求が異なると、基になる処理容量の消費量が異なります。 スループットのニーズから PTU への変換は、パフォーマンスと待ち時間のドキュメントで概説されているように、トークンの使用状況の履歴データまたは呼び出し形状の見積もり (1 分あたりの入力トークン、出力トークン、要求の数) を使用して近似できます。 このプロセスを簡略化するために、 Azure AI Foundry PTU クォータ計算ツール を使用して、特定のワークロード図形のサイズを設定できます。

高いレベルのいくつかの考慮事項:

  • 生成には、プロンプトより多くの容量が必要です
  • GPT-4o 以降のモデルでは、入出力トークンに対して PTU あたりの TPM が個別に設定されます。 以前のモデルでは、呼び出しが大きくなるほど、コンピューティングは徐々に高価になります。 たとえば、1,000 トークン プロンプト サイズでの 100 回の呼び出しは、プロンプトに 100,000 個のトークンを含む 1 回の呼び出しより容量が少なくなります。 この階層化は、全体的なスループットにおいて、これらの呼び出し形式の分散が重要であることを意味します。 いくつかの大規模な呼び出しを含む、広く分散したトラフィック パターンでは、同じ平均プロンプトと完了トークン サイズを持つ狭い分散よりも、PTU あたりのスループットが低くなる可能性があります。

PTU クォータの取得

お客様は、[クォータの要求] リンクを使用して クォータを要求する必要があります。 さらにクォータが必要な場合は、このリンクを使用してクォータを要求する必要もあります。 このリンクは、Azure AI Foundry の管理センターにあるクォータ ハブにあります。 お客様はこのフォームを使用して、特定のリージョンについて指定した PTU クォータの引き上げを依頼できます。 要求が承認されると、顧客は指定したアドレスに、通常は 2 営業日以内にメールを受け取ります。

モデルごとの PTU の最小値

各ユニットに関連する最小 PTU のデプロイ、増分、処理の容量は、モデルの種類およびバージョンによって異なります。 詳細については、上記の を参照してください。

プロビジョニングされたスループット ユニットとコストを見積もる

入力と出力の TPM を使用してワークロードを簡単に見積もるには、デプロイ ダイアログ画面のデプロイ詳細セクションにある組み込みのキャパシティ プランナーを利用します。 組み込みのキャパシティ プランナーは、特定のワークロードの PTU デプロイに対するクォータのサイズ設定と割り当てを効率化するのに役立つ、デプロイ ワークフローの一部です。 TPM データを特定して推定する方法の詳細については、パフォーマンスと待機時間のドキュメントの推奨事項を確認してください。

Capacity Planner を使用するには、Azure AI Foundry ポータルに移動し、[ デプロイ ] ボタンを選択します。 次に、[ モデルのデプロイ] を選択します。

モデルのデプロイ画面のスクリーンショット。

モデルを選択し、[ 確認] をクリックします。 プロビジョンされたスループットのデプロイメントタイプを選択します。 組み込みの容量計算ツールで入力と出力の TPM データを入力した後、[計算] ボタンを選択して PTU 割り当ての推奨値を表示します。

デプロイ ワークフロー PTU 容量計算ツールのスクリーンショット。

要求レベルのデータを使用してプロビジョニングされた容量を見積もるには、Azure AI Foundry でキャパシティ プランナーを開きます。 容量計算ツールは、 Management Center>Quota>Provisioned Throughput の下にあります。

[ プロビジョニング済みスループット] オプションと計算ツールは、[クォータ] ウィンドウ内の特定のリージョンでのみ使用できます。このオプションが表示されない場合は、クォータ リージョンを スウェーデン中部 に設定すると、このオプションが使用可能になります。 ワークロードに基づいて次のパラメーターを入力します。

入力 説明
モデル 使用する予定のモデル。 例: GPT-4
バージョン 使う予定のモデルのバージョン (例: 0614)
1 分あたりのピーク呼び出し数 モデルに送信されると予想される 1 分あたりの呼び出し数
プロンプト呼び出しのトークン数 モデルへの各呼び出しのプロンプト内のトークンの数。 呼び出しのプロンプトが大きいほど、利用する PTU のデプロイが多くなります。 現在、この計算ツールは単一のプロンプト値を想定しているため、分散が大きなワークロードに対するものです。 実際のトラフィックでデプロイのベンチマークを行って、デプロイに必要な PTU の最も正確な見積もりを決定することをお勧めします。
モデル応答のトークン数 モデルへの各呼び出しから生成されるトークンの数。 呼び出しの生成サイズが大きいほど、利用する PTU のデプロイが多くなります。 現在、この計算ツールは単一のプロンプト値を想定しているため、分散が大きなワークロードに対するものです。 実際のトラフィックでデプロイのベンチマークを行って、デプロイに必要な PTU の最も正確な見積もりを決定することをお勧めします。

必須の詳細を入力したら、出力列の [計算] ボタンを選びます。

出力列の値は、指定されたワークロード入力に必要な PTU ユニット数の推定値です。 最初の出力値は、ワークロードに必要な推定 PTU ユニット数を表し、最も近い PTU スケールの増分に丸められています。 2 番目の出力値は、ワークロードに必要な生の推定 PTU ユニット数を表します。 トークンの合計は、次の式を使って計算されます: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response)

Capacity Calculator のスクリーンショット

容量計算ツールは、単純な入力条件に基づいて推定値を提供します。 容量を判断する最も正確な方法は、実際のユース ケースを代表するワークロードを使ってデプロイをベンチマークすることです。

Azure AI Foundry のプロビジョニング スループット向け Azure 予約

Azure AI Foundry Regional Provisioned、Data Zone Provisioned、Global Provisioned 用の Azure Reservation を購入することで、1時間あたりの使用料金に対して割引を受けることができます。 Azure 予約は、多くの Azure 製品で共有される期間割引メカニズムです。 たとえば、コンピューティングや Cosmos DB などです。 Azure AI Foundry Regional Provisioned、Data Zone Provisioned、Global Provisioned の場合、予約では、1 か月または 1 年間の一定数の PTU の支払いに対する支払いと引き換えに割引が提供されます。 

  • Azure 予約は、Azure AI Foundry ポータルではなく、Azure portal から購入されます。Azure 予約ポータルへのリンク。

  • 予約はリージョンごとに購入し、柔軟にスコープを設定してデプロイのグループからの使用をカバーできます。 予約のスコープは次のとおりです。

    • 個別のリソース グループまたはサブスクリプション

    • 管理グループ内のサブスクリプションのグループ

    • 課金アカウント内のすべてのサブスクリプション

  • 新しい予約を購入して、既存の予約と同じスコープをカバーし、新しいプロビジョニングされたデプロイの割引を受けることができます。 いつでも既存の予約のスコープをペナルティなしで更新でき、新しいサブスクリプションをカバーする、といったことができます。

  • グローバル、データ ゾーン、リージョン デプロイの予約は交換できません。 デプロイの種類ごとに個別の予約を購入する必要があります。

  • 予約は購入後にキャンセルできますが、クレジットは限られます。

  • 予約のスコープ内のプロビジョニングされたデプロイのサイズが予約の量を超えた場合、超過分は時間単位の料金で課金されます。 たとえば、200 PTU の予約のスコープ内に 250 PTU のデプロイが存在する場合、デプロイ サイズが 200 PTU に減るまで、または残りの 50 をカバーする新しい予約が作成されるまで、50 PTU は時間単位で課金されます。

  • 予約では、選んだ期間に対して割引価格が保証されます。  サービスの容量は予約されず、デプロイが作成される時点で利用できることは保証されません。 お客様には、予約の過剰購入を防ぐため、予約を購入する前にデプロイを作成することを強くお勧めします。

重要

  • モデルのデプロイに使用できる容量の可用性は動的であり、リージョンやモデルによって頻繁に変化します。 使用する PTU 以上の予約を購入しないようにするには、最初にデプロイを作成してから、デプロイした PTU をカバーする Azure 予約を購入します。 このベスト プラクティスにより、予約割引を最大限に活用し、使用できない期間コミットメントを購入することを防ぐことができます。

  • 予約を購入するための Azure ロールとテナント ポリシーの要件は、デプロイまたは Azure AI Foundry リソースの作成に必要な要件とは異なります。 必要になる前に、予約を購入できる権限を確認しておいてください。 詳細については、 Azure AI Foundry のプロビジョニング済みスループット予約 に関するページを参照してください。

重要: Azure AI Foundry のプロビジョニング済みスループット予約のサイズ設定

予約購入での PTU の量は、クォータで割り当てられる PTU またはデプロイで使われる PTU とは無関係です。 クォータより多くの PTU の予約を購入したり、目的のリージョン、モデル、またはバージョンにデプロイしたりできます。 予約な過剰な購入に対するクレジットは限られており、お客様は予約サイズとデプロイされる PTU の一致を維持するための手順を実行する必要があります。

ベスト プラクティスは、常にデプロイの作成後に予約を購入することです。 このようにすると、予約を購入してから、目的のリージョンまたはモデルで必要な容量を使用できないことがわかる、ということがなくなります。

グローバル、データ ゾーン、リージョン デプロイの予約は交換できません。 デプロイの種類ごとに個別の予約を購入する必要があります。

お客様が正しい予約量を購入するのを支援するため。 予約でカバーできるサブスクリプションとリージョン内の総 PTU 数は、Azure AI Foundry の [クォータ] ページの一覧に示されています。 "予約に使用可能な PTU" というメッセージを参照してください。

使用可能な PTU クォータを示すスクリーンショット。

Azure の予約を管理する

予約を作成した後は、それが想定した使用量に達しているかどうかを確認するために監視するのがベストプラクティスです。 これは、Azure 予約ポータルまたは Azure Monitor を使用して行うことができます。 これらの記事とその他の詳細については、以下を参照してください。

次のステップ