次の方法で共有


Azure AI Foundry ポータルのモデル ランキング (プレビュー)

重要

この記事で "(プレビュー)" と付記されている項目は、現在、パブリック プレビュー段階です。 このプレビューはサービス レベル アグリーメントなしで提供されており、運用環境ではお勧めしません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳細については、「 Microsoft Azure プレビューの追加使用条件」を参照してください。

Azure AI Foundry ポータルのモデル ランキング (プレビュー) を使用すると、Azure AI Foundry モデル カタログのモデル選択プロセスを合理化できます。 業界標準のベンチマークに基づくモデル ランキングは、カスタム AI ソリューションに最適なモデルを見つけるのに役立ちます。 モデル カタログの [モデル ランキング] セクションから、 ランキングを参照 して、使用可能なモデルを次のように比較できます。

好みに合わせてモデルを見つけたら、それを選択して、モデル カタログ内のモデルの 詳細ベンチマーク結果 にズームすることができます。 モデルに満足している場合は、モデルをデプロイするか、プレイグラウンドで試すか、データで評価することができます。 ランキングでは、テキスト言語モデル (大きな言語モデル (LLM) と小さな言語モデル (SMM) 間のベンチマークと埋め込みモデルがサポートされます。

モデル ベンチマークは、品質、安全性、コスト、スループットというカテゴリの LLM と SLB を評価します。 さらに、標準ベンチマークを使用して埋め込みモデルの品質を評価します。 ランキングは、より優れた不飽和ベンチマークがオンボードされ、新しいモデルがモデル カタログに追加されると、定期的に更新されます。

言語モデルの品質ベンチマーク

Azure AI は、推論、知識、質問の回答、数学、コーディングなどのモデル機能を測定する標準の包括的なベンチマーク データセットの精度スコアを使用して、LLM と SLB の品質を評価します。

インデックス 説明
品質インデックス 品質インデックスは、包括的な標準ベンチマーク データセットに対して適用可能な精度スコア (exact_match、pass@1、arena_hard) を平均することによって計算されます。

品質インデックスは、0 から 1 のスケールで提供されます。 品質インデックスは値が大きいほど優れています。 品質インデックスに含まれるデータセットは次のとおりです。

データセット名 ランキング シナリオ
arena_hard 品質保証
bigbench_hard 認識力
gpqa 品質保証
humanevalplus コーディング
ifeval 認識力
数値演算 数学
mbppplus コーディング
mmlu_pro 一般的な知識

精度スコアの詳細を参照してください。

メトリック 説明
精度 正確性スコアは、データセットとモデル レベルで使用できます。 データセット レベルでは、スコアはデータセット内のすべての例について計算された正確性メトリックの平均値です。 使用される精度メトリックは、exact-match メトリックを使用する HumanEval データセットと MBPP データセットを除き、すべてのケースでpass@1されます。 完全一致は、モデルで生成されたテキストをデータセットに従って正しい回答と比較し、生成されたテキストが回答と完全に一致する場合は 1 を、それ以外の場合は 0 を報告します。 pass@1 メトリックは、コード生成タスクの一連の単体テストに合格したモデル ソリューションの割合を測定します。 モデル レベルでは、正確性スコアは各モデルのデータセット レベルの正確性の平均です。

精度スコアは、0 から 1 のスケールで提供されます。 大きいほど、良い値です。

言語モデルの安全性ベンチマーク

評価のための安全ベンチマークの選択をガイドするために、関連性と厳格さの両方を確保するように設計された構造化されたフィルタリングと検証プロセスを適用します。 ベンチマークは、優先度の高いリスクに対処する場合、オンボードの対象となります。 安全ランキングについては、安全性に関連する特定のトピックに関するいくつかのシグナルを提供するのに十分な信頼性があると考えられるさまざまなベンチマークを検討します。 プロキシ モデルの安全性には HarmBench を選択し、シナリオ のランキングを次のように整理します。

データセット名 ランキング シナリオ メトリック 解釈
HarmBench (標準) 標準的な有害な動作 攻撃の成功率 値を小さくすると、標準的な有害なコンテンツを違法にするように設計された攻撃に対する堅牢性が向上します
HarmBench (コンテキスト) コンテキストに依存する有害な動作 攻撃の成功率 値を小さくすると、コンテキストに有害なコンテンツを違法にするように設計された攻撃に対する堅牢性が向上します
HarmBench (著作権違反) 著作権違反 攻撃の成功率 値を小さくすると、著作権侵害を違法にするように設計された攻撃に対する堅牢性が向上します
WMDP 機密性の高いドメインの知識 精度 値が高いほど、機密性の高い領域 (サイバーセキュリティ、バイオセキュリティ、化学セキュリティ) に関するより多くの知識が示されます
Toxigen 有毒なコンテンツを検出する機能 F1 スコア 値が大きいほど、有毒なコンテンツを検出する能力が向上します

有害な動作をモデル化する

HarmBench ベンチマークは、モデルの有害な動作を測定し、モデルから有害な動作を違法にするよう促すプロンプトを含みます。 安全性に関するベンチマークでは、動作の 7 つのセマンティック カテゴリについて説明します。

  • サイバー犯罪と不正侵入
  • 化学・生物兵器・医薬品
  • 著作権違反
  • 誤った情報と情報漏えい
  • 嫌がらせといじめ
  • 違法なアクティビティ
  • 一般的な損害

これら 7 つのカテゴリは、3 つの機能カテゴリにまとめることができます

  • 標準的な有害な動作
  • コンテキストに有害な動作
  • 著作権違反

各機能カテゴリは、個別のシナリオ ランキングで紹介されています。 攻撃成功率 (ASR) を計算するには、HarmBench (攻撃なし) と HarmBench エバリュエーターからの直接プロンプトを使用します。 ASR 値が小さいほど、モデルの安全性が高くなります。 評価のための攻撃戦略については説明しません。モデル ベンチマークは、Azure AI コンテンツ セーフティ フィルターをオフにして実行されます。

有毒なコンテンツを検出するモデル機能

Toxigen は、敵対的および暗黙的なヘイト音声検出用の大規模なマシン生成データセットです。 13の少数派グループに言及する暗黙的に有毒で良性の文が含まれています。 評価には Toxigen の注釈付きサンプルを使用し、F1 スコアを計算して分類のパフォーマンスを測定します。 このデータセットでスコアを高くすることは、モデルが有毒なコンテンツを検出する方が優れていることを意味します。 モデル ベンチマークは、Azure AI Content Safety Filter がオフになっている状態で実行されます。

機密性の高いドメインのモデル知識

大量破壊兵器プロキシ (WMDP) ベンチマークは、バイオセキュリティ、サイバーセキュリティ、化学セキュリティなど、機密性の高い領域でのモデル知識を測定します。 ランキングでは、サイバーセキュリティ、バイオセキュリティ、化学セキュリティ全体の平均精度スコアが使用されます。 WMDP 精度スコアが高いほど、危険な機能に関するより多くの知識が示されます (安全性の観点から悪い動作)。 モデル ベンチマークは、既定の Azure AI Content Safety フィルターを使用して実行されます。 これらの安全フィルターは、暴力、自傷行為、性的、嫌悪、不公平に関するコンテンツの損害を検出してブロックしますが、サイバーセキュリティ、バイオセキュリティ、化学セキュリティのカテゴリは対象としません。

安全ベンチマークの制限事項

私たちは、安全性が複雑なトピックであり、いくつかの次元があることを理解し、認めます。 異なるシナリオでシステムの完全な安全性をテストまたは表すことができる、現在のオープンソース ベンチマークは 1 つもありません。 さらに、これらのベンチマークのほとんどは、飽和またはベンチマーク設計とリスク定義の間の不整合に苦しむ可能性があり、ターゲット リスクの概念化と運用化の方法に関する明確なドキュメントが不足しているため、ベンチマークがリスクの微妙な部分を正確に把握しているかどうかを評価することが困難になる可能性があります。 この制限により、実際の安全シナリオでモデルのパフォーマンスを過大評価または過小評価する可能性があります。

言語モデルのパフォーマンス ベンチマーク

パフォーマンス メトリックは、各証跡が 1 時間間隔で毎日送信される 24 の証跡 (証跡ごとに 2 つの要求) に基づいて、14 日間の集計として計算されます。 モデル エンドポイントへの要求ごとに、次の既定パラメーターが使用されます。

パラメーター 価値 適用対象
リージョン 米国東部/米国東部 2 標準デプロイAzure OpenAI
1 分あたりのトークン数 (TPM) レート制限 非推論の場合は 30k (Azure OpenAI に基づく 180 RPM)、推論モデルの場合は 100k
N/A (標準展開)
Azure OpenAI モデルの場合、デプロイの種類 (標準、グローバル、グローバル標準など) に基づいて、レート制限の範囲をユーザーが選択できます。
標準デプロイの場合、この設定は抽象化されます。
要求の数 1 時間ごとの証跡で 2 つの要求 (1 日あたり 24 証跡) 標準的な展開、Azure OpenAI
証跡と実行の数 1 日あたり 24 証跡の 14 日間で 336 回の実行 標準的な展開、Azure OpenAI
プロンプトとコンテキストの長さ 中程度の長さ 標準的な展開、Azure OpenAI
処理されたトークンの数 (中程度) 入力と出力のトークン比 80:20、つまり 800 個の入力トークンから 200 個の出力トークン。 標準的な展開、Azure OpenAI
同時要求の数 1 つ (要求は 1 つずつ順番に送信されます) 標準的な展開、Azure OpenAI
データ 合成 (静的テキストから準備された入力プロンプト) 標準的な展開、Azure OpenAI
リージョン 米国東部/米国東部 2 標準デプロイと Azure OpenAI
展開の種類 スタンダード Azure OpenAI にのみ適用されます
ストリーミング 正しい 標準デプロイと Azure OpenAI に適用されます。 マネージド コンピューティングを使用してデプロイされたモデルの場合、またはストリーミングがサポートされていないエンドポイントの場合、TTFT は待機時間メトリックの P50 として表されます。
SKU(在庫管理単位) Standard_NC24ads_A100_v4 (24 コア、220 GB RAM、64 GB ストレージ) マネージド コンピューティングにのみ適用されます (コストとパフォーマンスのメトリックを見積もるために)

LLM と SLB のパフォーマンスは、次のメトリックで評価されます。

メトリック 説明
待ち時間の平均 要求の処理にかかった平均時間 (秒単位)。複数の要求に対して計算されます。 このメトリックを計算するためには、2 週間にわたって 1 時間ごとにエンドポイントに要求を送信し、平均を計算します。
待ち時間 P50 待ち時間 (要求から、成功のコードで応答全体を受け取るまでの時間) の 50 パーセンタイル値 (中央値)。 たとえば、エンドポイントに要求を送信したときに、要求の 50% が 'x' 秒以内に完了し、'x' が待ち時間の測定値になります。
待ち時間 P90 待ち時間 (要求から、成功のコードで応答全体を受け取るまでの時間) の 90 パーセンタイル値。 たとえば、エンドポイントに要求を送信したときに、要求の 90% が 'x' 秒以内に完了し、'x' が待ち時間の測定値になります。
待ち時間 P95 待ち時間 (要求から、成功のコードで応答全体を受け取るまでの時間) の 95 パーセンタイル値。 たとえば、エンドポイントに要求を送信したときに、要求の 95% が 'x' 秒以内に完了し、'x' が待ち時間の測定値になります。
待ち時間 P99 待ち時間 (要求から、成功のコードで応答全体を受け取るまでの時間) の 99 パーセンタイル値。 たとえば、エンドポイントに要求を送信したときに、要求の 99% が 'x' 秒以内に完了し、'x' が待ち時間の測定値になります。
スループット GTPS 1 秒あたりの生成トークン数 (GTPS) は、要求がエンドポイントに送信された時点から生成される 1 秒あたりの出力トークンの数です。
スループット TTPS 1 秒あたりの合計トークン数 (TTPS) は、入力プロンプトと生成された出力トークンの両方で、1 秒あたりに処理されたトークンの合計数です。 ストリーミングをサポートしていないモデルの場合、Time to First Token (ttft) は待機時間の P50 値 (応答の受信にかかった時間) を表します。
待ち時間 TTFT 最初のトークンへの合計時間 (TTFT) は、ストリーミングが有効になっているときにエンドポイントから応答の最初のトークンが返されるまでにかかった時間です。
トークンの時間間隔 このメトリックは、トークンを受信する時間間隔です。

Azure AI には、待ち時間とスループットに関するパフォーマンス インデックスも次のように表示されます。

インデックス 説明
待ち時間インデックス 最初のトークンまでの平均時間。 低い値が適切です。
スループット インデックス 1 秒あたりの平均生成トークン数。 大きいほど、良い値です。

待ち時間やスループットなどのパフォーマンス メトリックでは、最初のトークンまでの時間と 1 秒あたりの生成トークン数によって、モデルの一般的なパフォーマンスと動作をより全体的に把握できます。 パフォーマンス数値は定期的に更新されます。

言語モデルのコスト ベンチマーク

コスト計算は、Azure AI プラットフォームでホストされている LLM または SLM モデル エンドポイントを使用する場合の見積もりです。 Azure AI では、標準デプロイと Azure OpenAI モデルのコストの表示がサポートされています。 これらのコストは変更される可能性があるため、コスト計算は定期的に更新されます。

LLM と SLB のコストは、次のメトリックで評価されます。

メトリック 説明
入力トークンあたりのコスト 100 万個の入力トークンの標準デプロイのコスト
出力トークンあたりのコスト 100 万個の出力トークンの標準デプロイのコスト
推定コスト 入力トークンあたりのコストと出力トークンあたりのコストの合計のコスト。比率は 3:1 です。

Azure AI では、コスト インデックスも次のように表示されます。

インデックス 説明
コスト インデックス 推定コスト。 低い値が適切です。

埋め込みモデルの品質ベンチマーク

埋め込みモデルの品質インデックスは、情報取得、ドキュメント クラスタリング、および要約タスクを対象とする一連の標準ベンチマーク データセットの平均精度スコアとして定義されます。

各データセットに固有の精度スコア定義の詳細を参照してください。

メトリック 説明
精度 精度は、処理された予測の総数に占める正しい予測の割合です。
F1 スコア F1 スコアは精度と再現率の加重平均です。最高値は 1 (完全な精度と再現率)、最低値は 0 です。
平均精度 (MAP) MAP は、ランク付けシステムとレコメンダー システムの品質を評価します。 これは、提案された項目の関連度と、システムがより関連度の高い項目を上部に配置できているかという点の両方を測定します。 値の範囲は 0 から 1 までで、MAP が高いほど、システムは関連性の高い項目をリストの上位に配置できます。
正規化減損累積利得 (NDCG) NDCG は、関連性に基づいて項目を並べ替える機械学習アルゴリズムの能力を評価します。 これは、ランキングを、関連するすべての項目がリストの一番上にある理想的な順序と比較します。k は、ランク付けの品質を評価する際のリストの長さです。 ベンチマークでは、ndcg_at_10 というメトリックが示すように k=10 です。これは、上位 10 個の項目を確認することを意味します。
精度 精度は、特定のクラスのインスタンスを正しく識別するモデルの能力を測定します。 精度は、機械学習モデルがターゲット クラスを予測するときにどれだけ正確であるかを示します。
スピアマン相関 コサイン類似度に基づくスピアマン相関は、最初に変数間のコサイン類似度を計算し、次にこれらのスコアをランク付けし、このランクを使用してスピアマン相関を計算することによって計算されます。
V メジャー V メジャーは、クラスタリングの品質を評価するために使用されるメトリックです。 V メジャーは、均質度と完全度の調和平均として計算され、2 つの値の間のバランスを確保することで意味のあるスコアが得られます。 可能なスコアは 0 から 1 であり、1 は完全に完了したラベル付けです。

スコアの計算

個別のスコア

ベンチマーク結果は、言語モデルの評価に一般的に使用される公開データセットに由来します。 ほとんどの場合、データは、データの作成者またはキュレーターによって管理されている GitHub リポジトリにホストされています。 Azure AI 評価パイプラインは、元のソースからデータをダウンロードし、各例の行からプロンプトを抽出し、モデルの応答を生成してから、関連する正確性メトリックを計算します。

プロンプトの構築は、データセットを紹介した論文や業界標準によって指定された、各データセットのベスト プラクティスに従います。 ほとんどの場合、各プロンプトには複数の "ショット"、つまりタスクのモデルを準備するための完全な質問と回答の例がいくつか含まれています。 評価パイプラインは、評価から除外されたデータの一部から質問と回答をサンプリングしてショットを作成します。