次の方法で共有


Azure AI Foundry ポータルで評価結果を表示する方法

Azure AI Foundry ポータルの評価ページは、結果を視覚化して評価できるだけでなく、デプロイのニーズに合わせた最適な AI モデルの最適化、トラブルシューティング、選択を行うためのコントロール センターとしても機能する汎用性の高いハブです。 これは、Azure AI Foundry プロジェクトでデータ主導の意思決定を行い、パフォーマンスを向上させるためのワンストップ ソリューションです。 フロー、プレイグラウンドのクイック テスト セッション、評価送信 UI、SDK などのさまざまなソースからの結果にシームレスにアクセスして解釈できます。 この柔軟性により、ワークフローやユーザー設定に最も適した方法で結果を操作できます。

評価結果を視覚化したら、結果を詳細に調べることができます。 これには、個々の結果を表示し、複数の評価実行でこれらの結果を比較する機能が含まれます。 これにより、傾向、パターン、不一致を特定し、さまざまな条件下での AI システムのパフォーマンスに関する貴重な分析情報を得ることができます。

この記事では、次の内容について説明します。

  • 評価結果とメトリックを表示します。
  • 評価結果を比較します。
  • パフォーマンスを向上します。
  • 評価結果とメトリックを表示します。

評価結果を見つける

評価を送信すると、「評価」タブに移動して、実行リスト内で送信された評価実行を見つけることができます。

実行リスト内で評価実行を監視および管理できます。 列エディターを使用して列を柔軟に変更し、フィルターを実装できるため、実行リストをカスタマイズして独自のバージョンのリストを作成できます。 さらに、複数の実行全体で集計された評価メトリクスを迅速に確認できるため、比較をすばやく実行できます。

評価実行リストのスクリーンショット。

ヒント

任意のバージョンの promptflow-evals SDK または azure-ai-evaluation バージョン 1.0.0b1、1.0.0b2、1.0.0b3 で評価の実行を表示するには、[すべての実行を表示] トグルを有効にして実行を見つけます。

評価メトリックの導き出す方法をより深く理解するには、[メトリックの詳細] オプションを選択すると、包括的な説明にアクセスできます。 この詳細なリソースは、評価プロセスで使用されるメトリックの計算と解釈に関する分析情報を提供します。

評価メトリックの詳細のスクリーンショット。

評価実行のテーブルを確認する際には、特定の実行を選択すると、その実行の詳細ページが表示されます。 ここでは、テスト データセット、タスクの種類、プロンプト、温度などの評価の詳細を含む包括的な情報にアクセスできます。 さらに、各データ サンプルに関連付けられたメトリックも表示できます。 メトリック ダッシュボードには、テストされた各メトリックのデータセットの合格率が視覚的に表示されます。

注意事項

Foundry Developer Platform に移行した Azure OpenAI ユーザー向けの後方互換性:

以前に oai.azure.com を使用してモデルのデプロイを管理し、評価を実行し、その後 Foundry Developer Platform (FDP) にオンボードしたユーザーは、ai.azure.com を使用するときにいくつかの制限があります。

  • 最初に、ユーザーは Azure OpenAI API を使用して作成された評価を表示できません。 代わりに、これらを表示するには、ユーザーが oai.azure.com に戻る必要があります。

  • 第 2 に、ユーザーは Azure OpenAI API を使用して AI Foundry 内で評価を実行できなくなります。 代わりに、これらのユーザーは引き続き oai.azure.com を使用する必要があります。 ただし、ユーザーは、データセット評価作成オプションの AI Foundry (ai.azure.com) で直接使用できる Azure OpenAI エバリュエーターを使用できます。 デプロイが Azure OpenAI から Azure Foundry への移行である場合、微調整されたモデル評価オプションはサポートされません。

  • データセットのアップロードと独自のストレージの持ち込みのシナリオでは、いくつかの構成要件が発生する必要があります。

    • アカウント認証は Entra ID である必要があります。
    • ストレージをアカウントに追加する必要があります (プロジェクトに追加されると、サービス エラーが発生します)。
    • ユーザーは、Azure portal でアクセス制御を使用して、自分のプロジェクトをストレージ アカウントに追加する必要があります。

Azure OpenAI Hub で OpenAI 評価グレードを使用して特別に評価を作成する方法の詳細については、「Azure AI Foundry Models 評価で Azure OpenAI を使用する方法」を参照してください。

メトリック ダッシュボード グラフ

集計ビューを、AI 品質 (AI 支援)、リスクと安全性、AI 品質 (NLP)、カスタム (該当する場合) によって、さまざまな種類のメトリックで分割します。 結果は、評価の作成時に選択した条件に基づいて、合格/不合格の割合として表示されます。 各メトリック定義とその計算方法の詳細については、「 エバリュエーターとは」を参照してください。

  • AI 品質 (AI 支援) の場合は、各メトリックのすべてのスコアの平均を計算して集計します。 Groundedness Pro を計算する場合、出力はバイナリであるため、集計スコアは合格率であり、(#trues/#instances) x 100 で計算されます。 [AI 品質 (AI 支援) メトリック ダッシュボード] タブのスクリーンショット。
  • リスクと安全性に関するメトリックについては、各メトリックの欠陥率を計算して集計します。
    • コンテンツ危害メトリックの場合、欠陥率は、データセット全体のサイズに関する重大度スケールのしきい値を超えるテスト データセット内のインスタンスの割合として定義されています。 既定では、しきい値は "中" に設定されます。
    • 保護されたマテリアルと間接攻撃の場合、欠陥率は、出力が "true" であるインスタンスの割合として計算されます (欠陥率 = (#trues/#instances) × 100)。 リスクと安全に関するメトリックのダッシュボード タブのスクリーンショット。
  • AI Quality (NLP) メトリックの場合、各メトリックのすべてのスコアの平均を計算して集計します。 [AI 品質 (NLP) ダッシュボード] タブのスクリーンショット。

詳細メトリックの結果テーブル

データ セクション内では、個々のデータ サンプルと関連するメトリックの包括的な調査を行うことができます。 ここでは、生成された出力とそれに対応する評価メトリック スコアを詳しく調べ、テストの実行時に合格した成績に基づいて合格したかどうかを確認できます。 この詳細レベルを使用すると、データドリブンの意思決定を行い、モデルのパフォーマンスを向上するための特定のアクションを実行したりすることができます。

評価メトリックに基づいて実行される可能性のあるアクション項目としては、次のようなものがあります。

  • パターン認識: 数値とメトリックをフィルター処理して、スコアの低いサンプルをドリルダウンできます。 これらのサンプルを調査して、モデルの応答で繰り返し発生するパターンや問題を特定します。 たとえば、モデルで特定のトピックに関するコンテンツを生成するときにスコアが低くなる場合が多いことに気付く可能性があります。
  • モデルの微調整: スコアの低いサンプルの分析情報を使用して、システム プロンプトの指示の改善や、モデルの微調整を行います。 一貫性や関連性などの一貫した問題が観察された場合、それに応じてモデルのトレーニング データやパラメーターを調整することもできます。
  • 列のカスタマイズ: 列エディターを使用すると、評価目標に最も関連するメトリクスとデータに焦点を当てて、テーブルのカスタマイズされたビューを作成できます。 これにより、分析が効率化され、傾向をより効果的に特定できるようになります。
  • キーワード検索: 検索ボックスを使用すると、生成された出力で特定の単語やフレーズを検索できます。 これは、特定のトピックやキーワードに関連する問題やパターンを特定し、それらに具体的に対処する場合に役立ちます。

メトリクスの詳細テーブルでは、パターンの認識から、効率的な分析のためのビューのカスタマイズ、特定された問題に基づいたモデルの微調整まで、モデルの改善作業をガイドできる豊富なデータが提供されます。

以下に、質問に対する回答シナリオのメトリック結果の例をいくつか示します。

質問応答シナリオのメトリック結果のスクリーンショット。

一部の評価にはサブエバリュエーターがあり、サブ評価の結果の JSON を表示できます。 結果を表示するには、[ JSON で表示 ] を選択して結果を開きます。

JSON が選択された詳細なメトリック結果のスクリーンショット。

JSON プレビューのスクリーンショット。

また、会話シナリオのメトリックの結果の例をいくつか次に示します。 複数ターンの会話全体で結果を確認するには、会話列で [1 ターンあたりの評価結果の表示] を選択します。

会話シナリオのメトリック結果のスクリーンショット。

[1 ターンあたりの評価結果の表示] を選択すると、次の画面が表示されます。

ターンあたりの評価結果のスクリーンショット。

マルチモーダル シナリオ (テキスト + 画像) での安全性評価の場合は、詳細なメトリックの結果テーブルの入力と出力の両方の画像を確認して、評価結果をより深く理解できます。 マルチモーダル評価は現在、会話シナリオでのみサポートされているため、[ターンごとの評価結果の表示] を選択して、各ターンの入力と出力を調べることができます。

会話列からの画像ポップアップのスクリーンショット。

画像を選択して展開し、表示します。 既定では、すべての画像はぼかして表示され、有害なコンテンツから保護されます。 画像をはっきりと表示するには、[ぼやけた画像を確認] トグルをオンにします。

ぼやけた画像を確認するトグルを示す、ぼやけた画像のスクリーンショット。

評価結果は、異なる対象ユーザーに対して異なる意味を持つ場合があります。 たとえば、安全性評価では、特定の暴力コンテンツがどの程度厳しいかについての人間のレビュー担当者の定義に合わない可能性がある、暴力コンテンツの重大度が "低" のラベルが生成される場合があります。 合否は、評価作成時に設定された合格基準によって決まります。 評価結果をレビューするときに人間のフィードバック列にサムズアップとサムズダウンが用意されており、人間のレビュー担当者によってどのインスタンスが承認されたか不適切としてフラグ設定されたかが示されます。

人間のフィードバックを含むリスクと安全性に関するメトリック結果のスクリーンショット。

各コンテンツ リスク メトリックを理解するときは、 レポート セクションに戻り、メトリック ダッシュボードでテストを確認することで、各メトリック定義を簡単に表示できます。

実行に問題がある場合、ログを使用して評価実行をデバッグすることもできます。

以下に、評価実行に使用できるログの例をいくつか示します。

評価実行をデバッグするために使用できるログのスクリーンショット。

プロンプト フローを評価する場合は、[View in flow] (フローで表示) ボタンを選択し、評価されたフロー ページに移動してフローを更新できます。 たとえば、追加のメタ プロンプト命令を追加したり、いくつかのパラメーターを変更して再評価したりします。

評価結果を比較する

2 つ以上の実行間の包括的な比較を容易にするために、目的の実行を選択し、[比較] ボタンを選択するか、一般的な詳細なダッシュボード ビューの場合は [ダッシュボード ビューに切り替える] ボタンを選択してプロセスを開始することができます。 この機能により、複数の実行のパフォーマンスと結果を分析して比較し、より多くの情報に基づいて意思決定を行い、ターゲットを絞った改善を行うことができます。

評価を比較するオプションのスクリーンショット。

ダッシュボード ビューでは、メトリック分散比較グラフと比較テーブルの 2 つの重要なコンポーネントにアクセスできます。 これらのツールを使用すると、選択した評価実行を並べて分析できるため、各データ サンプルのさまざまな側面を簡単かつ正確に比較できます。

以前の評価実行の既定では、列間に一致する行があります。 ただし、新しく実行する評価は、評価の作成時に一致する列を持つよう意図的に構成する必要があります。 これを行うには、比較するすべての評価の間で、抽出条件名と同じ名前が使用されていることを確認します。

フィールドが同じ場合のエクスペリエンス:

フィールドが同じ場合の自動評価のスクリーンショット。

ユーザーが評価の作成に同じ抽出条件名を使用しない場合、フィールドが一致しないため、プラットフォームで結果を直接比較できなくなります。

フィールドが同じでない場合の自動評価のスクリーンショット。

比較テーブル内では、基準点として使用し、ベースラインとして設定する特定の実行の上にマウス ポインターを合わせると、比較のベースラインを確立できます。 さらに、[デルタの表示] トグルをアクティブにすると、ベースライン実行と他の実行の数値の差異を簡単に視覚化できます。 また、[差異のみを表示] トグルを有効にすると、選択した実行間で異なる行のみがテーブルに表示され、明確な変動の識別に役立ちます。

これらの比較機能を使用すると、情報に基づいた意思決定を行い、最適なバージョンを選択できます。

  • ベースライン比較: ベースライン実行を設定すると、他の実行を比較する基準点を特定できます。 これにより、各実行が、選択した標準とどの程度逸脱しているかを確認できます。
  • 数値評価: [デルタの表示] オプションを有効にすると、ベースラインと他の実行の差異の程度を把握するのに役立ちます。 これは、特定の評価メトリックに関して、さまざまな実行がどのように実行されるかを評価する場合に役立ちます。
  • 差異の分離: [差異のみ表示] 機能を使用すると、実行間で一致しない領域のみが強調表示され、分析が効率化されます。 改善や調整が必要な領域を特定するのに役立ちます。

これらの比較ツールを効果的に使用すると、定義された基準やメトリックに関して最適に実行されるモデルまたはシステムのバージョンを特定でき、最終的に、アプリケーションに最適なオプションを選択するのに役立ちます。

左右に並べられた評価結果のスクリーンショット。

ジェイルブレイクの脆弱性の測定

ジェイルブレイクの評価は、AI 支援メトリックではなく、比較測定です。 2 つの異なるレッドチーミングされたデータセットに対して評価を実行します。つまり、ベースラインの敵対的テスト データセットと、最初のターンにジェイルブレイク インジェクションがある同じ敵対的テスト データセットです。 敵対的データ シミュレーターを使用して、ジェイルブレイク インジェクションの有無にかかわらずデータセットを生成できます。 実行を構成するときに、評価メトリックごとに条件名が同じであることを確認します。

アプリケーションがジェイルブレイクに対して脆弱かどうかを理解するには、ベースラインを指定して、比較テーブルの [Jailbreak defect rates] (ジェイルブレイクの欠陥率) トグルをオンにします。 ジェイルブレイクの欠陥率は、ジェイルブレイク インジェクションにより、データセット全体のサイズに対するベースラインに関する任意のコンテンツ リスク メトリックに対してより高い重大度スコアが生成される、テスト データセット内のインスタンスの割合として定義されます。 比較ダッシュボードで複数の評価を選択して、欠陥率の差を表示できます。

ジェイルブレイクの欠陥がオンになっている、左右に並べられた評価結果のスクリーンショット。

ヒント

ジェイルブレイクの欠陥率は、同じサイズのデータセットに関してのみ、それらを比較することで計算され、また、すべての実行にコンテンツ リスクと安全性に関するメトリックが含まれている場合にのみ計算されます。

組み込みの評価メトリックを理解する

組み込みのメトリックについて理解することは、AI アプリケーションのパフォーマンスと有効性を評価するために不可欠です。 これらの主要な測定ツールに関する分析情報を取得すると、結果を解釈し、情報に基づいた意思決定を行い、アプリケーションを微調整して、最適な結果を達成する態勢が整います。 各メトリクスの重要性、その計算方法、モデルのさまざまな側面を評価する際の各メトリックの役割、データドリブンの改善を行うために結果を解釈する方法の詳細については、「評価および監視メトリック」を参照してください。

ご利用の生成 AI アプリケーションを評価する方法の詳細については、次をご参照ください。

損害の軽減手法についての詳細情報。