Azure AI Foundry を使用して生成 AI モデルとアプリケーションを評価する方法

2025-05-20

大量のデータセットに適用された際に、ご利用の生成 AI モデルとアプリケーションのパフォーマンスを徹底的に評価するために、評価プロセスを開始することができます。この評価中、ご利用のモデルまたはアプリケーションは指定されたデータセットを使用してテストされ、そのパフォーマンスは数学ベースのメトリックおよび AI 支援メトリックの両方を使用して、定量的に測定されます。この評価の実行では、そのアプリケーションの機能と制限事項に関する、包括的な分析情報が提供されます。

この評価を実行するには、ご利用の生成 AI モデルのパフォーマンスと安全性を評価するためのツールと機能を提供する包括的なプラットフォームである、Azure AI Foundry ポータル内の評価機能を利用することができます。 Azure AI Foundry ポータル内では、詳細な評価メトリックをログに記録、表示、分析することができます。

この記事では、Azure AI Foundry UI の評価メトリックが組み込まれたモデルまたはテストデータセットに対して評価実行を作成する方法について説明します。柔軟性をさらに高めるために、カスタムの評価フローを確立し、カスタム評価機能を使用することができます。または、目的がバッチの実行を行うだけで、何も評価をしない場合は、カスタム評価機能を利用することもできます。

[前提条件]

AI 支援メトリックを使用した評価を実行するには、次の準備が必要です。

これらの形式のいずれかのテストデータセット: csv または jsonl。
Azure OpenAI 接続。これらのモデルのいずれかのデプロイ: GPT 3.5 モデル、GPT 4 モデル、Davinci モデル。 AI 支援の品質評価を実行する場合にのみ必要です。

組み込みの評価メトリックを使用して評価を作成する

評価の実行を使用すると、ご利用のテストデータセット内のデータ行ごとに、メトリック出力を生成することができます。 1 つ以上の評価メトリックを選択して、さまざまな側面からの出力を評価することができます。評価実行は、Azure AI Foundry ポータルの評価カタログページまたはモデルカタログページから作成できます。それから評価の作成ウィザードが表示され、評価の実行を設定するプロセスが案内されます。

[評価] ページから

折りたたみ可能な左側のメニューから、[評価]>[+ 新しい評価の作成] を選択します。

モデルカタログページから

折りたたみ可能な左側のメニューから、[モデルカタログ]> を選択し、特定のモデルに移動し > [ベンチマーク] タブに移動し > 独自のデータを試します。これによりモデル評価パネルが開き、選択したモデルに対する評価実行を作成することができます。

評価対象

評価ページから評価を開始するときは、最初に評価対象を決定する必要があります。適切な評価ターゲットを指定することで、ご利用のアプリケーションの特定の性質に合わせて評価を調整し、正確で関連性の高いメトリックを確保することができます。次の 2 種類の評価ターゲットがサポートされています。

微調整されたモデル: 選択したモデルとユーザー定義プロンプトによって生成された出力を評価します。
データセット: モデルによってテストデータセットに出力が生成されています。

テストデータの構成

評価作成ウィザードに入ると、既存のデータセットから選択するか、評価専用の新しいデータセットをアップロードできます。テストデータセットには、モデルで生成された出力を評価に使用する必要があります。テストデータのプレビューが右側のウィンドウに表示されます。

既存のデータセットを選択する: ご利用の確立されたデータセットコレクションからテストデータセットを選択することができます。
新しいデータセットを追加する: ご利用のローカルストレージからファイルをアップロードします。 .csv および .jsonl ファイル形式のみをサポートします。テストデータのプレビューが右側のウィンドウに表示されます。

テスト条件を構成する

Microsoft は、アプリケーションの包括的な評価を容易にするために Microsoft によってキュレーションされた 3 種類のメトリックをサポートしています。

AI 品質 (AI 支援): これらのメトリックは、生成されたコンテンツの全体的な品質と一貫性を評価します。これらのメトリックを実行するには、ジャッジとしてのモデルデプロイが必要です。
AI 品質 (NLP): これらの NLP メトリックは数学に基づいており、生成されたコンテンツの全体的な品質も評価します。多くの場合、グラウンドトゥルースデータが必要ですが、ジャッジとしてモデルデプロイは必要ありません。
リスクと安全性に関するメトリック: これらのメトリックは、潜在的なコンテンツのリスクを特定し、生成されたコンテンツの安全性を確保することに焦点を当てています。

テスト条件を追加すると、評価の一部としてさまざまなメトリックが使用されます。各シナリオ内でサポートされるメトリックのすべてのリストについては、表をご参照ください。各メトリック定義とその計算方法の詳細については、「エバリュエーターとは」を参照してください。

AI 品質 (AI 支援)	AI 品質 (自然言語処理)	リスクと安全性に関するメトリック
根拠性、関連性、一貫性、流暢さ、GPT 類似性	F1 スコア、ROUGE スコア、BLEU スコア、GLEU スコア、METEOR スコア	自傷行為に関連するコンテンツ、ヘイトフルで不公平なコンテンツ、暴力的コンテンツ、性的コンテンツ、保護された素材、間接攻撃

AI 支援品質評価を実行する場合は、計算/採点プロセスに GPT モデルを指定する必要があります。

AI 品質 (NLP) メトリックは、アプリケーションのパフォーマンスを評価する数学に基づいた測定値です。多くの場合、計算にはグラウンドトゥルースデータが必要です。 ROUGE はメトリックのファミリです。 ROUGE タイプを選択すると、スコアを計算できます。さまざまな種類の ROUGE メトリックにより、テキスト生成の品質を評価する方法が提供されます。 ROUGE-N は、候補テキストと参照テキスト間の n グラムの重複を測定します。

リスクと安全性のメトリックについては、デプロイを提供する必要はありません。 Azure AI Foundry ポータルの安全性評価バックエンドサービスは、コンテンツリスクの重大度スコアと推論を生成できる GPT-4 モデルをプロビジョニングし、アプリケーションでコンテンツの損害を評価できるようにします。

注

AI 支援によるリスクと安全性に関するメトリックは、Azure AI Foundry の安全性評価バックエンドサービスによってホストされ、米国東部 2、フランス中部、英国南部、スウェーデン中部のリージョンでのみご使用になれます

注意事項

Foundry Developer Platform に移行した Azure OpenAI ユーザー向けの後方互換性:

以前に oai.azure.com を使用してモデルのデプロイを管理し、評価を実行し、その後 Foundry Developer Platform (FDP) にオンボードしたユーザーは、ai.azure.com を使用するときにいくつかの制限があります。

最初に、ユーザーは Azure OpenAI API を使用して作成された評価を表示できません。代わりに、これらを表示するには、ユーザーが oai.azure.com に戻る必要があります。
第 2 に、ユーザーは Azure OpenAI API を使用して AI Foundry 内で評価を実行できなくなります。代わりに、これらのユーザーは引き続き oai.azure.com を使用する必要があります。ただし、ユーザーは、データセット評価作成オプションの AI Foundry (ai.azure.com) で直接使用できる Azure OpenAI エバリュエーターを使用できます。デプロイが Azure OpenAI から Azure Foundry への移行である場合、微調整されたモデル評価オプションはサポートされません。
データセットのアップロードと独自のストレージの持ち込みのシナリオでは、いくつかの構成要件が発生する必要があります。
- アカウント認証は Entra ID である必要があります。
- ストレージをアカウントに追加する必要があります (プロジェクトに追加されると、サービスエラーが発生します)。
- ユーザーは、Azure portal でアクセス制御を使用して、自分のプロジェクトをストレージアカウントに追加する必要があります。

Azure OpenAI Hub で OpenAI 評価グレードを使用して特別に評価を作成する方法の詳細については、「Azure AI Foundry Models 評価で Azure OpenAI を使用する方法」を参照してください。

データマッピング

評価のためのデータマッピング: 追加されたメトリックごとに、評価に必要な入力に対応するデータセット内のデータ列を指定する必要があります。評価メトリックが異なると、正確な計算のために異なる種類のデータ入力が必要になります。

評価中、モデルの応答は、次のような主要な入力に対して評価されます。

クエリ: すべてのメトリックに必要
コンテキスト: オプション
グラウンドトゥルース: オプション、AI 品質 (NLP) メトリックに必要

これらのマッピングにより、データと評価基準の間の正確なアラインメントが保証されます。

各メトリックの特定のデータマッピング要件に関するガイダンスは、次の表の情報をご参照ください。

クエリと応答のメトリック要件

メトリック	クエリ	[応答]	コンテキスト	グランドトゥルース
地に足のついた状態	必須: Str	必須: Str	必須: Str	なし
一貫性	必須: Str	必須: Str	なし	なし
流暢性	必須: Str	必須: Str	なし	なし
関連性	必須: Str	必須: Str	必須: Str	なし
GPT 類似性	必須: Str	必須: Str	なし	必須: Str
F1 スコア	なし	必須: Str	なし	必須: Str
BLEU スコア	なし	必須: Str	なし	必須: Str
GLEU スコア	なし	必須: Str	なし	必須: Str
METEOR スコア	なし	必須: Str	なし	必須: Str
ROUGE スコア	なし	必須: Str	なし	必須: Str
自傷行為に関連するコンテンツ	必須: Str	必須: Str	なし	なし
ヘイトフルで不公平なコンテンツ	必須: Str	必須: Str	なし	なし
暴力的なコンテンツ	必須: Str	必須: Str	なし	なし
性的なコンテンツ	必須: Str	必須: Str	なし	なし
保護材料	必須: Str	必須: Str	なし	なし
間接攻撃	必須: Str	必須: Str	なし	なし

クエリ: 特定の情報を求めるクエリ。
応答: モデルによって生成されたクエリへの応答。
コンテキスト: 応答が生成されるソース (つまり、基になるドキュメント)...
グラウンドトゥルース: 真の答えとしてユーザー/人間によって生成された、クエリへの応答。

レビューして終了する

必要なすべての構成を完了したら、評価の名前を任意で指定できます。その後、確認し、[ 送信] を選択して評価実行を送信できます。

微調整されたモデルの評価

選択したモデルデプロイの新しい評価を作成するには、GPT モデルを使用してサンプルの質問を生成するか、確立されたデータセットコレクションから選択できます。

微調整されたモデルのテストデータを構成する

評価に使用するテストデータセットを設定します。このデータセットは、評価のための応答を生成するためにモデルに送信されます。テストデータを構成するには、次の 2 つのオプションがあります。

サンプルの質問を生成する
既存のデータセットを使用する (または新しいデータセットをアップロードする)

サンプルの質問を生成する

データセットをすぐに使用できなくても、小さなサンプルで評価を実行する場合は、選択したトピックに基づいて評価するモデルデプロイを選択します。 Azure OpenAI モデルと、Meta LIama や Phi-3 ファミリモデルなど、標準デプロイと互換性のある他のオープンモデルの両方をサポートしています。このトピックは、生成されたコンテンツを関心領域に合わせて調整するのに役立ちます。クエリと応答はリアルタイムで生成され、必要に応じて再生成することができます。

データセットの使用

また、確立されたデータセットコレクションから選択したり、新しいデータセットをアップロードしたりすることもできます。

評価メトリックの選択

その後、次にヒットしてテスト条件を構成できます。条件を選択するとメトリックが追加され、評価に必要なフィールドにデータセットの列をマップする必要があります。これらのマッピングにより、データと評価基準の間の正確なアラインメントが保証されます。目的のテスト条件を選択したら、評価を確認し、必要に応じて評価の名前を変更し、[ 送信] を選択して評価の実行を送信し、評価ページに移動して結果を表示できます。

注

生成されたデータセットは、評価実行が作成されると、プロジェクトの BLOB ストレージに保存されます。

エバリュエーターライブラリでエバリュエーターを表示して管理する

エバリュエーターライブラリは、エバリュエーターの詳細と状態を確認できる一元化された場所です。 Microsoft によってキュレーションされたエバリュエーターを表示して管理できます。

エバリュエーターライブラリでは、バージョン管理も実現できます。作業内容のさまざまなバージョンを比較し、必要に応じて以前のバージョンを復元し、他の人とより簡単に共同作業を行うことができます。

Azure AI Foundry ポータルでエバリュエーターライブラリを使用するには、プロジェクトの [評価] ページに移動し、[エバリュエーターライブラリ] タブを選択します。

エバリュエーター名を選択すると、さらなる詳細を表示できます。名前、説明、およびパラメーターを表示し、エバリュエーターに関連付けられているすべてのファイルを確認できます。以下に Microsoft によってキュレーションされたエバリュエーターの例をいくつか示します。

Microsoft によってキュレーションされたパフォーマンスおよび品質のエバリュエーターについては、詳細ページで注釈プロンプトを表示できます。これらのプロンプトを独自のユースケースに合わせて調整するには、Azure AI Evaluation SDK のデータと目標に従ってパラメーターまたは条件を変更します。たとえば、Groundedness-Evaluator を選択し、メトリックの計算方法を示す Prompty ファイルを確認できます。
Microsoft によってキュレーションされたリスクと安全性のエバリュエーターについては、メトリックの定義を確認できます。たとえば、Self-Harm-Related-Content-Evaluator を選択し、それが意味するものと、Microsoft がこの安全性メトリックのさまざまな重大度レベルをどのように決めているかを確認できます。

ご利用の生成 AI アプリケーションを評価する方法の詳細については、次をご参照ください。

次の方法で共有

Azure AI Foundry を使用して生成 AI モデルとアプリケーションを評価する方法

[前提条件]

組み込みの評価メトリックを使用して評価を作成する

[評価] ページから

モデル カタログ ページから

評価対象

テスト データの構成

テスト条件を構成する

データ マッピング

クエリと応答のメトリック要件

レビューして終了する

微調整されたモデルの評価

微調整されたモデルのテスト データを構成する

サンプルの質問を生成する

データセットの使用

評価メトリックの選択

エバリュエーター ライブラリでエバリュエーターを表示して管理する

関連コンテンツ

フィードバック

その他のリソース

モデルカタログページから

テストデータの構成

データマッピング

微調整されたモデルのテストデータを構成する

エバリュエーターライブラリでエバリュエーターを表示して管理する