次の方法で共有


Azure AI Foundry を使用して生成 AI モデルとアプリケーションを評価する方法

大量のデータセットに適用された際に、ご利用の生成 AI モデルとアプリケーションのパフォーマンスを徹底的に評価するために、評価プロセスを開始することができます。 この評価中、ご利用のモデルまたはアプリケーションは指定されたデータセットを使用してテストされ、そのパフォーマンスは数学ベースのメトリックおよび AI 支援メトリックの両方を使用して、定量的に測定されます。 この評価の実行では、そのアプリケーションの機能と制限事項に関する、包括的な分析情報が提供されます。

この評価を実行するには、ご利用の生成 AI モデルのパフォーマンスと安全性を評価するためのツールと機能を提供する包括的なプラットフォームである、Azure AI Foundry ポータル内の評価機能を利用することができます。 Azure AI Foundry ポータル内では、詳細な評価メトリックをログに記録、表示、分析することができます。

この記事では、Azure AI Foundry UI の評価メトリックが組み込まれたモデルまたはテスト データセットに対して評価実行を作成する方法について説明します。 柔軟性をさらに高めるために、カスタムの評価フローを確立し、カスタム評価機能を使用することができます。 または、目的がバッチの実行を行うだけで、何も評価をしない場合は、カスタム評価機能を利用することもできます。

[前提条件]

AI 支援メトリックを使用した評価を実行するには、次の準備が必要です。

  • これらの形式のいずれかのテスト データセット: csv または jsonl
  • Azure OpenAI 接続。 これらのモデルのいずれかのデプロイ: GPT 3.5 モデル、GPT 4 モデル、Davinci モデル。 AI 支援の品質評価を実行する場合にのみ必要です。

組み込みの評価メトリックを使用して評価を作成する

評価の実行を使用すると、ご利用のテスト データセット内のデータ行ごとに、メトリック出力を生成することができます。 1 つ以上の評価メトリックを選択して、さまざまな側面からの出力を評価することができます。 評価実行は、Azure AI Foundry ポータルの評価カタログ ページまたはモデル カタログ ページから作成できます。 それから評価の作成ウィザードが表示され、評価の実行を設定するプロセスが案内されます。

[評価] ページから

折りたたみ可能な左側のメニューから、[評価]>[+ 新しい評価の作成] を選択します。

新しい評価を作成するボタンのスクリーンショット。

モデル カタログ ページから

折りたたみ可能な左側のメニューから、[モデル カタログ]> を選択し、特定のモデルに移動し > [ベンチマーク] タブに移動し > 独自のデータを試します。 これによりモデル評価パネルが開き、選択したモデルに対する評価実行を作成することができます。

モデル カタログ ページの [独自のデータを試す] ボタンのスクリーンショット。

評価対象

評価ページから評価を開始するときは、最初に評価対象を決定する必要があります。 適切な評価ターゲットを指定することで、ご利用のアプリケーションの特定の性質に合わせて評価を調整し、正確で関連性の高いメトリックを確保することができます。 次の 2 種類の評価ターゲットがサポートされています。

  • 微調整されたモデル: 選択したモデルとユーザー定義プロンプトによって生成された出力を評価します。
  • データセット: モデルによってテスト データセットに出力が生成されています。

評価対象の選択のスクリーンショット。

テスト データの構成

評価作成ウィザードに入ると、既存のデータセットから選択するか、評価専用の新しいデータセットをアップロードできます。 テスト データセットには、モデルで生成された出力を評価に使用する必要があります。 テスト データのプレビューが右側のウィンドウに表示されます。

  • 既存のデータセットを選択する: ご利用の確立されたデータセット コレクションからテスト データセットを選択することができます。

    新しい評価を作成するときにテスト データを選択するオプションのスクリーンショット。

  • 新しいデータセットを追加する: ご利用のローカル ストレージからファイルをアップロードします。 .csv および .jsonl ファイル形式のみをサポートします。 テスト データのプレビューが右側のウィンドウに表示されます。

    新しい評価を作成するときのファイルのアップロード オプションのスクリーンショット。

テスト条件を構成する

Microsoft は、アプリケーションの包括的な評価を容易にするために Microsoft によってキュレーションされた 3 種類のメトリックをサポートしています。

  • AI 品質 (AI 支援): これらのメトリックは、生成されたコンテンツの全体的な品質と一貫性を評価します。 これらのメトリックを実行するには、ジャッジとしてのモデル デプロイが必要です。
  • AI 品質 (NLP): これらの NLP メトリックは数学に基づいており、生成されたコンテンツの全体的な品質も評価します。 多くの場合、グラウンド トゥルース データが必要ですが、ジャッジとしてモデル デプロイは必要ありません。
  • リスクと安全性に関するメトリック: これらのメトリックは、潜在的なコンテンツのリスクを特定し、生成されたコンテンツの安全性を確保することに焦点を当てています。

テスト条件の追加のスクリーンショット。

テスト条件を追加すると、評価の一部としてさまざまなメトリックが使用されます。 各シナリオ内でサポートされるメトリックのすべてのリストについては、表をご参照ください。 各メトリック定義とその計算方法の詳細については、「 エバリュエーターとは」を参照してください。

AI 品質 (AI 支援) AI 品質 (自然言語処理) リスクと安全性に関するメトリック
根拠性、関連性、一貫性、流暢さ、GPT 類似性 F1 スコア、ROUGE スコア、BLEU スコア、GLEU スコア、METEOR スコア 自傷行為に関連するコンテンツ、ヘイトフルで不公平なコンテンツ、暴力的コンテンツ、性的コンテンツ、保護された素材、間接攻撃

AI 支援品質評価を実行する場合は、計算/採点プロセスに GPT モデルを指定する必要があります。

提示に示されている AI 品質 (AI 支援) メトリックを含む Likert スケール エバリュエーターのスクリーンショット。

AI 品質 (NLP) メトリックは、アプリケーションのパフォーマンスを評価する数学に基づいた測定値です。 多くの場合、計算にはグラウンド トゥルース データが必要です。 ROUGE はメトリックのファミリです。 ROUGE タイプを選択すると、スコアを計算できます。 さまざまな種類の ROUGE メトリックにより、テキスト生成の品質を評価する方法が提供されます。 ROUGE-N は、候補テキストと参照テキスト間の n グラムの重複を測定します。

プレゼンテーションに示されている AI 品質 (NLP) メトリックとのテキストの類似性のスクリーンショット。

リスクと安全性のメトリックについては、デプロイを提供する必要はありません。 Azure AI Foundry ポータルの安全性評価バックエンド サービスは、コンテンツ リスクの重大度スコアと推論を生成できる GPT-4 モデルをプロビジョニングし、アプリケーションでコンテンツの損害を評価できるようにします。

リスクと安全性のメトリックの 1 つである、激しいコンテンツのスクリーンショット。

AI 支援によるリスクと安全性に関するメトリックは、Azure AI Foundry の安全性評価バックエンド サービスによってホストされ、米国東部 2、フランス中部、英国南部、スウェーデン中部のリージョンでのみご使用になれます

注意事項

Foundry Developer Platform に移行した Azure OpenAI ユーザー向けの後方互換性:

以前に oai.azure.com を使用してモデルのデプロイを管理し、評価を実行し、その後 Foundry Developer Platform (FDP) にオンボードしたユーザーは、ai.azure.com を使用するときにいくつかの制限があります。

  • 最初に、ユーザーは Azure OpenAI API を使用して作成された評価を表示できません。 代わりに、これらを表示するには、ユーザーが oai.azure.com に戻る必要があります。

  • 第 2 に、ユーザーは Azure OpenAI API を使用して AI Foundry 内で評価を実行できなくなります。 代わりに、これらのユーザーは引き続き oai.azure.com を使用する必要があります。 ただし、ユーザーは、データセット評価作成オプションの AI Foundry (ai.azure.com) で直接使用できる Azure OpenAI エバリュエーターを使用できます。 デプロイが Azure OpenAI から Azure Foundry への移行である場合、微調整されたモデル評価オプションはサポートされません。

  • データセットのアップロードと独自のストレージの持ち込みのシナリオでは、いくつかの構成要件が発生する必要があります。

    • アカウント認証は Entra ID である必要があります。
    • ストレージをアカウントに追加する必要があります (プロジェクトに追加されると、サービス エラーが発生します)。
    • ユーザーは、Azure portal でアクセス制御を使用して、自分のプロジェクトをストレージ アカウントに追加する必要があります。

Azure OpenAI Hub で OpenAI 評価グレードを使用して特別に評価を作成する方法の詳細については、「Azure AI Foundry Models 評価で Azure OpenAI を使用する方法」を参照してください。

データ マッピング

評価のためのデータ マッピング: 追加されたメトリックごとに、評価に必要な入力に対応するデータセット内のデータ列を指定する必要があります。 評価メトリックが異なると、正確な計算のために異なる種類のデータ入力が必要になります。

評価中、モデルの応答は、次のような主要な入力に対して評価されます。

  • クエリ: すべてのメトリックに必要
  • コンテキスト: オプション
  • グラウンド トゥルース: オプション、AI 品質 (NLP) メトリックに必要

これらのマッピングにより、データと評価基準の間の正確なアラインメントが保証されます。

クエリ、コンテキスト、典拠とする事実の評価入力へのマッピングのスクリーンショット。

各メトリックの特定のデータ マッピング要件に関するガイダンスは、次の表の情報をご参照ください。

クエリと応答のメトリック要件
メトリック クエリ [応答] コンテキスト グランド トゥルース
地に足のついた状態 必須: Str 必須: Str 必須: Str なし
一貫性 必須: Str 必須: Str なし なし
流暢性 必須: Str 必須: Str なし なし
関連性 必須: Str 必須: Str 必須: Str なし
GPT 類似性 必須: Str 必須: Str なし 必須: Str
F1 スコア なし 必須: Str なし 必須: Str
BLEU スコア なし 必須: Str なし 必須: Str
GLEU スコア なし 必須: Str なし 必須: Str
METEOR スコア なし 必須: Str なし 必須: Str
ROUGE スコア なし 必須: Str なし 必須: Str
自傷行為に関連するコンテンツ 必須: Str 必須: Str なし なし
ヘイトフルで不公平なコンテンツ 必須: Str 必須: Str なし なし
暴力的なコンテンツ 必須: Str 必須: Str なし なし
性的なコンテンツ 必須: Str 必須: Str なし なし
保護材料 必須: Str 必須: Str なし なし
間接攻撃 必須: Str 必須: Str なし なし
  • クエリ: 特定の情報を求めるクエリ。
  • 応答: モデルによって生成されたクエリへの応答。
  • コンテキスト: 応答が生成されるソース (つまり、基になるドキュメント)...
  • グラウンド トゥルース: 真の答えとしてユーザー/人間によって生成された、クエリへの応答。

レビューして終了する

必要なすべての構成を完了したら、評価の名前を任意で指定できます。 その後、確認し、[ 送信] を選択して評価実行を送信できます。

新しい評価を作成するためのレビュー ページのスクリーンショット。

微調整されたモデルの評価

選択したモデル デプロイの新しい評価を作成するには、GPT モデルを使用してサンプルの質問を生成するか、確立されたデータセット コレクションから選択できます。

[新しい評価の作成] の [データ ソースの選択] のスクリーンショット。

微調整されたモデルのテスト データを構成する

評価に使用するテスト データセットを設定します。 このデータセットは、評価のための応答を生成するためにモデルに送信されます。 テスト データを構成するには、次の 2 つのオプションがあります。

  • サンプルの質問を生成する
  • 既存のデータセットを使用する (または新しいデータセットをアップロードする)
サンプルの質問を生成する

データセットをすぐに使用できなくても、小さなサンプルで評価を実行する場合は、選択したトピックに基づいて評価するモデル デプロイを選択します。 Azure OpenAI モデルと、Meta LIama や Phi-3 ファミリ モデルなど、標準デプロイと互換性のある他のオープン モデルの両方をサポートしています。 このトピックは、生成されたコンテンツを関心領域に合わせて調整するのに役立ちます。 クエリと応答はリアルタイムで生成され、必要に応じて再生成することができます。

生成が強調表示されたテスト データの作成のスクリーンショット。

データセットの使用

また、確立されたデータセット コレクションから選択したり、新しいデータセットをアップロードしたりすることもできます。

既存のデータセットを使用した選択データ ソースの強調表示のスクリーンショット。

評価メトリックの選択

その後、次にヒットしてテスト条件を構成できます。 条件を選択するとメトリックが追加され、評価に必要なフィールドにデータセットの列をマップする必要があります。 これらのマッピングにより、データと評価基準の間の正確なアラインメントが保証されます。 目的のテスト条件を選択したら、評価を確認し、必要に応じて評価の名前を変更し、[ 送信] を選択して評価の実行を送信し、評価ページに移動して結果を表示できます。

レビュー評価のスクリーンショット。

生成されたデータセットは、評価実行が作成されると、プロジェクトの BLOB ストレージに保存されます。

エバリュエーター ライブラリでエバリュエーターを表示して管理する

エバリュエーター ライブラリは、エバリュエーターの詳細と状態を確認できる一元化された場所です。 Microsoft によってキュレーションされたエバリュエーターを表示して管理できます。

エバリュエーター ライブラリでは、バージョン管理も実現できます。 作業内容のさまざまなバージョンを比較し、必要に応じて以前のバージョンを復元し、他の人とより簡単に共同作業を行うことができます。

Azure AI Foundry ポータルでエバリュエーター ライブラリを使用するには、プロジェクトの [評価] ページに移動し、[エバリュエーター ライブラリ] タブを選択します。

エバリュエーター ライブラリからエバリュエーターを選択するためのページのスクリーンショット。

エバリュエーター名を選択すると、さらなる詳細を表示できます。 名前、説明、およびパラメーターを表示し、エバリュエーターに関連付けられているすべてのファイルを確認できます。 以下に Microsoft によってキュレーションされたエバリュエーターの例をいくつか示します。

  • Microsoft によってキュレーションされたパフォーマンスおよび品質のエバリュエーターについては、詳細ページで注釈プロンプトを表示できます。 これらのプロンプトを独自のユース ケースに合わせて調整するには、Azure AI Evaluation SDK のデータと目標に従ってパラメーターまたは条件を変更します。 たとえば、Groundedness-Evaluator を選択し、メトリックの計算方法を示す Prompty ファイルを確認できます。
  • Microsoft によってキュレーションされたリスクと安全性のエバリュエーターについては、メトリックの定義を確認できます。 たとえば、Self-Harm-Related-Content-Evaluator を選択し、それが意味するものと、Microsoft がこの安全性メトリックのさまざまな重大度レベルをどのように決めているかを確認できます。

ご利用の生成 AI アプリケーションを評価する方法の詳細については、次をご参照ください。