次の方法で共有


生成 AI の可観測性

Von Bedeutung

この記事で "(プレビュー)" と付記されている項目は、現在、パブリック プレビュー段階です。 このプレビューはサービス レベル アグリーメントなしで提供されており、運用環境ではお勧めしません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳細については、「 Microsoft Azure プレビューの追加使用条件」を参照してください。

今日の AI 主導の世界では、GenAIOps (Generative AI Operations) は、組織がインテリジェント システムを構築してデプロイする方法に革命を起こしています。 企業が AI を使用して意思決定を変革し、カスタマー エクスペリエンスを強化し、イノベーションを促進する中で、1 つの要素が最も重要な要素である堅牢な評価フレームワークです。 評価は単なるチェックポイントではありません。 これは、AI アプリケーションにおける信頼の基盤です。 厳密な評価がなければ、AI システムは次のコンテンツを生成できます。

  • 架空または現実への典拠なし
  • ユーザーのニーズに無関係または一貫性がない
  • コンテンツのリスクとステレオタイプの永続化に有害
  • 誤った情報を拡散する危険
  • セキュリティの悪用に対して脆弱

エバリュエーターが不可欠になるのは、ここでです。 これらの特殊なツールは、AI 出力のリスクの頻度と重大度の両方を測定します。これにより、チームは、適切なモデルの選択から生産パフォーマンス、品質、安全性の監視まで、AI 開発の過程全体で品質、安全性、およびセキュリティに関する懸念に体系的に対処できます。

エバリュエーターとは

エバリュエーターは、AI 応答の品質、安全性、信頼性を測定する特殊なツールです。 AI 開発ライフサイクル全体で体系的な評価を実装することで、チームはユーザーに影響を与える前に潜在的な問題を特定して対処できます。 サポートされている次のエバリュエーターは、さまざまな AI アプリケーションの種類と懸念事項にわたる包括的な評価機能を提供します。

RAG (検索拡張生成):

エバリュエータ 目的
取得 システムが関連情報を効果的に取得する方法を測定します。
ドキュメントの取得 典拠とする事実を前提として、取得結果の正確性を測定します。
地に足のついた状態 取得したコンテキストに対する応答の一貫性を測定します。
グラウンデッドネス プロ 取得したコンテキストに関して応答が一貫性があるかどうかを測定します。
関連性 クエリに対する応答の関連性を測定します。
応答の完全性 真の基準に対し、応答がどの程度完全(重要な情報が欠落していない)であるかを測定する尺度。

エージェント (プレビュー):

エバリュエータ 目的
意図の解決 エージェントがユーザーの意図を識別して対処する正確な方法を測定します。
タスクの遵守 特定されたタスクでエージェントがどれだけ適切にフォローしているかを測定します。
ツール呼び出しの精度 エージェントが適切なツールを選択して呼び出す方法を測定します。

汎用:

エバリュエータ 目的
流暢性 自然言語の品質と読みやすさを測定します。
一貫性 論理的な一貫性と応答のフローを測定します。
品質保証 質問に答えるさまざまな品質側面を包括的に測定します。

安全性とセキュリティ (プレビュー):

エバリュエータ 目的
暴力 激しいコンテンツまたは煽動を検出します。
性的 不適切な性的コンテンツを識別します。
自傷行為 自傷行為を助長または説明するコンテンツを検出します。
嫌悪と不公平 偏った、差別的、または嫌悪的なコンテンツを識別します。
根拠のない属性 ユーザーの操作から推論された、製造された情報または幻覚的な情報を検出します。
コードの脆弱性 生成されたコードのセキュリティの問題を識別します。
保護材料 著作権で保護されたコンテンツの不正使用を検出します。
コンテンツの安全性 さまざまな安全上の懸念事項の包括的な評価。

テキストの類似性:

エバリュエータ 目的
相似 AI 支援テキスト類似度測定。
F1 スコア 応答と典拠とする事実の間のトークンの重複における、精度とリコールの調和平均。
BLEU 翻訳品質の Bilingual Evaluation Understudy スコアは、応答と典拠とする事実の間で n-gram の重複を測定します。
GLEU 文レベルの評価のための Google-BLEU バリアントは、応答と典拠とする真実の間で n-gram の重複を測定します。
ROUGE Recall-Oriented Understudy for Gisting Evaluation は、応答と典拠とする事実の間で n-gram の重複を測定します。
流星 Metric for Evaluation of Translation with Explicit Ordering は、応答と典拠とする事実の間で n-gram の重複を測定します。

Azure OpenAI Graders (プレビュー):

エバリュエータ 目的
モデル ラベラー カスタム ガイドラインとラベルを使用してコンテンツを分類します。
モデル スコアラー カスタム ガイドラインに基づいてコンテンツの数値スコア (カスタマイズされた範囲) を生成します。
文字列チェッカー 柔軟なテキスト検証とパターン マッチングを実行します。
テキストの類似性 テキストの品質を評価するか、セマンティックの近さを判断します。

これらのエバリュエーターを開発ライフサイクル全体にわたって戦略的に使用することで、チームは潜在的なリスクを最小限に抑えながら、ユーザーのニーズを満たす、より信頼性の高い、安全で効果的な AI アプリケーションを構築できます。

モデルの選択、AI アプリケーションの構築、運用化を示す、エンタープライズ GenAIOps ライフサイクルの図。

GenAIOps 評価の 3 つの段階

基本モデルの選択

アプリケーションをビルドする前に、適切な基盤を選択する必要があります。 この初期評価は、次に基づいてさまざまなモデルを比較するのに役立ちます。

  • 品質と精度: モデルの応答にどの程度関連性があり、一貫性がありますか?
  • タスクのパフォーマンス: モデルは特定のユース ケースを効率的に処理しますか?
  • 倫理的な考慮事項: モデルは有害なバイアスから解放されますか?
  • 安全プロファイル: 安全でないコンテンツを生成するリスクは何ですか?

使用可能なツール: パブリック データセットまたは独自のデータのモデルを比較するための Azure AI Foundry ベンチマーク と、 特定のモデル エンドポイントをテストするための Azure AI 評価 SDK。

運用前の評価

ベース モデルを選択した後、次の手順は、AI を利用したチャットボット、検索拡張生成 (RAG) アプリケーション、エージェント AI アプリケーション、その他の生成 AI ツールなどの AI アプリケーションを開発することです。 開発が完了すると、実稼働前の評価が開始されます。 運用環境にデプロイする前に、モデルが実際の使用の準備ができていることを確認するために、徹底的なテストが不可欠です。

運用前の評価には、次のことが含まれます。

  • 評価データセットを使用したテスト: これらのデータセットは、現実的なユーザー操作をシミュレートして、AI アプリケーションが期待どおりに動作することを確認します。
  • エッジ ケースの特定: AI アプリケーションの応答品質が低下したり、望ましくない出力が生成されたりする可能性があるシナリオを見つける。
  • 堅牢性の評価: 品質や安全性を大幅に低下させることなく、モデルがさまざまな入力バリエーションを処理できることを確認します。
  • 主要メトリックの測定: 応答の根拠、関連性、安全性などのメトリックを評価して、運用環境の準備状況を確認します。

6 つの手順を含む、モデルとアプリケーションの運用前評価の図。

運用前の段階は最終的な品質チェックとして機能し、目的とするパフォーマンスや安全基準を満たしていない AI アプリケーションがデプロイされるリスクを軽減します。

評価ツールとアプローチ:

  • 独自のデータを持ち込む: 生成品質、安全性、カスタム エバリュエーターなど、サポートされているエバリュエーターを使用して独自の評価データを使用して、運用前に AI アプリケーションを評価し、Azure AI Foundry ポータルを使用して結果を表示できます。 Azure AI Foundry の評価ウィザードまたは Azure AI Evaluation SDK で サポートされているエバリュエーター (生成品質、安全性、 カスタム エバリュエーターなど) を使用し、 Azure AI Foundry ポータルを使用して結果を表示します。
  • シミュレーターと AI レッド チーミング エージェント (プレビュー): 評価データ (テスト データ) がない場合、 Azure AI Evaluation SDK のシミュレーター は、トピック関連または敵対的なクエリを生成することで役立ちます。 これらのシミュレーターは、状況に適したクエリまたは攻撃に似たクエリ (エッジ ケース) に対するモデルの応答をテストします。
    • 敵対的シミュレーターは 、潜在的な安全リスクや脱獄の試行などのセキュリティ攻撃を模倣する静的クエリを挿入し、制限を特定し、予期しない状況に備えるモデルを準備します。
    • コンテキストに適したシミュレーターは、ユーザーから予想される一般的な関連性のある会話を生成し、応答の品質をテストします。 コンテキストに適したシミュレーターを使用すると、生成された応答の接地性、関連性、一貫性、流暢性などのメトリックを評価できます。
    • AI レッド チーミング エージェント (プレビュー) は、Microsoft の Python リスク識別ツールまたは PyRIT 用のオープン フレームワークを使用して、広範な安全性とセキュリティ攻撃を使用して、AI システムに対する複雑な敵対的攻撃をシミュレートします。 AI レッド チーミング エージェントを使用した自動スキャンでは、AI アプリケーションのリスクを体系的にテストすることで、運用前のリスク評価が強化されます。 このプロセスには、実際のデプロイ前のモデル応答の弱点を特定するための、シミュレートされた攻撃シナリオが含まれます。 AI レッド チーミング スキャンを実行することで、デプロイ前に潜在的な安全性の問題を検出して軽減できます。 このツールは、リスクの特定を促進し、人間の専門家による評価を支援するために、従来の AI レッド チーミングプローブなどの人間のループ内プロセスで使用することをお勧めします。

または、 Azure AI Foundry ポータルの評価ウィジェット を使用して、生成型 AI アプリケーションをテストすることもできます。

満足できる結果が得られたら、AI アプリケーションを運用環境にデプロイできます。

運用後の監視

デプロイ後、継続的な監視により、AI アプリケーションは実際の条件下で品質を維持できます。

  • パフォーマンスの追跡: 主要なメトリックの定期的な測定。
  • インシデント対応: 有害または不適切な出力が発生した場合の迅速なアクション。

効果的な監視は、ユーザーの信頼を維持し、迅速な問題解決を可能にします。

Azure AI Foundry Observability は、今日の複雑で急速に進化する AI ランドスケープに不可欠な包括的な監視機能を提供します。 Azure Monitor Application Insights とシームレスに統合されたこのソリューションにより、デプロイされた AI アプリケーションを継続的に監視して、運用環境で最適なパフォーマンス、安全性、品質を確保できます。 Foundry Observability ダッシュボードは、重要なメトリックに関するリアルタイムの分析情報を提供します。これにより、チームはパフォーマンスの問題、安全性の懸念、品質の低下をすばやく特定して対処できます。 エージェントベースのアプリケーションの場合、Foundry は継続的な評価機能を強化し、品質と安全性のメトリックをより深く可視化し、高いパフォーマンスと信頼性を維持しながら、AI アプリケーションの動的な性質に適応する堅牢な監視エコシステムを作成します。

運用環境で AI アプリケーションの動作を継続的に監視することで、高品質のユーザー エクスペリエンスを維持し、発生する問題に迅速に対処できます。

体系的な評価による信頼の構築

GenAIOps は、ライフサイクル全体を通して AI アプリケーションを管理するための信頼性の高いプロセスを確立します。 モデルの選択からデプロイまで、各段階で徹底的な評価を実装することで、チームは強力で信頼できる安全な AI ソリューションを作成できます。

評価のクイック ガイド

目的 プロセス パラメーター
何について評価しますか? 関連するエバリュエータを特定または構築する - 品質とパフォーマンスのサンプル ノートブック

- エージェントの応答品質

- 安全とセキュリティ (安全とセキュリティのサンプル ノートブック)

- カスタム (カスタム サンプル ノートブック)
どのようなデータを使用する必要がありますか? 関連するデータセットをアップロードまたは生成する 品質とパフォーマンスを測定するための汎用シミュレーター (汎用シミュレーターのサンプル ノートブック)

- 安全性とセキュリティを測定するための 敵対シミュレーター (敵対シミュレーターサンプル ノートブック)

自動スキャンを実行して安全性とセキュリティの脆弱性を評価するための AI レッド チーミング エージェント (AI レッド チーミング エージェント サンプル ノートブック)
評価を実施する必要があるリソースは何ですか? 評価の実行 - ローカル実行

- リモート クラウド実行
モデルまたはアプリのパフォーマンスはどうでしたか? 分析結果 集計スコアの表示、詳細の表示、スコアの詳細、評価実行の比較
どのように改善できますか? モデル、アプリ、またはエバリュエータに変更を加える - 評価結果が人間のフィードバックに合わない場合は、エバリュエータを調整します。

- 評価結果が人間のフィードバックに合っていたが、品質または安全性のしきい値を満たしていない場合は、対象を絞った軽減策を適用します。 適用する軽減策の例: Azure AI Content Safety

リージョンのサポート

現在、特定の AI 支援エバリュエータは、次のリージョンでのみ使用できます。

リージョン 憎しみと不公平、性的、暴力、自傷行為、間接攻撃、コードの脆弱性、根拠のない属性 グラウンデッドネス プロ 保護材料
米国東部 2 サポートされています サポートされています サポートされています
スウェーデン中部 サポートされています サポートされています なし
米国中北部 サポートされています なし なし
フランス中部 サポートされています なし なし
スイス西部 サポートされています なし なし

価格設定

リスクと安全性の評価や継続的評価などの監視機能は、 Azure の価格ページに記載されている使用量に基づいて課金されます。 [ Complete AI Toolchain ] というラベルの付いたタブを選択して、評価の価格の詳細を表示します。