重要
この機能はベータ版です。
重要
このページでは、MLflow 2 でのエージェント評価バージョン 0.22
の使用方法について説明します。 Databricks では、エージェント評価 >1.0
と統合された MLflow 3 を使用することをお勧めします。 MLflow 3 では、エージェント評価 API が mlflow
パッケージの一部になりました。
このトピックの詳細については、「 運用品質の監視 (スコアラーを自動的に実行する)」を参照してください。
このページでは、Lakehouse Monitoring for GenAI を使用して生成 AI アプリを監視する方法について説明します。 Lakehouse Monitoring は Agent Evaluation と緊密に統合されているため、オフライン評価とオンライン監視で同じ評価構成 (LLM ジャッジ と カスタム メトリック) を使用できます。
Mosaic AI Agent Framework を使用してデプロイされた Gen AI アプリ、または Databricks の外部にデプロイされた GEN AI アプリを監視できます。
Gen AI の Lakehouse Monitoring を使用すると、 モザイク AI エージェント評価 AI のジャッジを使用して、ボリューム、待機時間、エラー、コストなどの運用メトリックだけでなく、正確性やガイドライン準拠などの品質メトリックを追跡できます。
製品概要
Lakehouse Monitoring for GenAI では、オープン テレメトリに基づく GenAI 監視のオープン標準である MLflow Tracing を使用して、GenAI アプリから運用ログをインストルメント化してキャプチャします。 監視を使用するには、まず 、MLflow トレースを使用して GenAI アプリをインストルメント化します。
監視は次の目的で設計されています。
- 運用エージェントの品質とパフォーマンス (コスト、待機時間) の問題を特定するのに役立ちます
- LLM ジャッジを自動的に実行して、運用エージェントの品質を評価する
- 運用エージェントの品質に関するメトリックを含むダッシュボードを表示する
- 個々のトレース (ユーザー要求など) を確認する
- パフォーマンスの低いトレースを開発ループに転送して、特定された問題の修正を繰り返しテストします
次の図は、監視によって有効になっているワークフローを示しています。
注
このワークフローは、ベータ テスト担当者が使用する実稼働前アプリにも適用できます。
必要条件
Mosiac AI Agent Framework を使用してデプロイされたアプリを監視するには:
- サーバーレス ジョブを有効にする必要があります。
- LLM ジャッジ メトリックを使用するには、パートナーを利用する AI 支援機能 を有効にする必要があります。 待機時間などのその他のメトリックは、この設定に関係なくサポートされます。
制限事項
重要
- オンライン監視は現在 ベータ版です。 ベータ製品を使用できるのは、特定のワークスペースのみです。
- 現在、パブリック ベータ リリースでは、次の機能を使用できません。
- ユーザー フィードバックログ
- カスタム メトリック
これらの機能を使用する必要がある場合、またはワークスペースが監視ベータに対して現在アクティブ化されていない場合は、Databricks アカウントの担当者に連絡してアクセスしてください。
監視を設定する
エージェント監視では、モザイク AI エージェント フレームワークと Databricks の外部にデプロイされた Gen AI アプリを使用してデプロイされたエージェントがサポートされます。 実行する手順は、監視する必要があるアプリの種類によって異なります。 詳細については、次を参照してください。
- Mosaic AI Agent Framework を使用してデプロイされたアプリの監視を設定するには、「Agent Framework (MLflow 2) を使用してデプロイされたアプリを監視する」を参照してください。
- Databricks の外部にデプロイされたアプリの監視を設定するには、 Azure Databricks (MLflow 2) の外部にデプロイされたアプリの監視に関するページを参照してください。