次の方法で共有


生成 AI 用のレイクハウス監視とは (MLflow 2)

重要

この機能はベータ版です。

重要

このページでは、MLflow 2 でのエージェント評価バージョン 0.22 の使用方法について説明します。 Databricks では、エージェント評価 >1.0と統合された MLflow 3 を使用することをお勧めします。 MLflow 3 では、エージェント評価 API が mlflow パッケージの一部になりました。

このトピックの詳細については、「 運用品質の監視 (スコアラーを自動的に実行する)」を参照してください。

このページでは、Lakehouse Monitoring for GenAI を使用して生成 AI アプリを監視する方法について説明します。 Lakehouse Monitoring は Agent Evaluation と緊密に統合されているため、オフライン評価とオンライン監視で同じ評価構成 (LLM ジャッジカスタム メトリック) を使用できます。

Mosaic AI Agent Framework を使用してデプロイされた Gen AI アプリ、または Databricks の外部にデプロイされた GEN AI アプリを監視できます。

Gen AI の Lakehouse Monitoring を使用すると、 モザイク AI エージェント評価 AI のジャッジを使用して、ボリューム、待機時間、エラー、コストなどの運用メトリックだけでなく、正確性やガイドライン準拠などの品質メトリックを追跡できます。

生成 AI UI ヒーロー用のレイクハウス監視

製品概要

Lakehouse Monitoring for GenAI では、オープン テレメトリに基づく GenAI 監視のオープン標準である MLflow Tracing を使用して、GenAI アプリから運用ログをインストルメント化してキャプチャします。 監視を使用するには、まず 、MLflow トレースを使用して GenAI アプリをインストルメント化します。

監視は次の目的で設計されています。

  1. 運用エージェントの品質とパフォーマンス (コスト、待機時間) の問題を特定するのに役立ちます
    • LLM ジャッジを自動的に実行して、運用エージェントの品質を評価する
    • 運用エージェントの品質に関するメトリックを含むダッシュボードを表示する
    • 個々のトレース (ユーザー要求など) を確認する
  2. パフォーマンスの低いトレースを開発ループに転送して、特定された問題の修正を繰り返しテストします
    • エージェント評価で使用する 評価データセット に個々のトレースを追加する
    • 個別のトレースをレビュー アプリに送信し、領域の専門家からグラウンド トゥルース ラベルを収集する

次の図は、監視によって有効になっているワークフローを示しています。

監視ワークフロー

このワークフローは、ベータ テスト担当者が使用する実稼働前アプリにも適用できます。

必要条件

Mosiac AI Agent Framework を使用してデプロイされたアプリを監視するには:

  • サーバーレス ジョブを有効にする必要があります。
  • LLM ジャッジ メトリックを使用するには、パートナーを利用する AI 支援機能 を有効にする必要があります。 待機時間などのその他のメトリックは、この設定に関係なくサポートされます。

制限事項

重要

  • オンライン監視は現在 ベータ版です。 ベータ製品を使用できるのは、特定のワークスペースのみです。
  • 現在、パブリック ベータ リリースでは、次の機能を使用できません。
    • ユーザー フィードバックログ
    • カスタム メトリック

これらの機能を使用する必要がある場合、またはワークスペースが監視ベータに対して現在アクティブ化されていない場合は、Databricks アカウントの担当者に連絡してアクセスしてください。

監視を設定する

エージェント監視では、モザイク AI エージェント フレームワークと Databricks の外部にデプロイされた Gen AI アプリを使用してデプロイされたエージェントがサポートされます。 実行する手順は、監視する必要があるアプリの種類によって異なります。 詳細については、次を参照してください。