次のノートブックは、Agent Evaluation の独自の LLM ジャッジ、カスタム メトリック、およびドメイン エキスパートのラベルを使用して、Gen AI アプリを評価する方法を示しています。 次の例を示します。
- 運用ログ (トレース) を評価データセットに読み込む方法。
- 評価を実行し、根本原因分析を行う方法。
- 品質の問題を自動的に検出するカスタム メトリックを作成する方法。
- 評価データセットにラベルを付けて進化させるために、中小企業の運用ログを送信する方法。
エージェントを実稼働前に準備するには、 Mosaic AI エージェントのデモ ノートブックを参照してください。 一般的な情報については、「 モザイク AI エージェントの評価 (MLflow 2)」を参照してください。