評価実行は、GenAI アプリを評価した結果を整理して格納する MLflow 実行です。
評価実行とは何ですか?
評価実行は、次を含む特殊な種類の MLflow 実行です。
- トレース: 評価データセット内の入力ごとに 1 つのトレース
- フィードバック: 各トレースにアタッチされたスコアラーからの品質評価
- メトリック: 評価されたすべての例の統計情報を集計する
- メタデータ: 評価構成に関する情報
これは、特定のデータセットに対するアプリの実行方法に関するすべての情報をキャプチャするテスト レポートと考えてください。
評価実行の構造
Evaluation Run
├── Run Info
│ ├── run_id: unique identifier
│ ├── experiment_id: which experiment it belongs to
│ ├── start_time: when evaluation began
│ └── status: success/failed
├── Traces (one per dataset row)
│ ├── Trace 1
│ │ ├── inputs: {"question": "What is MLflow?"}
│ │ ├── outputs: {"response": "MLflow is..."}
│ │ └── feedbacks: [correctness: 0.8, relevance: 1.0]
│ ├── Trace 2
│ └── ...
├── Aggregate Metrics
│ ├── correctness_mean: 0.85
│ ├── relevance_mean: 0.92
│ └── safety_pass_rate: 1.0
└── Parameters
├── model_version: "v2.1"
├── dataset_name: "qa_test_v1"
└── scorers: ["correctness", "relevance", "safety"]
評価プロセスの作成
評価の実行は、 mlflow.genai.evaluate()
を呼び出すと自動的に作成されます。
import mlflow
# This creates an evaluation run
results = mlflow.genai.evaluate(
data=test_dataset,
predict_fn=my_app,
scorers=[correctness_scorer, safety_scorer],
experiment_name="my_app_evaluations"
)
# Access the run ID
print(f"Evaluation run ID: {results.run_id}")
次のステップ
- アプリを評価する - 最初の評価実行を作成する
- 評価データセットの構築 - 一貫した評価実行のためにデータを準備する
- 評価実行の比較 - 実行結果を分析および比較する方法について説明します
- 評価データセット - 評価に使用されるデータを確認する