次の方法で共有


評価の実行

評価実行は、GenAI アプリを評価した結果を整理して格納する MLflow 実行です。

評価実行とは何ですか?

評価実行は、次を含む特殊な種類の MLflow 実行です。

  • トレース: 評価データセット内の入力ごとに 1 つのトレース
  • フィードバック: 各トレースにアタッチされたスコアラーからの品質評価
  • メトリック: 評価されたすべての例の統計情報を集計する
  • メタデータ: 評価構成に関する情報

これは、特定のデータセットに対するアプリの実行方法に関するすべての情報をキャプチャするテスト レポートと考えてください。

評価実行の構造

Evaluation Run
├── Run Info
│   ├── run_id: unique identifier
│   ├── experiment_id: which experiment it belongs to
│   ├── start_time: when evaluation began
│   └── status: success/failed
├── Traces (one per dataset row)
│   ├── Trace 1
│   │   ├── inputs: {"question": "What is MLflow?"}
│   │   ├── outputs: {"response": "MLflow is..."}
│   │   └── feedbacks: [correctness: 0.8, relevance: 1.0]
│   ├── Trace 2
│   └── ...
├── Aggregate Metrics
│   ├── correctness_mean: 0.85
│   ├── relevance_mean: 0.92
│   └── safety_pass_rate: 1.0
└── Parameters
    ├── model_version: "v2.1"
    ├── dataset_name: "qa_test_v1"
    └── scorers: ["correctness", "relevance", "safety"]

評価プロセスの作成

評価の実行は、 mlflow.genai.evaluate()を呼び出すと自動的に作成されます。

import mlflow

# This creates an evaluation run
results = mlflow.genai.evaluate(
    data=test_dataset,
    predict_fn=my_app,
    scorers=[correctness_scorer, safety_scorer],
    experiment_name="my_app_evaluations"
)

# Access the run ID
print(f"Evaluation run ID: {results.run_id}")

次のステップ