MLflow 的评估和监视功能可帮助你系统地衡量、改进和维护 GenAI 应用程序的整个生命周期的质量。 从开发到生产,使用相同的 质量评分器 来确保应用程序在管理成本和延迟的同时提供准确的可靠响应。
本页概述了核心评估和监视工作流和概念,并提供详细信息的链接。
注释
代理评估与托管 MLflow 3 集成。 代理评估 SDK 方法现在通过 mlflow[databricks]>=3.1
SDK 公开。 请参阅 迁移指南 ,将 旧版代理评估 代码更新为 MLflow 3 SDK。
开发期间的评估
使用预生成和自定义评分器针对特选评估数据集运行评估,以迭代方式测试和改进 GenAI 应用。 MLflow 的 评估工具 可帮助你测试应用的新版本和提示,以便:
- 判断您的更改是否改善了质量
- 确定质量问题的根本原因
- 比较应用的不同版本并排对比
- 验证更改是否未导致回归
在生产环境中监视
重要
监视处于 Beta 阶段。
持续跟踪已部署应用的性能和质量。 借助 MLflow 的监视功能,你可以:
入门指南
从 评估快速入门开始 ,在几分钟内评估第一个 GenAI 应用。
后续步骤
继续您的旅程,并参考这些推荐的行动和教程。
- 评估应用 - 了解完整的评估工作流
- 使用预定义的 LLM 评分器 - 从研究支持的质量指标开始
- 创建评估数据集 - 从生产数据生成全面的测试集
参考指南
浏览本指南中提到的概念和功能的详细文档。
- 记分器 - 了解评分者如何评估 GenAI 应用程序
- LLM 法官 - 了解如何将 LLM 用作评估者
- Evaluation Harness - 探索 MLflow 如何协调评估