评估和监视

MLflow 的评估和监视功能可帮助你系统地衡量、改进和维护 GenAI 应用程序的整个生命周期的质量。 从开发到生产,使用相同的 质量评分器 来确保应用程序在管理成本和延迟的同时提供准确的可靠响应。

本页概述了核心评估和监视工作流和概念,并提供详细信息的链接。

注释

代理评估与托管 MLflow 3 集成。 代理评估 SDK 方法现在通过 mlflow[databricks]>=3.1 SDK 公开。 请参阅 迁移指南 ,将 旧版代理评估 代码更新为 MLflow 3 SDK。

开发期间的评估

使用预生成和自定义评分器针对特选评估数据集运行评估,以迭代方式测试和改进 GenAI 应用。 MLflow 的 评估工具 可帮助你测试应用的新版本和提示,以便:

  • 判断您的更改是否改善了质量
  • 确定质量问题的根本原因
  • 比较应用的不同版本并排对比
  • 验证更改是否未导致回归

在生产环境中监视

重要

监视处于 Beta 阶段

持续跟踪已部署应用的性能和质量。 借助 MLflow 的监视功能,你可以:

  • 使用与开发相同的 评分器 自动评估质量
  • 跟踪运行指标(延迟、成本、错误)
  • 识别性能不佳的查询以创建 评估数据集

入门指南

评估快速入门开始 ,在几分钟内评估第一个 GenAI 应用。

后续步骤

继续您的旅程,并参考这些推荐的行动和教程。

参考指南

浏览本指南中提到的概念和功能的详细文档。