什么是适用于生成式 AI 的湖屋监视? (旧版)

重要

此功能以 Beta 版本提供。

重要

本页介绍<0.22 与 MLflow <2.x 的代理评估。 Databricks 建议使用与代理评估 >1.0集成的 MLflow 3。 代理评估 SDK 方法现在通过 mlflow SDK 公开。

有关本主题的信息,请参阅 生产质量监视(自动运行评分器)。

本页介绍如何使用 Lakehouse Monitoring for GenAI 监视生成 AI 应用。 Lakehouse 监控与代理评估紧密集成,因此您可以在离线评估和在线监控中使用相同的评估配置(LLM 法官自定义指标)。

可以监视使用 Mosaic AI 代理框架或是 Databricks 之外部署的 gen AI 应用。

适用于生成式 AI 的湖屋监视可帮助你使用 Mosaic AI 代理评估 AI 判定来跟踪运营指标(如数据量、延迟、错误和成本)以及质量指标(如正确性和准则遵守情况)。

适用于生成式 AI 的湖屋监视 UI 主图

产品概述

针对 GenAI 的湖屋监视使用 MLflow 跟踪(基于开放遥测的 GenAI 可观测性开放标准)从 GenAI 应用检测和捕获生产日志。 若要使用监视,首先使用 MLflow 跟踪检测 GenAI 应用。

监视旨在:

  1. 帮助你确定生产代理中的质量和性能(成本、延迟)问题
    • 自动运行 LLM 判定以评估生产代理的质量
    • 查看包含有关生产代理质量的指标的仪表板
    • 查看单个跟踪(例如用户请求)
  2. 将表现不佳的跟踪传输到开发流程,以迭代方式测试针对已识别问题的修复方案。
    • 将单个跟踪添加到 评估数据集 以用于代理评估
    • 将单个跟踪发送到评审应用,以从主题专家收集基本事实标签

下图演示了监视启用的工作流。

监视工作流

注释

此工作流也适用于 beta 测试人员使用的预生产应用。

要求

若要监视使用 Mosaic AI Agent 框架部署的应用,请执行以下步骤:

  • 必须启用无服务器作业。
  • 若要使用 LLM 法官指标,需要启用合作伙伴支持的 AI 辅助功能 。 无论此设置如何,都支持其他指标,例如延迟。

局限性

重要

  • 联机监视目前处于 Beta 版状态。 只有某些工作区可以使用 Beta 产品。
  • 公共 Beta 版本中当前不提供以下功能:
    • 用户反馈日志记录
    • 自定义指标

如果需要使用这些功能或目前没有为 Beta 版监视激活工作区,请联系 Databricks 帐户代表获取访问权限。

设置监视

代理监视支持使用马赛克 AI 代理框架部署的代理以及在 Databricks 外部部署的生成式 AI 应用。 要执行的步骤取决于需要监视的应用类型。 有关详细信息,请参阅以下内容: