马赛克 AI 代理评估教程笔记本

以下笔记本演示如何使用 Agent Evaluation 的专有 LLM 模型评估器、自定义指标和领域专家标签来评估生成式 AI 应用。 它演示了以下内容:

  • 如何将生产日志(跟踪)加载到评估数据集中。
  • 如何运行评估并执行根本原因分析。
  • 如何创建自定义指标以自动检测质量问题。
  • 如何为中小企业发送生产日志来标记和改进评估数据集。

若要让代理准备好进行预生产,请参阅 马赛克 AI 代理演示笔记本。 有关一般信息,请参阅 什么是马赛克 AI 代理评估?

代理评估自定义指标、指南和域专家标签笔记本

获取笔记本