马赛克 AI 代理评估教程笔记本

2025-05-09

以下笔记本演示如何使用 Agent Evaluation 的专有 LLM 模型评估器、自定义指标和领域专家标签来评估生成式 AI 应用。它演示了以下内容：

如何将生产日志（跟踪）加载到评估数据集中。
如何运行评估并执行根本原因分析。
如何创建自定义指标以自动检测质量问题。
如何为中小企业发送生产日志来标记和改进评估数据集。

若要让代理准备好进行预生产，请参阅马赛克 AI 代理演示笔记本。有关一般信息，请参阅什么是马赛克 AI 代理评估？。

代理评估自定义指标、指南和域专家标签笔记本

获取笔记本