以下笔记本演示如何使用 Agent Evaluation 的专有 LLM 模型评估器、自定义指标和领域专家标签来评估生成式 AI 应用。 它演示了以下内容:
- 如何将生产日志(跟踪)加载到评估数据集中。
- 如何运行评估并执行根本原因分析。
- 如何创建自定义指标以自动检测质量问题。
- 如何为中小企业发送生产日志来标记和改进评估数据集。
若要让代理准备好进行预生产,请参阅 马赛克 AI 代理演示笔记本。 有关一般信息,请参阅 什么是马赛克 AI 代理评估?。
以下笔记本演示如何使用 Agent Evaluation 的专有 LLM 模型评估器、自定义指标和领域专家标签来评估生成式 AI 应用。 它演示了以下内容:
若要让代理准备好进行预生产,请参阅 马赛克 AI 代理演示笔记本。 有关一般信息,请参阅 什么是马赛克 AI 代理评估?。