虽然 MLflow 的 预定义 LLM 法官评分器 在更简单的应用程序中为常见质量维度提供了出色的起点,但随着应用程序变得更加复杂,并调整评估标准以满足用例的特定细微差别的业务要求,并与域专家的判断保持一致,则需要创建自定义 LLM 法官。 MLflow 提供了可靠且灵活的方法来创建自定义 LLM 法官 ,以满足这些独特的要求。
创建自定义法官的方法
MLflow 提供了 2 种生成自定义法官的方法。 建议从基于准则的评委开始,仅当需要更多控制或无法将评估标准编写为通过/失败准则时,才使用基于提示的评委。 基于准则的法官具有向业务利益干系人轻松解释的独特优势,通常可由领域专家直接编写。
基于指南的评分工具 (建议从此处开始)
- 最适合: 基于一组明确的特定自然语言条件进行评估,这些条件构建为通过/未通过条件。 非常适合用于检查规则、样式指南或信息包含/排除的符合性。
-
工作原理: 提供一组纯语言规则,这些规则引用应用中的特定输入或输出,例如
The response must be polite
。 然后,LLM 确定指南是通过还是失败,并提供理由。
基于提示的评分器
- 最适合: 复杂且细致的评估,在需要完全控制评分者的提示或让评分者指定多个输出值时,例如“优秀”、“一般”、“差”。
- 工作原理: 提供一个提示模板,用于定义评估条件,并为应用跟踪中的特定字段提供占位符。 定义记分器可以选择的输出选项。 然后,LLM 会选择适当的输出选项,并为其选择提供理由。
后续步骤
继续您的旅程,并参考这些推荐的行动和教程。
- 创建基于指南的记分器 - 使用自然语言规则定义评估标准(建议)
- 创建基于提示的评分器 - 使用自定义提示和输出选择生成复杂的法官
- 在生产环境中运行记分器 - 部署自定义评委以持续监视
参考指南
浏览本指南中提到的概念和功能的详细文档。
- LLM 法官 - 了解 LLM 法官的工作原理及其体系结构
- 自定义评委:基于准则 - 深入了解基于指南的评估
- 自定义法官:基于提示 - 基于提示的法官技术细节