创建自定义 LLM 评分器

2025-06-11

虽然 MLflow 的预定义 LLM 法官评分器在更简单的应用程序中为常见质量维度提供了出色的起点，但随着应用程序变得更加复杂，并调整评估标准以满足用例的特定细微差别的业务要求，并与域专家的判断保持一致，则需要创建自定义 LLM 法官。 MLflow 提供了可靠且灵活的方法来创建自定义 LLM 法官 ，以满足这些独特的要求。

创建自定义法官的方法

MLflow 提供了 2 种生成自定义法官的方法。建议从基于准则的评委开始，仅当需要更多控制或无法将评估标准编写为通过/失败准则时，才使用基于提示的评委。基于准则的法官具有向业务利益干系人轻松解释的独特优势，通常可由领域专家直接编写。

基于指南的评分工具（建议从此处开始）

最适合： 基于一组明确的特定自然语言条件进行评估，这些条件构建为通过/未通过条件。非常适合用于检查规则、样式指南或信息包含/排除的符合性。
工作原理： 提供一组纯语言规则，这些规则引用应用中的特定输入或输出，例如 The response must be polite。然后，LLM 确定指南是通过还是失败，并提供理由。

指南入门 »

基于提示的评分器

最适合： 复杂且细致的评估，在需要完全控制评分者的提示或让评分者指定多个输出值时，例如“优秀”、“一般”、“差”。
工作原理： 提供一个提示模板，用于定义评估条件，并为应用跟踪中的特定字段提供占位符。定义记分器可以选择的输出选项。然后，LLM 会选择适当的输出选项，并为其选择提供理由。

开始使用基于提示的评审系统 »

后续步骤

继续您的旅程，并参考这些推荐的行动和教程。

创建基于指南的记分器 - 使用自然语言规则定义评估标准（建议）
创建基于提示的评分器 - 使用自定义提示和输出选择生成复杂的法官
在生产环境中运行记分器 - 部署自定义评委以持续监视

参考指南

浏览本指南中提到的概念和功能的详细文档。

LLM 法官 - 了解 LLM 法官的工作原理及其体系结构
自定义评委：基于准则 - 深入了解基于指南的评估
自定义法官：基于提示 - 基于提示的法官技术细节

通过