Azure AI Foundry 门户评估页是一个通用型中心,它不仅允许可视化和评估结果,还可以充当用于优化、故障排除和选择适合部署需求的理想 AI 模型的控制中心。 它是 Azure AI Foundry 项目中以数据为依据进行决策和增强性能的一站式解决方案。 你可以无缝访问和解释来自各种源的结果,包括流、操场快速测试会话、评估提交 UI、SDK。 这种灵活性确保你能够以最适合工作流和首选项的方式与结果进行交互。
在查看评估结果后,你可以深入了解全面的检查。 这包括查看单个结果以及跨多个评估运行比较这些结果的功能。 这样,便可以识别趋势、模式和差异,从而在各种条件下深入了解 AI 系统的性能。
在本文中学习如何:
- 查看评估结果和指标。
- 比较评估结果。
- 提高性能。
- 查看评估结果和指标。
查找评估结果
提交评估后,可以导航到“评估”页面,在运行列表中找到提交的评估运行。
可以在运行列表中监视和管理评估运行。 通过灵活地使用列编辑器修改列以及实施筛选器,可以自定义和创建自己的运行列表版本。 此外,还可以快速查看各个运行的聚合评估指标,从而支持你执行快速比较。
小窍门
若要查看使用 promptflow-evals SDK 或 azure-ai-evaluation 版本 1.0.0b1、1.0.0b2、1.0.0b3 中的任意版本运行的评估,请启用“显示所有运行”切换开关以找到该运行。
若要更深入地了解如何派生评估指标,可以选择“详细了解指标”选项来访问全面的说明。 此详细资源提供对评估过程中使用的指标的计算和解释的见解。
查看评估运行表时,可以选择一个特定的运行,这将带你进入该运行的详细信息页。 在这里,你可以访问全面的信息,包括评估详细信息,例如测试数据集、任务类型、提示、温度等。 此外,你还可以查看与每个数据示例关联的指标。 指标仪表板提供了每个测试的指标中数据集的通过率的可视化表示形式。
谨慎
已加入 Foundry 开发者平台的 Azure OpenAI 用户可享受的向后兼容性:
以前使用 oai.azure.com 管理其模型部署和运行评估的用户,并已载入 Foundry 开发人员平台(FDP)后,使用 ai.azure.com 时将存在一些限制:
首先,用户将无法查看使用 Azure OpenAI API 创建的评估。 相反,若要查看这些内容,用户必须导航回 oai.azure.com。
其次,用户将无法使用 Azure OpenAI API 在 AI Foundry 中运行评估。 相反,这些用户应继续使用 oai.azure.com。 但是,用户可以使用数据集评估创建选项中直接在 AI Foundry(ai.azure.com)中提供的 Azure OpenAI 计算器。 如果部署是从 Azure OpenAI 迁移到 Azure Foundry,则不支持微调模型评估选项。
对于数据集上传 + 自带存储方案,需要满足一些配置要求:
- 帐户身份验证必须是 Entra ID。
- 需要将存储添加到帐户(如果已将其添加到项目中,则会收到服务错误)。
- 用户需要在 Azure 门户中通过访问控制将其项目添加到其存储帐户。
若要详细了解如何在 Azure OpenAI 中心专门使用 OpenAI 评估评分员创建评估,请参阅 如何在 Azure AI Foundry 模型评估中使用 Azure OpenAI
指标仪表板图表
我们将按照“AI 质量(AI 辅助)”、“风险和安全”、“AI 质量 (NLP)”以及“自定义”(如果适用)对不同类型的指标细分聚合视图。 根据创建评估时选择的条件,结果显示为通过/失败的百分比。 有关每个指标定义及其计算方式的详细信息,请参阅 什么是计算器?。
- 对于“AI 质量(AI 辅助)”,我们通过计算每个指标的所有分数的平均值进行聚合。 如果你计算 Groundedness Pro,则输出是二进制值,因此聚合分数即为通过率,计算方法为 (true 值数/实例数) x 100。
- 对于风险和安全指标,我们通过计算每个指标的缺陷率来进行聚合。
- 对于 AI 质量(NLP)指标,我们通过计算每个指标的所有分数的平均值来聚合。
详细指标结果表
在数据部分中,可以全面检查每个单个数据示例和相关指标。 在此处,可以仔细检查生成的输出及其相应的评估指标分数,并根据测试运行时的通过等级来查看它是否通过。 此级别的详细信息可让你做出数据驱动的决策并采取特定操作来提高模型的性能。
基于评估指标的一些潜在操作项可能包括:
- 模式识别:通过筛选数值和指标,可以向下钻取分数较低的示例。 调查这些示例,以确定模型的响应中的定期模式或问题。 例如,你可能会注意到,当模型在特定主题上生成内容时,通常分数较低。
- 模型优化:使用评分较低的示例中的见解改进系统提示指令或微调模型。 如果观察到一致的问题(例如连贯性或相关性),还可以相应地调整模型的训练数据或参数。
- 列自定义:列编辑器可让你创建表格的自定义视图,着重于与评估目标最相关的指标和数据。 这可以简化分析,帮助你更有效地发现趋势。
- 关键字搜索:搜索框允许你在生成的输出中查找特定字词或短语。 这可用于找出与特定主题或关键字相关的问题或模式,并专门解决这些问题。
指标详细信息表格提供大量数据,可指导模型改进工作,从识别模式到自定义视图,以便基于发现的问题有效分析和优化模型。
下面是问题解答方案的指标结果的一些示例:
某些评估具有子计算器,使你能够查看子评估结果的 JSON。 若要查看结果,请选择 JSON 中的“查看 ”以打开结果。
下面是聊天方案的指标结果的一些示例。 若要在整个多轮对话中查看结果,请在对话列中选择“按轮次查看评估结果”。
选择“按轮次查看评估结果”时,会看到以下屏幕:
对于多模态场景(文本 + 图像)中的安全评估,可以查看详细指标结果表中来自输入和输出的图像,以便更好地了解评估结果。 由于多模态评估目前仅支持用于对话场景,因此可以选择“按轮次查看评估结果”来检查每个轮次的输入和输出。
选择要展开的图像并进行查看。 默认情况下,所有图像都是模糊的,以保护你免受潜在有害内容的影响。 要查看清晰图像,请打开“检查模糊图像”开关。
评估结果对于不同的受众可能有不同的含义。 例如,安全评估可能会为暴力内容的“低”严重性生成标签,这些标签可能与人类审阅者对特定暴力内容可能有多严重性的定义不一致。 通过/失败是根据评估创建过程中的通过成绩标准来确定的。 在审查评估结果以显示人工审查者批准或标记为错误的实例时,我们提供了人工反馈列,其中包含拇指向上和拇指向下。
了解每个内容风险指标时,可以通过导航回“报表”部分并在指标仪表板中查看测试,轻松查看每个指标定义。
如果运行出现问题,还可以使用日志调试评估运行。
下面是可用于调试评估运行的日志的一些示例:
如果要评估提示流,则可以选择“在流中查看”按钮导航到评估的流页面,以更新流。 例如,添加其他元提示指令,或更改某些参数并重新计算。
比较评估结果
为便于在两个或多个运行之间进行全面比较,可以选择所需的运行,并选择“比较”按钮或“切换到仪表板视图”按钮(对于一般详细仪表板视图)来启动过程。 此功能可让你分析和对比多个运行的性能和结果,从而做出更明智的决定和针对性的改进。
在仪表板视图中,可以访问两个重要的组件:指标分布比较图表和比较表格。 借助这些工具,可以并行分析所选评估运行,从而轻松准确地比较每个数据示例的各个方面。
注释
默认情况下,旧的评估运行将在列之间具有匹配的行。 但是,新的评估运行必须在评估创建期间有意配置为具有匹配的列。 为此,请确保在要比较的所有评估之间使用相同的名称作为条件名称。
字段相同时的体验:
当用户在创建评估时不使用相同的条件名称时,字段将不匹配,导致平台无法直接比较结果:
在比较表格中,可以将鼠标悬停在要用作参考点并设置为基线的特定运行上来建立比较基线。 此外,通过激活“显示增量”开关,可以轻松地直观显示基线运行与其他运行之间的数值差异。 此外,启用“仅显示差异”切换后,表格仅显示所选运行之间不同的行,以帮助识别不同的变体。
使用这些比较功能,你可以做出明智的决定来选择最佳版本:
- 基线比较:通过设置基线运行,可以识别用于与其他运行进行比较的参考点。 这便于你查看每个运行与所选标准的偏离程度。
- 数值评估:启用“显示增量”选项有助于了解基线与其他运行之间的差异程度。 这适用于评估各种运行在特定评估指标方面的表现。
- 差异隔离:“仅显示差异”功能通过仅突出显示运行之间存在差异的区域来简化分析。 这有助于确定需要改进或调整的方面。
通过有效地使用这些比较工具,可以识别模型或系统的哪个版本在定义的条件和指标方面表现最佳,最终帮助你为应用程序选择最佳选项。
衡量越狱漏洞
评估越狱是一种比较性的度量,而不是 AI 辅助的指标。 对两个不同的红队数据集运行评估:基线对抗性测试数据集与第一轮越狱注入的相同对抗性测试数据集。 可以使用对抗性数据模拟器生成包含或不包含越狱注入的数据集。 在配置运行时,请确保每个评估指标的名称相同。
若要了解应用程序是否容易受到越狱攻击,可以指定何为基线,然后在比较表中打开“越狱缺陷率”切换。 越狱缺陷率是指在测试数据集中,相对于整个数据集大小的基线,越狱注入对任何内容风险指标产生较高严重性分数的实例的百分比。 可以在比较仪表板中选择多个评估,以查看缺陷率的差异。
小窍门
越狱缺陷率仅针对大小相同的数据集,且仅当所有运行都包括内容风险和安全指标时才会比较计算。
了解内置评估指标
了解内置指标对于评估 AI 应用程序的性能和有效性至关重要。 通过深入了解这些关键度量工具,可以更好地解释结果、做出明智的决定,并微调应用程序以实现最佳结果。 要详细了解每个指标的重要性、计算方式及其在评估模型不同方面中的作用,以及如何解释结果以做出数据驱动的改进,请参阅评估和监视指标。
相关内容
详细了解如何评估生成式 AI 应用程序:
详细了解危害缓解技术。