生成 AI 中的可观测性

重要

本文中标记了“(预览版)”的项目目前为公共预览版。 此预览版未提供服务级别协议,不建议将其用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款

在当今的 AI 驱动世界中,生成 AI 运营(GenAIOps)正在彻底改变组织如何构建和部署智能系统。 随着公司越来越多地使用 AI 来转变决策、增强客户体验和燃料创新,一个要素至关重要:可靠的评估框架。 评估不仅仅是检查点。 它是 AI 应用程序信任的基础。 如果不进行严格的评估,AI 系统可能会生成各种内容:

  • 虚构或没有现实依据
  • 与用户需求无关或不连贯
  • 在维持内容风险和刻板印象方面有害
  • 在传播错误信息方面的危险
  • 易受安全攻击

这是评估人员变得关键的地方。 这些专用工具可衡量 AI 输出中风险的频率和严重性,使团队能够在整个 AI 开发过程中系统地解决质量、安全和安全问题,从选择正确的模型到监视生产性能、质量和安全性。

什么是评估者?

评估器是衡量 AI 响应质量、安全性和可靠性的专用工具。 通过在 AI 开发生命周期内实施系统评估,团队可以在影响用户之前识别和解决潜在问题。 以下受支持的评估程序跨不同的 AI 应用程序类型和关注点提供全面的评估功能:

RAG(检索增强生成):

计算器 目的
检索 衡量系统检索相关信息的效率。
文档检索 根据基本事实衡量检索结果的准确度。
真实性 度量响应与检索的上下文的一致程度。
有据性 Pro 度量响应是否与检索的上下文保持一致。
相关性 度量响应与查询的相关性。
响应完整性 衡量反应相对于基本事实的完整程度(不缺少关键信息)的措施。

代理:

计算器 目的
意向解析 衡量代理识别和解决用户意图的准确程度。
任务符合性 衡量代理完成已确定任务的表现。
工具调用准确度 衡量代理选择和调用正确工具的表现。

常规用途:

计算器 目的
流畅度 测量自然语言质量和可读性。
一致性 测量逻辑一致性和响应流。
质量保证 全面衡量问题解答质量的各个方面。

安全和安全:

计算器 目的
暴力 检测暴力内容或煽动。
标识不适当的性内容。
自残 检测宣传或描述自我伤害的内容。
仇恨和不公平 标识有偏见、歧视性或可恨的内容。
无依据特性 检测从用户交互推断出的捏造或幻觉信息。
代码漏洞 标识生成的代码中的安全问题。
受保护的材料 检测未经授权使用受版权保护的内容。
内容安全 全面评估各种安全问题。

文本相似性:

计算器 目的
相似 AI 辅助文本相似性度量。
F1 分数 标记的准确率和召回率的调和平均值在响应和基本事实之间重叠。
BLEU 翻译质量双语评估辅助分数衡量响应和基本事实之间的 n-gram 中是否存在重叠。
GLEU 用于句子级评估的 Google-BLEU 变体衡量响应和基本事实之间的 n-gram 中是否存在重叠。
红色 以召回率为导向的要点评估辅助衡量响应和基本事实之间的 n-gram 中是否存在重叠。
流星 使用显式排序的翻译评估指标衡量响应和基本事实之间的 n-gram 中是否存在重叠。

Azure OpenAI 评分者:

计算器 目的
模型标记器 使用自定义准则和标签对内容进行分类。
模型评分器 根据自定义准则为内容生成数值分数(自定义范围)。
字符串检查器 执行灵活的文本验证和模式匹配。
文本相似性 评估文本质量或确定语义接近性。

通过在整个开发生命周期内以战略方式使用这些评估程序,团队可以构建更可靠、安全且有效的 AI 应用程序,以满足用户需求,同时最大程度地降低潜在风险。

企业 GenAIOps 生命周期的示意图,其中显示了模型选择、生成 AI 应用程序和操作化。

GenAIOps 评估的三个阶段

基础模型选择

在生成应用程序之前,需要选择正确的基础。 此初始评估可帮助你根据以下方法比较不同的模型:

  • 质量和准确性:模型的反应有多相关和连贯?
  • 任务性能:模型是否有效处理特定用例?
  • 道德注意事项:模型是否不受有害偏见的影响?
  • 安全概况:生成不安全内容的风险是什么?

可用工具:用于比较公共数据集或你自己的数据的模型以及用于测试特定模型终结点的 Azure AI 评估 SDK。

生产前评估

选择基础模型后,下一步是开发 AI 应用程序,例如 AI 驱动的聊天机器人、检索扩充生成(RAG)应用程序、代理 AI 应用程序或任何其他生成 AI 工具。 开发完成后,将开始预生产评估。 在部署到生产环境之前,必须进行彻底的测试,以确保模型可供实际使用。

生产前评估涉及到:

  • 使用评估数据集进行测试:这些数据集模拟真实的用户交互,以确保 AI 应用程序按预期执行。
  • 识别边缘情况:查找 AI 应用程序的响应质量可能会降低或产生不良输出的方案。
  • 评估可靠性:确保模型可以处理一系列输入变体,而不会显著下降质量或安全性。
  • 衡量关键指标:评估响应基础性、相关性和安全性等指标,以确认生产就绪情况。

包含六个步骤的模型和应用程序生产前评估的示意图。

预生产阶段充当最终质量检查,可以减少部署不符合所需性能或安全标准的 AI 应用程序时存在的风险。

评估工具和方法:

  • 带上您自己的数据:您可以在预生产中使用自己的评估数据,借助支持的评估程序(包括生成质量、安全性或自定义评估程序)评估 AI 应用程序,并通过 Azure AI Foundry 门户查看结果。 使用 Azure AI Foundry 的评估向导或 Azure AI 评估 SDK 支持的 评估程序,包括生成质量、安全性或 自定义评估器,并通过 Azure AI Foundry 门户查看结果
  • 模拟器和 AI 红队代理(预览版):如果你没有评估数据(测试数据),Azure AI 评估 SDK 的模拟器可以通过生成主题相关的或对抗性查询来为你提供帮助。 这些模拟器将测试模型对适合形势或类似于攻击的查询(极端情况)做出的响应。
    • 对抗模拟器 注入静态查询,模拟潜在的安全风险或安全攻击,例如或尝试越狱,帮助识别限制并为意外情况准备模型。
    • 适合上下文的模拟器将生成用户预期进行的典型相关对话,以测试响应质量。 借助上下文适当的模拟器,可以评估生成的响应的基础性、相关性、一致性和流畅性等指标。
    • AI 红队代理(预览版)使用 Microsoft 的 Python 风险识别工具或 PyRIT 开放框架,通过各种安全攻击模拟针对 AI 系统的复杂对抗性攻击。 使用 AI 红队测试代理进行自动扫描可以通过系统地测试 AI 应用程序的风险来增强生产前风险评估。 此过程涉及模拟攻击方案,用于在实际部署之前识别模型响应中的弱点。 通过运行 AI 红队扫描,可以在部署之前检测和缓解潜在的安全问题。 建议将此工具与人机协作过程(如传统的 AI 红队测试)结合使用,以帮助加速风险识别,并协助人类专家进行评估。

或者,还可以使用 Azure AI Foundry 门户评估工具 来测试生成式 AI 应用。

实现满意的结果后,便可将 AI 应用程序部署到生产环境中。

生产后监视

部署后,持续监视可确保 AI 应用程序在实际条件下保持质量:

  • 性能跟踪:定期度量关键指标。
  • 事件响应:在发生有害或不当输出时,迅速行动。

有效的监视有助于保持用户信任,并允许快速解决问题。

Azure AI Foundry 可观测性为当今复杂且快速发展的 AI 环境提供全面的监视功能。 此解决方案与 Azure Monitor Application Insights 无缝集成,可持续监视已部署的 AI 应用程序,以确保生产环境中的最佳性能、安全性和质量。 Foundry 可观测性仪表板提供关键指标的实时见解,使团队能够快速识别和解决性能问题、安全问题或质量下降问题。 对于基于代理的应用程序,Foundry 提供了增强的持续评估功能,可让你更深入地了解质量和安全指标,从而创建一个可靠的监视生态系统,该生态系统适应 AI 应用程序的动态性质,同时保持高性能和可靠性的高标准。

通过持续监视 AI 应用程序在生产中的行为,可以保持高质量的用户体验并迅速解决浮出水面的任何问题。

通过系统评估构建信任

GenAIOps 建立了一个可靠的过程,用于在整个生命周期内管理 AI 应用程序。 通过在每个阶段(从模型选择到部署等)团队实现彻底的评估,团队可以创建不仅强大且可信且安全的 AI 解决方案。

评估速查表

目的 流程 参数
你的评估目的是什么? 确定或构建相关的评估器 - 质量和性能示例笔记本

- 代理响应质量

- 安全与保障安全与保障示例笔记本

- 自定义自定义示例笔记本
应使用哪些数据? 上传或生成相关的数据集 用于衡量质量和性能的通用模拟器通用模拟器示例笔记本

- 用于测量安全和安全的对抗模拟器对抗模拟器示例笔记本

用于运行自动扫描的 AI 红色组合代理来评估安全和安全漏洞(AI 红色组合代理示例笔记本
应该对哪些资源执行评估? 运行评估 - 本地运行

- 远程云运行
我的模型/应用表现如何? 分析结果 查看聚合评分、查看详细信息、为详细信息评分、比较评估运行
如何做出改进? 对模型、应用或评估器进行更改 - 如果评估结果与人工反馈不一致,请调整评估器。

- 如果评估结果与人工反馈一致但不符合质量/安全阈值,请应用有针对性的缓解措施。 要应用的缓解措施示例: Azure AI 内容安全

区域支持

部分 AI 辅助式评估程序目前仅在以下区域提供:

区域 仇恨与不公正,色情,暴力,自我伤害,间接攻击,代码漏洞,无依据的属性 有据性 Pro 受保护的材料
美国东部 2 已支持 已支持 已支持
瑞典中部 已支持 已支持
美国中北部 已支持
法国中部 已支持
瑞士西部 已支持

定价

风险和安全评估、持续评估等可观测性功能根据 Azure 定价页中列出的消耗量计费。 选择标记为 “完成 AI 工具链 ”的选项卡以查看评估的定价详细信息。