你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure AI Foundry 门户中的内容过滤

Azure AI Foundry 包括与核心模型和图像生成模型一起使用的内容筛选系统。

重要

内容筛选系统不应用于 Azure AI Foundry Models 中的 Azure OpenAI 中的 Whisper 模型处理的提示和补全。 详细了解 Azure OpenAI 中的 Whisper 模型

工作原理

内容筛选系统由 Azure AI 内容安全提供支持,它通过一组分类模型运行模型提示输入和完成输出,旨在检测和防止有害内容的输出。 API 配置和应用程序设计的变化可能会影响补全,从而影响筛选行为。

使用 Azure OpenAI 模型部署,可以使用默认内容筛选器或创建自己的内容筛选器(稍后介绍)。 默认情况下,通过 标准部署 提供的模型已启用内容筛选。 若要详细了解为标准部署启用的默认内容筛选器,请参阅 Azure 直接销售的模型的内容安全

语言支持

内容筛选模型已针对以下语言进行了训练和测试:英语、德语、日语、西班牙语、法语、意大利语、葡萄牙语、中文。 但是,该服务可以使用许多其他语言,但质量可能会有所不同。 在所有情况下,都应执行自己的测试,以确保它适用于你的应用程序。

内容风险筛选器(输入和输出筛选器)

以下特殊筛选器适用于生成式 AI 模型的输入和输出:

类别

类别 DESCRIPTION
仇恨 仇恨类别指的是基于个人或身份群体的某些区别性属性(包括但不限于种族、民族、国籍、性别认同和表现、性取向、宗教、移民身份、残疾、个人外貌和体型)的语言攻击或运用,包括对这些群体的贬义性或歧视性语言。
性类别指的是与以下方面相关的语言:解剖器官和生殖器官、恋爱关系、以色情或情爱用语描述的行为、实质性行为(包括被描述为攻击或违背个人意愿的强迫性暴力行为的行为)、卖淫、色情和虐待。
暴力 暴力类别是指与旨在伤害、损伤、损害或杀害某人或某物的肢体动作相关的语言,以及与武器等相关的语言。
自残 自残类别指的是与故意伤害、损伤或损害自己的身体或自杀的肢体动作相关的语言。

严重性级别

类别 DESCRIPTION
安全 内容可能与暴力、自残、性或仇恨类别相关,但这些术语用于综合性、新闻、科学、医学和类似专业背景,适合大多数受众。
表达偏见性、评判性或固执己见的观点的内容,包括冒犯性的语言使用、刻板印象、探索虚构世界(例如游戏、文学)的用例以及低强度的描述。
中等 对特定身份群体使用冒犯性、侮辱性、嘲讽性、恐吓性或贬低性语言的内容,包括中等强度的有关寻找和执行伤害性说明以及对伤害行为进行幻想、美化和宣传的描述。
显示露骨且严重的伤害性说明和行为、损害或滥用的内容;包括支持、美化或宣传严重的伤害性行为、极端或非法形式的伤害、激进化或非自愿的权力交换或滥用。

其他输入筛选器

还可以针对生成式 AI 方案启用特殊筛选器:

  • 越狱攻击:越狱攻击是一种用户提示,旨在诱发生成式 AI 模型表现出其经过训练的行为,以避开或违反系统消息中设置的规则。
  • 间接攻击:间接攻击(也称为间接提示攻击或跨域提示注入攻击)是一种潜在的漏洞,其中第三方会将恶意指令置于生成式 AI 系统可以访问和处理的文档中。

其他输出筛选器

还可以启用以下特殊输出筛选器:

  • 受保护的材料文本:受保护的材料文本描述可由大语言模型输出的已知文本内容(例如,歌词、文章、食谱和所选网络内容)。
  • 受保护的材料代码:受保护的材料代码描述与公共存储库中的一组源代码相匹配的源代码,这些源代码可由大语言模型输出,而无需相应引用源存储库。
  • 有据性:有据性检测筛选器可检测大语言模型 (LLM) 的文本响应是否以用户提供的源材料为依据。

在 Azure AI Foundry 中创建内容筛选器

对于 Azure AI Foundry 中的任何模型部署,可以直接使用默认内容过滤器,但你可能希望拥有更多控制。 例如,你可以使筛选器更严格或更宽松,或者启用提示盾牌和受保护材料检测等更高级的功能。

重要

GPT-image-1 模型不支持内容筛选配置:仅使用默认内容筛选器。

小窍门

有关 Azure AI Foundry 项目中内容筛选器的指南,可以在 Azure AI Foundry 内容筛选一文中阅读详细信息。

按照以下步骤创建内容筛选器:

小窍门

由于可以在 Azure AI Foundry 门户中 自定义左窗格 ,因此你可能会看到与这些步骤中显示的项不同。 如果未看到要查找的内容,请选择 ... 左窗格底部的更多内容。

  1. 转到 Azure AI Foundry 并导航到你的项目。 然后从左侧菜单中选择 Guardrails + 控件 页,然后选择 “内容筛选器 ”选项卡。

    用于创建新内容筛选器的按钮的屏幕截图。

  2. 选择“+ 创建内容筛选器”。

  3. 在“基本信息”页面上,输入内容筛选配置的名称。 选择要与内容筛选器关联的连接。 然后选择下一步

    用于在创建内容筛选器时选择或输入基本信息(例如筛选器名称)的选项的屏幕截图。

    现在,可以配置输入筛选器(用于用户提示)和输出筛选器(用于模型完成)。

  4. 在“输入筛选器”页面上,可以设置输入提示的筛选器。 对于前四个内容类别,每个类别有三个可配置的严重性级别:低、中和高。 如果你确定你的应用程序或使用方案需要与默认值不同的筛选,则可以使用滑块设置严重性阈值。 某些筛选器(如提示盾牌和受保护材料检测)可用于确定模型是否应批注和/或阻止内容。 选择 仅批注 会运行相应的模型,并通过 API 响应返回批注,但不会筛选内容。 除了批注外,还可以选择阻止内容。

    如果用例已针对已修改内容筛选器获得批准,你将获得对内容筛选配置的完全控制权,可以选择部分或完全关闭筛选功能,或仅对内容危害类别(暴力、仇恨、性与自残)启用批注。

    内容将按类别进行批注,并根据设置的阈值进行阻止。 对于暴力、仇恨、色情和自残类别,可以调整滑块来阻止高、中或低严重性的内容。

    输入筛选器屏幕的屏幕截图。

  5. 在“输出筛选器”页上,你可以配置输出筛选器,该筛选器将应用于你的模型生成的所有输出内容。 像以前一样配置各个筛选器。 此页面还提供“流式处理模式”选项,该选项使你能够在模型生成内容时近乎实时地筛选内容,从而减少延迟。 完成后,选择“下一步”。

    内容将按类别进行批注,并根据阈值进行阻止。 对于暴力内容、仇恨内容、色情内容和自残内容类别,可以调整阈值来阻止严重级别相同或更高的有害内容。

    输出筛选器屏幕的屏幕截图。

  6. (可选)在“部署”页面上,可以将内容筛选器与部署相关联。 如果所选部署已附加了筛选器,则必须确认要替换它。 还可以稍后将内容筛选器与部署相关联。 选择 创建

    用于在创建内容筛选器时选择部署的选项的屏幕截图。

    内容筛选配置是在 Azure AI Foundry 门户的中心级别创建的。 在 Azure AI Foundry 模型文档中详细了解 Azure OpenAI 的可配置性。

  7. 在“查看”页面上查看设置,然后选择“创建筛选器”

使用阻止列表作为筛选器

你可以将阻止列表作为输入或输出筛选器,或者同时作为这两种出筛选器。 在“输入筛选器”和/或“输出筛选器”页面上启用“阻止列表”选项。 从下拉列表中选择一个或多个阻止列表,或使用内置的不雅内容阻止列表。 你可以将多个阻止列表合并到同一个筛选器中。

应用内容筛选器

筛选器创建过程提供了将筛选器应用于所需部署的选项。 你也可以随时更改或移除部署中的内容筛选器。

按照以下步骤将内容筛选器应用于部署:

  1. 转到 Azure AI Foundry 并选择一个项目。

  2. 选择左侧窗格中的“模型 + 终结点”并选择其中一个部署,然后选择“编辑”。

    用于编辑部署的按钮的屏幕截图。

  3. 在“更新部署”窗口中,选择要应用于部署的内容筛选器。 然后选择“保存并关闭”

    应用内容筛选器的屏幕截图。

    如果需要,还可以编辑和删除内容筛选器配置。 在删除内容筛选配置之前,需要在“部署”选项卡中将其从任何部署中取消分配并进行替换

现在,可以转到操场来测试内容筛选器是否按预期工作。

小窍门

还可以使用 REST API 创建和更新内容筛选器。 有关详细信息,请参阅 API 参考。 可以在资源级别配置内容筛选器。 创建了新配置后,就可以将其与一个或多个部署相关联。 有关模型部署的详细信息,请参阅资源 部署指南

可配置性(预览版)

Azure AI Foundry 模型中的 Azure OpenAI 包括应用于所有模型的默认安全设置(不包括音频 API 模型(如 Whisper)。 这些配置默认提供负责任的体验,包括内容筛选模型、阻止列表、提示转换和内容凭据等。 在此处了解详细信息

所有客户还可以配置内容筛选器并创建自定义内容策略,这些策略根据用例要求定制。 可配置性功能让客户可以分别调整提示和完成设置,以便按不同的严重性级别筛选每个内容类别的内容,如下表所示。 在“安全”严重级别检测到的内容在批注输出中标记,但不受筛选的约束,并且不可配置。

按严重性筛选 针对提示可配置 针对补全可配置 说明
低、中、高 是的 是的 最严格的筛选配置。 检测到的严重性级别为低、中和高的内容将被筛选。
中、高 是的 是的 检测到的严重性级别为低的内容不会被筛选,中和高的内容会被筛选。
是的 是的 检测到的严重性级别为低和中的内容不会被筛选。 仅筛选严重性级别为高的内容。
无筛选器 如果已批准1 如果已批准1 无论检测到的严重性级别如何,都不会筛选任何内容。 需要批准1
仅批注 如果已批准1 如果已批准1 禁用筛选功能,因此不会阻止内容,而是通过 API 响应返回批注。 需要批准1

1 对于 Azure OpenAI 模型,只有已批准修改内容筛选的客户才具有完整的内容筛选控制,并且可关闭内容筛选器。 通过以下表单申请修改后的内容筛选器:Azure OpenAI 有限访问权限评审:修改后的内容筛选器。 对于 Azure 政府版客户,请通过以下表单申请修改的内容筛选器: Azure 政府 - 请求 Azure OpenAI 的修改内容筛选

输入(提示)和输出(补全)的可配置内容筛选器可用于所有 Azure OpenAI 模型。

内容筛选配置在 Azure AI Foundry 门户的资源中创建,可以与部署关联。 在此处详细了解如何配置内容筛选器

客户负责确保集成 Azure OpenAI 的应用程序符合 行为准则