Microsoft 必应自定义搜索如何提供结果
当生成式答案节点被配置为使用必应搜索时,Copilot Studio 会执行以下操作:
- 消息审核:解析用户查询,过滤恶意内容。
- 查询优化:从对话历史记录中添加查询上下文,例如与位置和时间相关的信息。
- 信息检索:将用户的回复转换为搜索查询,该查询将传递给必应自定义搜索服务,并仅限于客户配置的域。
必应的复杂系统使用这些条件来提供来自必应自定义搜索索引的搜索结果。 由于必应自定义搜索是一项全球服务,因此无法设定区域边界。
搜索结果返回后,Copilot Studio 执行以下操作:
- 整理并分析来自指定源或客户配置的域的相关顶级结果。
- 执行基础检查、出处检查和语义相似性交叉检查。
- 将搜索结果汇总为通俗易懂的语言,并交付给代理的用户。
所有内容都会检查两次:第一次是在用户输入期间,第二次是在代理即将响应时。 如果系统发现有害、冒犯性或恶意内容,则会阻止您的代理做出响应。
生成式 AI 模型
生成式人工智能模型托管在内部 Microsoft Azure OpenAI 服务上,遵守 Microsoft 服务信任边界。 模型的访问和使用遵循 Microsoft 负责任 AI 原则和策略。
Copilot Studio 和必应自定义搜索之间的数据交换
用户的改写语句和对话上下文由 Copilot Studio 发送给必应。 上下文源自最后几个多轮对话。
然后,必应的响应数据(搜索结果)发回给 Copilot Studio。
此外,在数据交换过程中,Copilot Studio 不会收集或提供用于训练这些模型的任何客户数据。
在 Copilot Studio 和必应自定义搜索之间交换个人数据
Microsoft 不会向必应搜索发送结构化最终用户假名标识符(EUPI),即由 Microsoft 创建的与 Microsoft 服务用户绑定的标识符。
但是,如果用户添加了可能被解释为个人数据的内容,则生成式答案不会检测、清除或屏蔽此类数据。 之所以没有删除,是因为在其他行业的许多经过身份验证的用例中,合法处理需要个人数据信息。
预先开发的生成式答案守卫
在发布开发、部署或集成生成式人工智能功能的 Microsoft 产品和研究之前,Microsoft 政策要求进行评估,以证明适当遵守负责任的人工智能实践。 Microsoft 针对所有危害开发的缓解措施都要经过彻底的红队流程,对缓解措施的普遍性进行测试。 只有在测试和缓解实施完成后,才会部署生成式 AI 系统。
Copilot Studio 对所有生成式人工智能请求应用内容控制策略,以防止攻击性或有害内容。 这些内容节制策略也适用于越狱、提示注入、提示渗出和版权侵犯等恶意尝试。
生成式答案如何防止必应搜索结果中的错误信息
Copilot Studio 使用检索增强生成技术,将检索搜索结果和汇总这些搜索结果的步骤分离开来,形成一个连贯的响应。 从网站返回的搜索结果将被检查是否正确引用,并可以追溯到其来源。 此外,还验证了搜索结果与用户提出的问题的相关性。
备注
如果开启允许人工智能使用自己的常识设置,则会放宽引用限制。
从必应搜索结果生成回复时管理有害内容
针对有害内容类别(如仇恨、暴力、性内容和自残)的有毒输出和亵渎减轻功能可作为预先开发的守卫使用。 系统会检查从网站返回的用户查询和搜索结果是否存在违规行为,并忽略包含此类内容的问题和搜索结果。
此外,生成式人工智能提示还包括忽略被归类为越狱、提示注入和侵犯隐私的问题和搜索结果的指令。
自定义生成式应答节点以忽略个人数据查询
可以为代理编写自定义提示或创建自定义节点指令来检测个人数据或敏感业务信息。 然后,您可以指示生成式应答节点不响应。
备注
但是,此方法不会阻止将个人数据或敏感业务信息发送到必应搜索或其他知识源。
个人数据流向生成式答案
生成式答案是会话感知的,这意味着生成式答案节点会根据用户在多轮会话中之前的交互情况对用户的查询进行内部语境化处理。 最后几次对话中的任何查询都会被上下文化,并成为生成式答案节点重写查询的一部分。
虽然 AI Builder 提示或具有个人数据检测功能的 Azure OpenAI 模型可以识别代理对话中的个人数据,但在生成式答案之前仅检查用户的最后一次查询是不够的。
不使用必应作为知识源的生成式答案的替代方案
在代理中使用 Azure AI 搜索索引作为知识源。 此功能使用预构建的 Azure AI 搜索索引作为代理的基础数据。 Azure AI 搜索提供了一个强大的搜索引擎,可以搜索大量文档。 Azure AI 搜索索引由开发人员构建。 这使索引可以灵活地在地理位置内搜索自己的内容,同时仍使用生成式答案功能来使用生成式 AI 来制作经过审核和汇总的答案。
用户也可以选择定制解决方案,使用符合要求的搜索引擎 API 或直接查询内容管理系统的方法,并将结果转化为生成式答案节点中自定义数据源字段的数据。 如果数据可能不驻留在受支持的知识源之一中,则使用此选项。 在这些情况下,代理通过 Power Automate 流或 HTTP 请求获得基础数据。 这些选项通常返回一个 JSON 对象,然后您可以将其解析为 Table 格式以生成答案。
Copilot Studio 和必应搜索之间交换数据的安全性
必应中的 Microsoft 搜索请求是通过 HTTPS 发出的。 连接是端到端加密的,以增强安全性。
数据集合
Microsoft 可能会随向服务发出的交易请求从最终用户处收集信息,例如但不限于最终用户的 IP 地址、请求、提交时间以及返回给最终用户的结果。 Microsoft 不主张对与该功能相关的任何数据、信息或内容的所有权。
对服务的所有访问和使用都必须遵守隐私声明中规定的数据惯例。
数据保留
对于必应搜索查询,Microsoft 会在 6 个月后删除整个 IP 地址,并在 18 个月后删除 Cookie ID 和其他用于识别特定帐户或设备的跨会话标识符(https://www.microsoft.com/en-us/privacy/privacystatement#mainwherewestoreandprocessdatamodule),从而消除所存储查询的身份标识。
必应搜索结果
实时搜索操作涉及复杂、近乎瞬时的算法计算。 必应使用算法对可用网页的存储索引进行排名和优化,为用户提供最佳、最高质量的搜索结果。 爬网是必应机器人(必应爬网程序)发现新的和更新的页面和内容以添加到搜索索引的方式。
必应网页爬网的频率
Bingbot(必应爬虫)使用一种算法来决定要抓取的内容和频率,努力将其对网站的影响降至最低,因为它每天抓取数十亿个 URL。 当 Bingbot 抓取 Web 时,它会向 Bing 发送有关其发现的内容的信息。 必应优先处理尚未编制索引的相关已知页面以及检测为已更新的页面。 然后,将这些页面添加到必应索引中,并使用算法分析这些页面,以有效地将它们包含在搜索结果中,包括确定哪些网站、新闻文章、图像或视频包含在索引中,以及在用户搜索特定关键字时可用。
搜索结果的排名
必应依靠机器学习来确保用户看到查询的最佳结果。 以下是在作为知识源提供的 URL 中影响搜索的排名的主要参数。 以下每个参数的相对重要性可能因搜索而异,并随时间推移而变化。
相关性(内容与搜索查询背后的用户意图相匹配。)
用户参与度(算法偏好新鲜内容。)
新鲜度(用户与网页的互动。)
必应设计并不断改进其算法,以提供最全面、最相关和最有价值的搜索结果集合。
必应搜索的生成式应答节点改进
由于用户可能会提出断章取义的问题,因此必应搜索可以通过在生成式答案自定义提示中提供其他具体信息来改进,从而引导搜索引擎查询相关结果。 用户语句和查询可以使用 Formulae 使用特定数据进行扩充,并注入到生成式答案自定义提示中。
改进必应索引创建的最佳做法
以下代表指南有助于在必应上有效地为网站编制索引。 它还有助于优化网站,以增加在必应搜索结果中对相关查询进行排名的机会。
更新了必应站点地图以发现网站的 URL 和内容。
IndexNow API 或必应 URL 或内容提交 API,用于即时反映网站更改。
将网站上的所有网页链接到至少一个其他可发现和抓取的网页,作为确定网站受欢迎程度的信号。
限制网站上的页数。
根据需要使用重定向。
动态呈现,用于在 Bingbot 的客户端呈现内容和预呈现内容之间切换。
避免使用
nofollow
或noindex
等标签,这些标签会阻止搜索引擎索引网页。使用
robots.txt
文件告知搜索引擎爬虫(Bingbot)哪些网页可以访问,哪些不能访问。
备注
搜索引擎优化(SEO)是一项专业技能,最好由组织内的 CBA SEO/内容管理团队管理。 更多信息,请参阅必应网站管理员指南。