适用于:所有 API 管理层级
根据提示与先前请求的矢量接近度以及指定的相似性分数阈值,使用 llm-semantic-cache-lookup
策略从配置的外部缓存中执行对大型语言模型 (LLM) API 请求响应的缓存查找。 响应缓存可以降低后端 LLM API 需要满足的带宽和处理能力要求,并可以减小 API 使用者能够察觉到的延迟。
注意
- 此策略必须有相应的大型语言 API 请求的缓存响应策略。
- 有关启用语义缓存的先决条件和步骤,请参阅在 Azure API 管理中为 Azure OpenAI API 启用语义缓存。
注意
按照策略声明中提供的顺序设置策略的元素和子元素。 详细了解如何设置或编辑 API 管理策略。
支持的模型
将策略与添加到 Azure API 管理的 LLM API 配合使用,这些 API 可通过 Azure AI 模型推理 API 或使用通过第三方推理提供程序提供服务的 OpenAI 兼容模型。
策略语句
<llm-semantic-cache-lookup
score-threshold="similarity score threshold"
embeddings-backend-id ="backend entity ID for embeddings API"
embeddings-backend-auth ="system-assigned"
ignore-system-messages="true | false"
max-message-count="count" >
<vary-by>"expression to partition caching"</vary-by>
</llm-semantic-cache-lookup>
属性
属性 | 说明 | 需要 | 默认 |
---|---|---|---|
score-threshold | 用于确定是否向提示返回缓存响应的相似性分数阈值。 值为介于 0.0 和 1.0 之间的小数。 较小的值表示更大的语义相似性。 了解详细信息。 | 是 | 空值 |
embeddings-backend-id | OpenAI 嵌入 API 调用的后端 ID。 | 是 | 空值 |
embeddings-backend-auth | 用于 Azure OpenAI 嵌入 API 后端的身份验证。 | 是的。 必须设置为 system-assigned 。 |
空值 |
ignore-system-messages | 布尔值。 设置为 true (建议)时,在评估缓存相似性之前,从 GPT 聊天完成提示中删除系统消息。 |
否 | 假 |
max-message-count | 如果指定,则为剩余的对话消息数,在此消息数之后将跳过缓存。 | 否 | 空值 |
元素
名称 | 说明 | 需要 |
---|---|---|
vary-by | 在运行时确定的自定义表达式,其值用于缓存分区。 如果添加了多个 vary-by 元素,则连接值以创建唯一组合。 |
否 |
使用情况
- 策略节:入站
- 策略范围:全局、产品、API、操作
- 网关:经典、v2、消耗
使用注意事项
- 此策略只能在策略部分中使用一次。
- 微调基于应用程序的值
score-threshold
,以确保在确定要缓存的查询时使用正确的敏感度。 从低值(如 0.05)开始,调整以优化缓存命中与未命中的比率。 - 嵌入模型应有足够的容量和足够的上下文大小来容纳提示量和提示。
示例
相应的 llm-semantic-cache-store 策略的示例
<policies>
<inbound>
<base />
<llm-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="llm-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</llm-semantic-cache-lookup>
</inbound>
<outbound>
<llm-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
相关策略
相关内容
有关使用策略的详细信息,请参阅:
- 教程:转换和保护 API
- 策略参考,其中提供了策略语句及其设置的完整列表
- 策略表达式
- 设置或编辑策略
- 重复使用策略配置
- 策略片段存储库
- Azure API 管理策略工具包
- 获取 Copilot 帮助以创建、解释策略和排查策略问题