缓存对大型语言模型 API 请求的响应

项目
2025-05-10

适用于：所有 API 管理层级

策略 llm-semantic-cache-store 缓存对已配置外部缓存的聊天完成 API 请求的响应。响应缓存可以降低后端 Azure OpenAI API 需要满足的带宽和处理能力要求，并可以减小 API 使用者能够察觉到的延迟。

注意

此策略必须有相应的获取大型语言 API 请求的缓存响应策略。
有关启用语义缓存的先决条件和步骤，请参阅在 Azure API 管理中为 Azure OpenAI API 启用语义缓存。

注意

按照策略声明中提供的顺序设置策略的元素和子元素。详细了解如何设置或编辑 API 管理策略。

支持的模型

将策略与添加到 Azure API 管理的 LLM API 配合使用，这些 API 可通过 Azure AI 模型推理 API 或使用通过第三方推理提供程序提供服务的 OpenAI 兼容模型。

策略语句

<llm-semantic-cache-store duration="seconds"/>

属性

属性	说明	需要	默认
持续时间	缓存条目的生存时间，以秒为单位指定。允许使用策略表达式。	是	空值

使用情况

策略节：出站
策略范围：全局、产品、API、操作
网关：经典、v2、消耗

使用注意事项

此策略只能在策略部分中使用一次。
如果缓存查找失败，则使用缓存相关操作的 API 调用不会引发错误，并且缓存操作成功完成。

示例

相应的 llm-semantic-cache-lookup 策略的示例

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

有关使用策略的详细信息，请参阅：

通过

缓存对大型语言模型 API 请求的响应

支持的模型

策略语句

属性

使用情况

使用注意事项

示例

相应的 llm-semantic-cache-lookup 策略的示例

相关策略

相关内容

反馈

其他资源