Compartir a través de


Almacenamiento en caché de respuestas a solicitudes de API de Azure OpenAI

SE APLICA A: todos los niveles de API Management

La azure-openai-semantic-cache-store directiva almacena en caché las respuestas a las solicitudes de la API de finalización de chat de Azure OpenAI a una caché externa configurada. El almacenamiento en caché de respuesta reduce el ancho de banda y los requisitos de procesamiento impuestos sobre la API de Azure OpenAI de back-end y disminuye la latencia percibida por los consumidores de API.

Nota:

Nota:

Establezca los elementos de la directiva y los elementos secundarios en el orden proporcionado en la instrucción de directiva. Obtenga más información sobre el establecimiento o modificación de directivas de API Management.

Modelos de Foundry compatibles con Azure OpenAI

La directiva se usa con las API agregadas a API Management desde Azure OpenAI en los modelos foundry de los siguientes tipos:

Tipo de API Modelos admitidos
Finalización del chat gpt-3.5

gpt-4

gpt-4o

gpt-4o-mini

o1

o3
Inserciones text-embedding-3-large

text-embedding-3-small

text-embedding-ada-002
Respuestas (versión preliminar) gpt-4o (Versiones: 2024-11-20, 2024-08-06, 2024-05-13)

gpt-4o-mini (Versión: 2024-07-18)

gpt-4.1 (Versión: 2025-04-14)

gpt-4.1-nano (Versión: 2025-04-14)

gpt-4.1-mini (Versión: 2025-04-14)

gpt-image-1 (Versión: 2025-04-15)

o3 (Versión: 2025-04-16)

o4-mini (Versión: '2025-04-16)

Nota:

Las API de finalización tradicionales solo están disponibles con versiones de modelo heredadas y la compatibilidad es limitada.

Para obtener información actual sobre los modelos y sus funcionalidades, consulte Azure OpenAI en Foundry Models.

Instrucción de la directiva

<azure-openai-semantic-cache-store duration="seconds"/>

Atributos

Atributo Descripción Necesario Valor predeterminado
duración Período de vida de las entradas almacenadas en caché, especificado en segundos. Se permiten expresiones de directiva. N/D

Uso

Notas de uso

  • Esta directiva solo se puede usar una vez en una sección de directiva.
  • Si se produce un error en la búsqueda de caché, la llamada API que usa la operación relacionada con la caché no genera un error y la operación de caché se completa correctamente.

Ejemplos

Ejemplo con la directiva azure-openai-semantic-cache-lookup correspondiente

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Para más información sobre el trabajo con directivas, vea: