다음을 통해 공유


Azure OpenAI API 요청에 대한 캐시 응답

적용 대상: 모든 API Management 계층

정책은 azure-openai-semantic-cache-store 구성된 외부 캐시에 대한 Azure OpenAI 채팅 완료 API 요청에 대한 응답을 캐시합니다. 응답 캐싱은 백 엔드 Azure OpenAI API에 적용되는 대역폭 및 처리 요구 사항을 줄이고 API 소비자가 인지하는 대기 시간을 낮춥니다.

참고 항목

참고 항목

정책 문에 제공된 순서대로 정책의 요소 및 자식 요소를 설정합니다. API Management 정책을 설정하거나 편집하는 방법에 대해 자세히 알아봅니다.

Foundry 모델 모델에서 지원되는 Azure OpenAI

이 정책은 다음 형식의 Foundry 모델의 Azure OpenAI에서 API Management에 추가된 API 와 함께 사용됩니다.

API 형식 지원되는 모델
채팅 완료 gpt-3.5

gpt-4

gpt-4o

gpt-4o-mini

o1

o3
포함 text-embedding-3-large

text-embedding-3-small

text-embedding-ada-002
응답(미리 보기) gpt-4o(버전: 2024-11-20, 2024-08-062024-05-13)

gpt-4o-mini (버전: 2024-07-18)

gpt-4.1 (버전: 2025-04-14)

gpt-4.1-nano (버전: 2025-04-14)

gpt-4.1-mini (버전: 2025-04-14)

gpt-image-1 (버전: 2025-04-15)

o3 (버전: 2025-04-16)

o4-mini (버전: '2025-04-16)

참고 항목

기존 완성 API는 레거시 모델 버전에서만 사용할 수 있으며 지원은 제한적입니다.

모델 및 해당 기능에 대한 현재 정보는 Foundry 모델의 Azure OpenAI를 참조하세요.

정책 문

<azure-openai-semantic-cache-store duration="seconds"/>

특성

특성 설명 필수 항목 기본값
기간 캐시된 항목의 TTL(Time-to-Live)로 초 단위로 지정합니다. 정책 식이 허용됩니다. 해당 없음

사용

사용법 참고 사항

  • 이 정책은 정책 섹션에서 한 번만 사용할 수 있습니다.
  • 캐시 조회가 실패하면 캐시 관련 작업을 사용하는 API 호출에서 오류가 발생하지 않고 캐시 작업이 성공적으로 완료됩니다.

예제

해당 azure-openai-semantic-cache-lookup 정책을 사용하는 예제

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

정책 작업에 대한 자세한 내용은 다음을 참조하세요.