适用于:所有 API 管理层级
可以将 Azure AI Foundry 中部署的 AI 模型终结点导入 API 管理实例作为 API。 使用 API 管理中的 AI 网关策略和其他功能来简化集成,提高可观测性,并增强对模型终结点的控制。
详细了解如何在 API 管理中管理 AI API:
客户端兼容性选项
API 管理支持两个适用于 AI API 的客户端兼容性选项。 选择适合模型部署的选项。 该选项确定客户端如何调用 API,以及 API 管理实例如何将请求路由到 AI 服务。
Azure AI - 管理通过 Azure AI 模型推理 API 公开的 Azure AI Foundry 中的模型终结点。
客户端在
/models
终结点(例如/my-model/models/chat/completions
)发起部署。 部署名称在请求正文中传递。 如果希望灵活地在通过 Azure AI 模型推理 API 公开的模型与 Azure OpenAI 服务中部署的模型之间切换,请使用此选项。Azure OpenAI 服务 - 管理 Azure OpenAI 服务中部署的模型终结点。
客户端在
/openai
终结点(如/openai/deployments/my-deployment/chat/completions
)调用部署。 部署名称在请求路径中传递。 如果 AI 服务仅包括 Azure OpenAI 服务模型部署,请使用此选项。
先决条件
- 现有的 API 管理实例。 创建一个(如果尚未创建)。
- 订阅中部署了一个或多个模型的 Azure AI 服务。 示例包括 Azure AI Foundry 或 Azure OpenAI 服务中部署的模型。
使用门户导入 AI Foundry API
使用以下步骤将 AI API 导入到 API 管理平台。
导入 API 时,API 管理会自动配置:
- API 的每个 REST API 终结点的操作
- 系统分配的标识,具有访问 AI 服务部署所需的权限。
- 后端资源和设置后端服务策略,用于将 API 请求定向到 AI 服务终结点。
- 使用实例的系统分配的托管标识对系统后端进行身份验证。
- (可选)用于帮助你监视和管理 API 的策略。
将 AI Foundry API 导入到 API 管理中。
在 Azure 门户,导航到 API 管理实例。
在左侧菜单中的 API 下,选择 API>+ 添加 API。
在 “从 Azure 资源创建”下,选择 “Azure AI Foundry”。
在 “选择 AI 服务 ”选项卡上:
- 选择要在其中搜索 AI 服务的订阅。 若要获取有关服务中模型部署的信息,请选择服务名称旁边的 部署 链接。
- 选择 AI 服务。
- 选择“下一步”。
- 选择要在其中搜索 AI 服务的订阅。 若要获取有关服务中模型部署的信息,请选择服务名称旁边的 部署 链接。
在 “配置 API ”选项卡上:
输入 API 的显示名称和(可选)说明。
在 “基本路径”中,输入 API 管理实例用于访问部署终结点的路径。
(可选)选择要与 API 关联的一个或多个 产品 。
在 客户端兼容性中,根据要支持的客户端类型选择以下任一项。 有关详细信息,请参阅 客户端兼容性选项 。
- Azure OpenAI - 如果客户端只需要访问 Azure OpenAI 服务模型部署,请选择此选项。
- Azure AI - 如果你的客户端需要访问 Azure AI Foundry 中的其他模型,请选择此选项。
选择“下一步”。
在 “管理令牌使用 ”选项卡上,可以选择输入设置或接受定义以下策略的默认设置,以帮助监视和管理 API:
在 “应用语义缓存 ”选项卡上,可以选择输入设置或接受定义策略的默认值,以帮助优化性能并减少 API 的延迟:
在 AI 内容安全性上,可以选择输入设置或接受默认设置以配置 Azure AI 内容安全服务以阻止包含不安全内容的提示:
选择“审核”。
验证设置后,选择“创建”。
测试 AI API
若要确保 AI API 按预期工作,请在 API 管理控制台中对其进行测试。
选择上一步中创建的 API。
选择“测试”选项卡。
选择与模型部署兼容的操作。 该页将显示查询参数和标头的字段。
根据需要输入参数和标头。 根据操作,可能需要配置或更新 请求正文。
注释
在测试控制台中,API 管理自动填充 Ocp-Apim-Subscription-Key 标头,并配置内置全访问订阅的订阅密钥。 此密钥允许访问 API 管理实例中的每个 API。 可选择性地通过选择 HTTP 请求旁的“眼睛”图标来显示 Ocp-Apim-Subscription-Key 标头。
选择发送。
当测试成功时,后端会使用成功的 HTTP 响应代码和某些数据进行响应。 追加到响应中是令牌使用情况数据,可帮助你监视和管理语言模型令牌消耗。