Mosaic AI 网关简介

本文介绍 Mosaic AI Gateway,这是 Databricks 的一项解决方案,用于管理和监控对支持的生成 AI 模型及其相关模型服务终端的访问。

什么是 Mosaic AI 网关?

马赛克 AI 网关旨在简化组织中生成 AI 模型和代理的使用和管理。 它是一种集中式服务,向模型服务终结点提供了治理、监视和生产就绪。 它还允许你运行、保护和管理 AI 流量,以实现组织 AI 采用的民主化和加速。

所有数据都记录到 Unity Catalog 的 Delta 表中。

要开始可视化来自 AI 网关数据的见解,请从 GitHub 下载示例 AI 网关仪表板。 此仪表板利用使用情况跟踪和有效负载日志记录推理表中的数据。

下载 JSON 文件后,请将仪表板导入工作区。 有关导入仪表板的说明,请参阅导入仪表板文件

支持的功能

下表列出并定义了可用的 AI 网关功能,以及哪些模型服务终结点类型支持这些功能。

功能 定义 外部模型终结点 基础模型 API 预配吞吐量终结点 基础模型 API 按令牌付费终结点 Mosaic AI 代理 自定义模型终结点
权限和速率限制 控制谁具有访问权限以及访问权限的程度。 已支持 已支持 已支持 不支持 已支持
有效负载日志记录 使用 推理表监视和审核发送到模型 API 的数据。 已支持 已支持 已支持 已支持 已支持
使用情况跟踪 使用系统表监控终结点的操作使用情况和相关成本。 已支持 已支持 已支持 不支持 已支持
AI 护栏 防止请求和响应中不需要和不安全的数据。 请参阅 AI 护栏 已支持 已支持 已支持 不支持 不支持
回退 在部署期间和部署后尽量减少生产中断。 已支持 不支持 不支持 不支持 不支持
流量拆分 跨模型对流量进行负载均衡。 已支持 已支持 不支持 不支持 已支持

Mosaic AI 网关根据已启用的功能产生费用。 付费功能包括负载日志记录和使用情况监控。 查询权限、速率限制、回退和流量拆分等功能是免费的。 任何新功能都需收费。

AI 护栏

重要说明

此功能目前以公共预览版提供。

AI 护栏允许用户在模型服务终结点级别配置和执行数据合规性,并减少发送到基础模型的任何请求上的有害内容。 不良请求和响应被阻止,并向用户返回默认消息。 请参阅如何在模型服务终结点上配置护栏

重要说明

AI 护栏审查服务依赖于基础模型 API 按令牌付费模型。 此依赖关系将 AI 护栏审查服务的可用性限制为支持基础模型 API 按令牌付费的区域

下表总结了可配置的护栏。 请参阅限制

注释

2025 年 5 月 30 日之后,不再支持主题审查和关键字筛选 AI 防护措施。 如果工作流需要这些功能,请联系 Databricks 帐户团队,参与自定义防护栏个人预览版。

护栏 定义
安全筛选 安全筛选可防止你的模型与不安全和有害内容交互,如暴力犯罪、自残和仇恨言论。
AI 网关安全筛选器基于 Meta Llama 3 构建。 Databricks 使用 Llama Guard 2-8b 作为安全筛选器。 要了解有关 Llama Guard 安全筛选器以及哪些主题适用于安全筛选器的更多信息,请参阅 Meta Llama Guard 2 8B 模型卡
Meta Llama 3 根据 LLAMA 3 社区许可获得许可,版权所有 © Meta Platforms, Inc. 保留所有权利。 客户需负责确保遵守适用的模型许可条款。
个人身份信息 (PII) 检测 客户可以检测任何敏感信息,如用户的姓名、地址、信用卡号。
为此功能,AI 网关使用 Presidio 检测以下美国 PII 类别:信用卡号、电子邮件地址、电话号码、银行帐号和社会安全号码。
PII 分类器可以帮助识别结构化和非结构化数据中的敏感信息或 PII。 但是,由于它使用自动检测机制,因此不能保证该服务会找到所有敏感信息。 因此,应采用额外的系统和保护措施。
这些分类方法主要限于美国 PII 类别,例如美国电话号码和社会安全号码。

使用 AI 网关

可以使用服务 UI 在模型服务终结点上配置 AI 网关功能。 请参阅在为终结点提供服务的模型上配置 AI 网关

限制

以下是启用 AI 网关的终结点的限制:

  • 使用 AI 防护措施时,请求批大小(即嵌入批大小、完成批大小或聊天请求 n 参数)不能超过 16 个。
  • 对于预配吞吐量工作负载,支持的功能仅限于使用启用了 AI 网关的推理表进行速率限制和有效负载日志记录。
  • 如果使用 函数调用 并指定 AI 防护措施,则这些防护措施不适用于函数的请求和中间响应。 但是,护栏将应用于最终输出响应。
  • 不支持文本到映像工作负荷。
  • 只有启用了 AI 网关功能的按令牌付费终结点上的批量推理工作负载才支持使用情况跟踪。 在 endpoint_usage 系统表中,只有与批处理推理请求对应的行可见。
  • 自定义模型服务终结点不支持 AI 护栏和回退。
  • 对于自定义模型服务终结点,只有未进行路由优化的工作负荷支持速率限制和使用情况跟踪。
  • 路由优化模型服务终结点的推理表正在公共预览中