你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure Databricks 和安全性的架构最佳实践

Azure Databricks 是针对 Azure 云服务优化的数据分析平台。 它提供了三个用于开发数据密集型应用程序的环境:

若要详细了解 Azure Databricks 如何提高大数据分析的安全性,请参阅 Azure Databricks 概念

以下部分包括设计注意事项、配置清单以及特定于 Azure Databricks 的建议配置选项。

设计注意事项

默认情况下,所有用户的笔记本和笔记本结果都是静态加密的。 如果其他要求已确定,请考虑使用客户管理的密钥来管理笔记本。

清单

您是否在配置 Azure Databricks 时考虑到了安全性?


  • 使用 Microsoft Entra ID 凭据传递,以避免在与 Azure Data Lake Storage 通信时需要服务主体。
  • 将工作区、计算和数据与公共访问隔离开来。 确保只有正确的人员才有权访问,并且只能通过安全通道访问。
  • 确保只有正确 托管的用户才能访问分析的云工作区。
  • 实现 Azure 专用链接。
  • 限制和监视虚拟机。
  • 使用动态 IP 访问列表允许管理员仅从其企业网络访问工作区。
  • 使用 VNet 注入 功能启用更安全的方案。
  • 使用 诊断日志 审核工作区访问权限和权限。
  • 请考虑使用 安全群集连接 功能和 中心/辐射体系结构 来防止打开端口,并在群集节点上分配公共 IP 地址。

配置建议

浏览以下推荐配置表,以优化 Azure Databricks 的安全性:

建议 DESCRIPTION
确保只有正确 托管的用户才能访问分析的云工作区。 Microsoft Entra ID 可以处理远程访问的单一登录。 为了获得额外的安全性,请引用 条件访问
实现 Azure 专用链接。 确保平台用户、笔记本和处理查询的计算群集之间的所有流量都通过云提供商的网络主干进行加密和传输,无法访问外部世界。
限制和监视虚拟机。 执行查询的群集应限制 SSH 和网络访问,以防止安装任意包。 群集应该仅使用定期扫描漏洞的映像。
使用 VNet 注入 功能启用更安全的方案。 例如:
- 使用服务终结点连接到其他 Azure 服务。
- 使用用户定义的路由连接到本地数据源。
- 连接到网络虚拟设备以检查所有出站流量,并根据允许和拒绝规则采取措施。
- 使用自定义 DNS。
- 在现有虚拟网络中部署 Azure Databricks 群集。
使用 诊断日志 审核工作区访问权限和权限。 使用审核日志查看工作区中的特权活动,包括群集大小调整以及在群集上共享的文件和文件夹。

源项目

Azure Databricks 源项目包括 Databricks 博客: 保护企业规模数据平台的最佳做法

后续步骤