Microsoft Fabric 中 Spark 的自动缩放计费功能(预览版)

Spark 的自动缩放计费为 Microsoft Fabric 中的 Apache Spark 工作负载引入了新的即用即付计费模型,旨在提供更高灵活性和成本优化。 启用此模型后,Spark 作业不再使用 Fabric 容量中的计算,而是使用独立计费的专用无服务器资源,类似于 Azure Synapse Spark。

此模型补充了 Fabric 中现有的基于容量的模型,使组织能够为其工作负荷选择合适的计算模型。

在自动缩放计费和容量模型之间进行选择

功能 / 特点 容量模型 Spark 的自动缩放计费
计费 每个容量层的固定成本 Spark 作业即用即付
缩放 跨工作负载共享的容量 Spark 可以自动扩展
资源争用 工作负载之间可能发生 Spark 的专用计算限制
最佳用例 可预测工作负荷 动态或突发的 Spark 作业

通过战略性地使用这两种模型,团队可以在成本与性能之间取得平衡 - 在容量中运行稳定重复的作业,同时将临时或计算密集型 Spark 工作负载卸载到 自动缩放计费。

主要优势

  • 成本效益 - 仅支付 Spark 作业运行时的费用。
  • 独立扩展 – Spark 工作负载在不影响其他基于容量的操作的情况下运行。
  • 企业就绪 – 与 Azure 配额管理集成,实现灵活扩展。

自动缩放计费的工作方式

启用后,自动缩放计费会更改 Spark 工作负载的处理方式:

  • Spark 作业将从 Fabric 容量中卸载,并且不使用 Fabric 容量中的 CU。
  • 可以将最大 CU 限制配置为与预算或治理策略保持一致。 此限制只是 Spark 工作负载的最大限制(更像是配额)。 只需为作业使用的 CU 付费,并且不会产生空闲计算成本。
  • Spark 的帐单费率没有变化。 Spark 的成本保持不变,即每个 Spark 作业的 0.5 CU 小时。
  • 达到 CU 限制后,Spark 作业将排队(批处理)或受限制(交互式)。
  • Spark 使用情况和成本在 Fabric 容量指标应用Azure 成本分析中单独报告。

重要

自动缩放计费是按容量选择加入的且不会突发或回退到 Fabric 容量。 它纯粹是无服务器和即用即付。 启用自动缩放计费并设置最大限制后,只会按运行的作业使用的 CU 付费。

作业并发和排队行为

启用自动缩放计费后,Spark 作业并发由 Fabric 容量管理员定义的最大容量单位 (CU) 限制控制。与标准容量模型不同,自动缩放计费不存在突发和平滑

  • 交互式 Spark 作业(例如湖屋操作、表预览、加载到表和交互式笔记本查询)将在完全利用可用 CU 后受到限制。
  • 后台 Spark 作业(由 管道作业调度程序API 执行Spark 作业定义表维护触发)将被排队

队列大小直接绑定到 CU 限制:

例如,如果最大 CU 限制设置为 2048,Spark 作业队列最多可以容纳 2048 个作业

此模型可确保资源分配保持可预测且可控制,同时仍支持大量突发工作负荷。

请求其他配额

如果数据工程或数据科学工作负荷的配额高于当前最大容量单位(CU)限制,可以通过 Azure 配额页请求增加:

  1. 访问 Azure 门户并登录。
  2. 在搜索栏中,键入并选择“Azure 配额”。
  3. 从可用服务列表中选择 Microsoft Fabric
  4. 选择与 Fabric 容量关联的订阅。
  5. 输入要获取的新 CU 限制来编辑配额限制。
  6. 提交配额请求。

示意图显示作为容量设置页面一部分的自动缩放设置,其中包含一个切换按钮和滑块来设置最大容量单位。

请求一旦获得批准,新的 CU 限制将被刷新并应用到您的 Fabric 容量。 这可确保您的自动缩放计费模型能够适应增加的需求,而不会中断 Spark 工作负载。

后续步骤