Spark 的自动缩放计费为 Microsoft Fabric 中的 Apache Spark 工作负载引入了新的即用即付计费模型,旨在提供更高灵活性和成本优化。 启用此模型后,Spark 作业不再使用 Fabric 容量中的计算,而是使用独立计费的专用无服务器资源,类似于 Azure Synapse Spark。
此模型补充了 Fabric 中现有的基于容量的模型,使组织能够为其工作负荷选择合适的计算模型。
在自动缩放计费和容量模型之间进行选择
功能 / 特点 | 容量模型 | Spark 的自动缩放计费 |
---|---|---|
计费 | 每个容量层的固定成本 | Spark 作业即用即付 |
缩放 | 跨工作负载共享的容量 | Spark 可以自动扩展 |
资源争用 | 工作负载之间可能发生 | Spark 的专用计算限制 |
最佳用例 | 可预测工作负荷 | 动态或突发的 Spark 作业 |
通过战略性地使用这两种模型,团队可以在成本与性能之间取得平衡 - 在容量中运行稳定重复的作业,同时将临时或计算密集型 Spark 工作负载卸载到 自动缩放计费。
主要优势
- ✅ 成本效益 - 仅支付 Spark 作业运行时的费用。
- ✅ 独立扩展 – Spark 工作负载在不影响其他基于容量的操作的情况下运行。
- ✅ 企业就绪 – 与 Azure 配额管理集成,实现灵活扩展。
自动缩放计费的工作方式
启用后,自动缩放计费会更改 Spark 工作负载的处理方式:
- Spark 作业将从 Fabric 容量中卸载,并且不使用 Fabric 容量中的 CU。
- 可以将最大 CU 限制配置为与预算或治理策略保持一致。 此限制只是 Spark 工作负载的最大限制(更像是配额)。 只需为作业使用的 CU 付费,并且不会产生空闲计算成本。
- Spark 的帐单费率没有变化。 Spark 的成本保持不变,即每个 Spark 作业的 0.5 CU 小时。
- 达到 CU 限制后,Spark 作业将排队(批处理)或受限制(交互式)。
- Spark 使用情况和成本在 Fabric 容量指标应用 和 Azure 成本分析中单独报告。
重要
自动缩放计费是按容量选择加入的,且不会突发或回退到 Fabric 容量。 它纯粹是无服务器和即用即付。 启用自动缩放计费并设置最大限制后,只会按运行的作业使用的 CU 付费。
作业并发和排队行为
启用自动缩放计费后,Spark 作业并发由 Fabric 容量管理员定义的最大容量单位 (CU) 限制控制。与标准容量模型不同,自动缩放计费不存在突发和平滑。
- 交互式 Spark 作业(例如湖屋操作、表预览、加载到表和交互式笔记本查询)将在完全利用可用 CU 后受到限制。
- 后台 Spark 作业(由 管道、作业调度程序、API 执行、Spark 作业定义或 表维护触发)将被排队。
队列大小直接绑定到 CU 限制:
例如,如果最大 CU 限制设置为 2048,Spark 作业队列最多可以容纳 2048 个作业。
此模型可确保资源分配保持可预测且可控制,同时仍支持大量突发工作负荷。
请求其他配额
如果数据工程或数据科学工作负荷的配额高于当前最大容量单位(CU)限制,可以通过 Azure 配额页请求增加:
- 访问 Azure 门户并登录。
- 在搜索栏中,键入并选择“Azure 配额”。
- 从可用服务列表中选择 Microsoft Fabric。
- 选择与 Fabric 容量关联的订阅。
- 输入要获取的新 CU 限制来编辑配额限制。
- 提交配额请求。
请求一旦获得批准,新的 CU 限制将被刷新并应用到您的 Fabric 容量。 这可确保您的自动缩放计费模型能够适应增加的需求,而不会中断 Spark 工作负载。