Fabric 运行时可与 Azure 无缝集成。 它为使用 Apache Spark 的数据工程和数据科学项目提供了先进的环境。 Fabric 运行时 1.3 是用于大数据计算的最新运行时,本文概述了它的基本功能和组件。
Microsoft Fabric Runtime 1.3 是最新的 GA 运行时版本,包含以下组件和升级,旨在增强数据处理功能:
Apache Spark 3.5
操作系统:Mariner 2.0
Java:11
标量:2.12.17
Python:3.11
Delta Lake:3.2
R:4.4.1
提示
Fabric Runtime 1.3 包括对 本机执行引擎的支持,这可以显著提升性能,而无需花费更多成本。 若要在环境中的所有作业和笔记本中启用本机执行引擎,请导航到环境设置,选择 Spark 计算,转到“加速”选项卡,并选中“启用本机执行引擎”。 保存和发布后,此设置将在整个环境中应用,因此所有新作业和笔记本都会自动继承并受益于增强的性能功能。
集成运行时 1.3
按照以下说明将运行时 1.3 集成到工作区中,然后即可使用其新功能:
导航到 Fabric 工作区中的“工作区设置”选项卡。
转到“数据工程/科学”并选择“Spark 设置”。
选择环境选项卡。
在“Runtime 版本”下展开下拉列表。
选择“1.3(Spark 3.5、Delta 3.2)”并保存所做的更改。 此操作会将 1.3 设置为工作区的默认运行时。
你现在可以开始使用 Fabric 运行时 1.3 中引入的最新改进和功能(Spark 3.5 和 Delta Lake 3.2)。
了解 Apache Spark 3.5
Apache Spark 3.5.0 是 3.x 系列中的第六个版本。 此版本是开源社区中广泛协作的成果,解决了 Jira 中记录的 1,300 多个问题。
此版本包含一项有关结构化流兼容性的升级。 此外,此版本还扩展了 PySpark 和 SQL 中的功能。 它增加了多项功能,例如 SQL 标识符子句、SQL 函数调用中的命名参数以及纳入适用于 HyperLogLog 近似聚合的 SQL 函数等。
其他新功能还包括 Python 用户定义表函数、通过 DeepSpeed 简化分布式训练,以及水印传播和 dropDuplicatesWithinWatermark 操作等新的结构化流功能。
可在此处查看完整列表和详细更改: Spark 版本 3.5.0。
了解 Delta Spark
Delta Lake 3.2 标志着一项集体承诺,使 Delta Lake 可跨格式互操作、更易于使用且性能更高。 Delta Spark 3.2 基于 Apache Spark™ 3.5 构建。 Delta Spark maven 项目已从 delta-core 重命名为 delta-spark。
要了解完整的列表和详细更改,请访问此处:https://docs.delta.io/3.2.0/index.html。
提示
有关最新信息并获取有关 Fabric 运行时的详细更改列表和具体发行说明,请检查并订阅 Spark 运行时版本和更新。