介绍
Apache Spark 提供了一个强大的平台,用于对大量数据执行数据清理和转换任务。 通过使用 Spark 数据帧 对象,可以轻松地从 Data Lake 中的文件加载数据并执行复杂的修改。 然后,可以将转换后的数据保存回 Data Lake,以便下游处理或引入数据仓库。
Azure Synapse Analytics 提供 Apache Spark 池,可用于运行 Spark 工作负载,以在数据引入和准备工作负荷中转换数据。 可以使用本机支持的笔记本在 Spark 池上编写和运行代码,以准备数据以供分析。 然后,可以使用其他 Azure Synapse Analytics 功能(例如 SQL 池)来处理转换后的数据。