了解适用于 U-SQL 开发人员的 Apache Spark

2023-12-20

重要

Azure Data Lake Analytics 于 2024 年 2 月 29 日停用。了解更多信息，请查看此公告。

对于数据分析，你的组织可以使用 Azure Synapse Analytics 或 Microsoft Fabric。

Microsoft支持多个分析服务，例如 Azure Databricks、 Azure HDInsight 和 Azure Data Lake Analytics。我们从开发人员处获悉，他们在构建分析管道时，对开源解决方案有明确的偏好。为了帮助 U-SQL 开发人员了解 Apache Spark，以及如何将 U-SQL 脚本转换为 Apache Spark，我们创建了本指南。

它包括可以采取的步骤和几种替代方法。

将 U-SQL 转换为 Apache Spark 的步骤

改造您的作业编排工作流。

如果使用 Azure 数据工厂来协调 Azure Data Lake Analytics 脚本，则必须对其进行调整以协调新的 Spark 程序。
了解 U-SQL 和 Spark 如何管理数据之间的差异。

如果要将数据从 Azure Data Lake Storage Gen1 移动到 Azure Data Lake Storage Gen2，则必须复制文件数据和目录维护的数据。 Azure Data Lake Analytics 仅支持 Azure Data Lake Storage Gen1。有关详细信息，请参阅了解 Spark 数据格式。
将 U-SQL 脚本转换为 Spark。

在转换 U-SQL 脚本之前，必须选择分析服务。一些可用的计算服务包括：
- Azure 数据工厂数据流映射数据流是直观设计的数据转换，允许数据工程师在不编写代码的情况下开发图形数据转换逻辑。虽然不适合执行复杂的用户代码，但它们可以轻松表示传统的类似 SQL 的数据流转换
- Azure HDInsight Hive HDInsight 上的 Apache Hive 适用于进行提取、转换和加载（ETL）操作。这意味着你要将 U-SQL 脚本转换为 Apache Hive。
- Apache Spark 引擎（例如 Azure HDInsight Spark 或 Azure Databricks ），这意味着你要将 U-SQL 脚本转换为 Spark。有关详细信息，请参阅了解 Spark 数据格式

谨慎

Azure Databricks 和 Azure HDInsight Spark 都是群集服务，而不是 Azure Data Lake Analytics 等无服务器作业。必须考虑如何预配群集以获取适当的成本/性能比率，以及如何管理其生存期，以最大程度地降低成本。这些服务在 .NET 中编写的用户代码具有不同的性能特征，因此必须使用受支持的语言编写包装器或重写代码。有关详细信息，请参阅了解 Spark 数据格式、了解适用于 U-SQL 开发人员的 Apache Spark 代码概念、适用于 Apache Spark 的 .NET

通过

了解适用于 U-SQL 开发人员的 Apache Spark

将 U-SQL 转换为 Apache Spark 的步骤

后续步骤

其他资源