在 Azure 中选择数据管道编排技术

大多数大数据解决方案都包含在工作流中封装的重复数据处理作。 管道业务流程协调程序是一种有助于自动执行这些工作流的工具。 业务流程协调程序可以计划作业、执行工作流并协调任务之间的依赖关系。

数据管道业务流程有哪些选项?

在 Azure 中,以下服务和工具将满足管道业务流程、控制流和数据移动的核心要求:

这些服务和工具可以独立于彼此使用,也可以一起使用来创建混合解决方案。 例如,Azure 数据工厂 V2 中的 Integration Runtime (IR)可以在托管的 Azure 计算环境中本机执行 SSIS 包。 虽然这些服务之间的功能存在一些重叠,但存在一些主要差异。

关键选择条件

要缩小选择范围,请先回答以下问题:

  • 是否需要大数据功能来移动和转换数据? 通常,这意味着几 GB 到几 TB 的数据。 如果是,请将选项缩小到最适合大数据的选项。

  • 是否需要可大规模运行的托管服务? 如果是,请选择不受本地处理能力限制的基于云的服务之一。

  • 某些数据源是否位于本地? 如果是,请查找可用于云和本地数据源或目标的选项。

  • 源数据存储在 HDFS 文件系统上的 Blob 存储中吗? 如果是,请选择支持 Hive 查询的选项。

功能矩阵

以下各表汇总了功能上的关键差异。

常规功能

能力 Azure 数据工厂 SQL Server Integration Services (SSIS) Oozie on HDInsight
托管 是的 是的
基于云的 是的 否(本地) 是的
先决条件 Azure 订阅 SQL Server Azure 订阅、HDInsight 群集
管理工具 Azure 门户、PowerShell、CLI、.NET SDK SSMS、PowerShell Bash shell、Oozie REST API、Oozie Web UI
定价 按使用情况付费 许可/支付功能费用 在运行 HDInsight 群集的基础上无需额外付费

管道功能

能力 Azure 数据工厂 SQL Server Integration Services (SSIS) Oozie on HDInsight
复制数据 是的 是的 是的
自定义转换 是的 是的 是(MapReduce、Pig 和 Hive 作业)
Azure 机器学习评分 是的 是(使用脚本)
HDInsight 按需 是的
Azure Batch 是的
Pig、Hive、MapReduce 是的 是的
火花 是的
执行 SSIS 包 是的 是的
控制流 是的 是的 是的
访问本地数据 是的 是的

可伸缩性功能

能力 Azure 数据工厂 SQL Server Integration Services (SSIS) Oozie on HDInsight
纵向扩展 是的
横向扩展 是的 是(通过将工作器节点添加到群集)
针对大数据优化 是的 是的

供稿人

本文由Microsoft维护。 它最初是由以下贡献者撰写的。

主要作者:

后续步骤