大多数大数据解决方案都包含在工作流中封装的重复数据处理作。 管道业务流程协调程序是一种有助于自动执行这些工作流的工具。 业务流程协调程序可以计划作业、执行工作流并协调任务之间的依赖关系。
数据管道业务流程有哪些选项?
在 Azure 中,以下服务和工具将满足管道业务流程、控制流和数据移动的核心要求:
这些服务和工具可以独立于彼此使用,也可以一起使用来创建混合解决方案。 例如,Azure 数据工厂 V2 中的 Integration Runtime (IR)可以在托管的 Azure 计算环境中本机执行 SSIS 包。 虽然这些服务之间的功能存在一些重叠,但存在一些主要差异。
关键选择条件
要缩小选择范围,请先回答以下问题:
是否需要大数据功能来移动和转换数据? 通常,这意味着几 GB 到几 TB 的数据。 如果是,请将选项缩小到最适合大数据的选项。
是否需要可大规模运行的托管服务? 如果是,请选择不受本地处理能力限制的基于云的服务之一。
某些数据源是否位于本地? 如果是,请查找可用于云和本地数据源或目标的选项。
源数据存储在 HDFS 文件系统上的 Blob 存储中吗? 如果是,请选择支持 Hive 查询的选项。
功能矩阵
以下各表汇总了功能上的关键差异。
常规功能
能力 | Azure 数据工厂 | SQL Server Integration Services (SSIS) | Oozie on HDInsight |
---|---|---|---|
托管 | 是的 | 否 | 是的 |
基于云的 | 是的 | 否(本地) | 是的 |
先决条件 | Azure 订阅 | SQL Server | Azure 订阅、HDInsight 群集 |
管理工具 | Azure 门户、PowerShell、CLI、.NET SDK | SSMS、PowerShell | Bash shell、Oozie REST API、Oozie Web UI |
定价 | 按使用情况付费 | 许可/支付功能费用 | 在运行 HDInsight 群集的基础上无需额外付费 |
管道功能
能力 | Azure 数据工厂 | SQL Server Integration Services (SSIS) | Oozie on HDInsight |
---|---|---|---|
复制数据 | 是的 | 是的 | 是的 |
自定义转换 | 是的 | 是的 | 是(MapReduce、Pig 和 Hive 作业) |
Azure 机器学习评分 | 是的 | 是(使用脚本) | 否 |
HDInsight 按需 | 是的 | 否 | 否 |
Azure Batch | 是的 | 否 | 否 |
Pig、Hive、MapReduce | 是的 | 否 | 是的 |
火花 | 是的 | 否 | 否 |
执行 SSIS 包 | 是的 | 是的 | 否 |
控制流 | 是的 | 是的 | 是的 |
访问本地数据 | 是的 | 是的 | 否 |
可伸缩性功能
能力 | Azure 数据工厂 | SQL Server Integration Services (SSIS) | Oozie on HDInsight |
---|---|---|---|
纵向扩展 | 是的 | 否 | 否 |
横向扩展 | 是的 | 否 | 是(通过将工作器节点添加到群集) |
针对大数据优化 | 是的 | 否 | 是的 |
供稿人
本文由Microsoft维护。 它最初是由以下贡献者撰写的。
主要作者:
- Zoiner Tejada | CEO 兼架构师