数据工厂端到端方案:简介和体系结构

本教程通过提供一小时内的完整数据集成方案的步骤,帮助加快 Microsoft Fabric 中数据工厂的评估过程。 本教程结束时,你将了解数据工厂的价值和关键功能,并了解如何完成常见的端到端数据集成方案。

此方案分为简介和三个模块:

Microsoft Fabric 中为何选择数据工厂?

Microsoft Fabric 为企业的所有分析需求提供单一平台。 它涵盖了各种分析,包括数据移动、数据湖、数据工程、数据集成、数据科学、实时分析和商业智能。 使用 Fabric 时,无需将多个供应商的不同服务拼凑在一起。 相反,你的用户喜欢一个易于理解、创建、上手和操作的综合产品。

Fabric 中的数据工厂Power Query 的易用性与 Azure 数据工厂的规模和功能相结合。 它将这两种产品的最佳特点结合成一种独特的体验。 目标是让公民和专业数据开发人员拥有正确的数据集成工具。 数据工厂提供低代码、支持 AI 的数据准备和转换体验、PB 级转换以及具有混合和多云连接的数百个连接器。

数据工厂的三个主要功能

  • 数据引入: 管道(或独立 复制作业)中的复制活动允许将 PB 字节级数据从数百个数据源移动到 Data Lakehouse 中,以便进一步处理。
  • 数据转换和准备: 数据流 Gen2 提供了一个低代码接口,用于使用 300 多个数据转换来转换数据,并且能够将转换的结果加载到多个目标,例如 Azure SQL 数据库、Lakehouse 等。
  • 端到端自动化: 管道提供用于协调活动的编排,包括复制、数据流、笔记本活动等。 管道中的活动可以链接在一起以按顺序运行,也可以独立运行。 整个数据集成流会自动运行,并且可以在一个位置进行监视。

教程体系结构

在接下来的 50 分钟内,完成端到端数据集成方案时,你将了解数据工厂的所有三个主要功能。

方案分为三个模块:

教程的数据流和模块的关系图。

使用示例数据集 NYC-Taxi 作为本教程的数据源。 完成后,你将能够使用 Microsoft Fabric 中的数据工厂,在特定时间内深入了解出租车费用的每日折扣信息。

后续步骤

请继续到下一章节以创建数据管道。