本教程通过提供一小时内的完整数据集成方案的步骤,帮助加快 Microsoft Fabric 中数据工厂的评估过程。 本教程结束时,你将了解数据工厂的价值和关键功能,并了解如何完成常见的端到端数据集成方案。
此方案分为简介和三个模块:
- 本教程简介以及为何应在 Microsoft Fabric 中使用数据工厂。
- 模块 1:使用 Data Factory 创建管道,以将原始数据从 Blob 存储摄取到数据 Lakehouse 中的 Bronze 数据层表。
- 模块 2:使用数据工厂中的数据流转换数据 ,以处理 青铜 表的原始数据,并将其移动到 Data Lakehouse 中的 黄金 数据层表。
- 模块 3:完成第一个数据集成旅程 ,并发送电子邮件,在完成所有作业后通知你,最后,设置整个流以按计划运行。
Microsoft Fabric 中为何选择数据工厂?
Microsoft Fabric 为企业的所有分析需求提供单一平台。 它涵盖了各种分析,包括数据移动、数据湖、数据工程、数据集成、数据科学、实时分析和商业智能。 使用 Fabric 时,无需将多个供应商的不同服务拼凑在一起。 相反,你的用户喜欢一个易于理解、创建、上手和操作的综合产品。
Fabric 中的数据工厂 将 Power Query 的易用性与 Azure 数据工厂的规模和功能相结合。 它将这两种产品的最佳特点结合成一种独特的体验。 目标是让公民和专业数据开发人员拥有正确的数据集成工具。 数据工厂提供低代码、支持 AI 的数据准备和转换体验、PB 级转换以及具有混合和多云连接的数百个连接器。
数据工厂的三个主要功能
- 数据引入: 管道(或独立 复制作业)中的复制活动允许将 PB 字节级数据从数百个数据源移动到 Data Lakehouse 中,以便进一步处理。
- 数据转换和准备: 数据流 Gen2 提供了一个低代码接口,用于使用 300 多个数据转换来转换数据,并且能够将转换的结果加载到多个目标,例如 Azure SQL 数据库、Lakehouse 等。
- 端到端自动化: 管道提供用于协调活动的编排,包括复制、数据流、笔记本活动等。 管道中的活动可以链接在一起以按顺序运行,也可以独立运行。 整个数据集成流会自动运行,并且可以在一个位置进行监视。
教程体系结构
在接下来的 50 分钟内,完成端到端数据集成方案时,你将了解数据工厂的所有三个主要功能。
方案分为三个模块:
- 模块 1:创建包含数据工厂的管道 ,以便将数据从 Blob 存储引入到 Data Lakehouse 中的 铜 层表。
- 模块 2:使用数据工厂中的数据流转换数据 ,以处理 青铜 表的原始数据,并将其移动到 Data Lakehouse 中的 黄金 数据层表。
- 模块 3:完成第一个数据集成旅程 ,并发送电子邮件,在完成所有作业后通知你,最后,设置整个流以按计划运行。
使用示例数据集 NYC-Taxi 作为本教程的数据源。 完成后,你将能够使用 Microsoft Fabric 中的数据工厂,在特定时间内深入了解出租车费用的每日折扣信息。
后续步骤
请继续到下一章节以创建数据管道。