数据工厂端到端方案：简介和体系结构

2025-05-21

本教程通过提供一小时内的完整数据集成方案的步骤，帮助加快 Microsoft Fabric 中数据工厂的评估过程。本教程结束时，你将了解数据工厂的价值和关键功能，并了解如何完成常见的端到端数据集成方案。

此方案分为简介和三个模块：

本教程简介以及为何应在 Microsoft Fabric 中使用数据工厂。
模块 1：使用 Data Factory 创建管道，以将原始数据从 Blob 存储摄取到数据 Lakehouse 中的 Bronze 数据层表。
模块 2：使用数据工厂中的数据流转换数据，以处理青铜表的原始数据，并将其移动到 Data Lakehouse 中的黄金数据层表。
模块 3：完成第一个数据集成旅程，并发送电子邮件，在完成所有作业后通知你，最后，设置整个流以按计划运行。

Microsoft Fabric 中为何选择数据工厂？

Microsoft Fabric 为企业的所有分析需求提供单一平台。它涵盖了各种分析，包括数据移动、数据湖、数据工程、数据集成、数据科学、实时分析和商业智能。使用 Fabric 时，无需将多个供应商的不同服务拼凑在一起。相反，你的用户喜欢一个易于理解、创建、上手和操作的综合产品。

Fabric 中的数据工厂 将 Power Query 的易用性与 Azure 数据工厂的规模和功能相结合。它将这两种产品的最佳特点结合成一种独特的体验。目标是让公民和专业数据开发人员拥有正确的数据集成工具。数据工厂提供低代码、支持 AI 的数据准备和转换体验、PB 级转换以及具有混合和多云连接的数百个连接器。

数据工厂的三个主要功能

数据引入： 管道（或独立复制作业）中的复制活动允许将 PB 字节级数据从数百个数据源移动到 Data Lakehouse 中，以便进一步处理。
数据转换和准备： 数据流 Gen2 提供了一个低代码接口，用于使用 300 多个数据转换来转换数据，并且能够将转换的结果加载到多个目标，例如 Azure SQL 数据库、Lakehouse 等。
端到端自动化： 管道提供用于协调活动的编排，包括复制、数据流、笔记本活动等。管道中的活动可以链接在一起以按顺序运行，也可以独立运行。整个数据集成流会自动运行，并且可以在一个位置进行监视。

教程体系结构

在接下来的 50 分钟内，完成端到端数据集成方案时，你将了解数据工厂的所有三个主要功能。

方案分为三个模块：

模块 1：创建包含数据工厂的管道，以便将数据从 Blob 存储引入到 Data Lakehouse 中的铜层表。
模块 2：使用数据工厂中的数据流转换数据，以处理青铜表的原始数据，并将其移动到 Data Lakehouse 中的黄金数据层表。
模块 3：完成第一个数据集成旅程，并发送电子邮件，在完成所有作业后通知你，最后，设置整个流以按计划运行。

教程的数据流和模块的关系图。

使用示例数据集 NYC-Taxi 作为本教程的数据源。完成后，你将能够使用 Microsoft Fabric 中的数据工厂，在特定时间内深入了解出租车费用的每日折扣信息。

后续步骤

请继续到下一章节以创建数据管道。

模块 1：使用数据工厂创建管道

通过

数据工厂端到端方案：简介和体系结构

Microsoft Fabric 中为何选择数据工厂？

数据工厂的三个主要功能

教程体系结构

后续步骤

反馈

其他资源