浏览数据团队和 Microsoft Fabric
Microsoft Fabric 的统一数据分析平台使数据专业人员更轻松地协作处理项目。 Fabric 通过消除数据孤立以及减少多系统的需求,增强数据专业人士之间的协作。
传统角色和挑战
在传统的分析开发过程中,由于数据任务和工作流的划分,数据团队经常面临多项挑战。
数据工程师为分析师处理和策展数据,然后使用该数据来创建业务报表。 此过程需要广泛的协调,往往导致延迟和误解。
在创建 Power BI 报表之前,数据分析师通常需要执行下游数据转换。 此过程非常耗时,可能缺乏必要的上下文,这使得分析师更难直接连接到数据。
数据科学家面临着将本机数据科学技术与现有系统(通常很复杂)集成的困难,并且很难有效地提供数据驱动的见解。
协作工作流的演变
Microsoft Fabric 通过将工具统一到 SaaS 平台来简化分析开发过程。 Fabric 允许不同的角色有效地协作,而无需重复工作。
数据工程师 可以使用管道将数据直接引入、转换和加载到 OneLake 中,从而自动执行工作流和支持计划。 他们可以使用 Delta-Parquet 格式将数据存储在 lakehouses 中,以便高效存储和版本控制。 笔记本为复杂转换提供高级脚本功能。
数据分析师 可以使用数据流转换上游数据,并使用 Direct Lake 模式直接连接到 OneLake,从而减少下游转换的需求。 他们可以使用 Power BI 更高效地创建交互式报表。
数据科学家 可以使用集成笔记本来支持 Python 和 Spark 来生成和测试机器学习模型。 他们可以在数据湖屋中存储和访问数据,并与 Azure 机器学习集成,以实现模型的操作化和部署。
分析工程师通过精心挑选湖屋中的数据资产、确保数据质量以及启用自助服务分析来弥合数据工程与数据分析之间的差距。 他们可以在 Power BI 中创建语义模型,以有效地组织和呈现数据。
低to-no代码用户 和 公民开发人员 可以通过 OneLake 中心发现特选数据集,并使用 Power BI 模板快速创建报表和仪表板。 它们还可以使用数据流来执行简单的 ETL 任务,而无需依赖数据工程师。