数据科学端到端方案:简介和体系结构

这些教程在 Fabric 数据科学体验中提供了完整的端到端方案。 它们涵盖了每个步骤,从

  • 数据引入
  • 数据清理
  • 数据准备工作

  • 机器学习模型训练
  • 洞察生成

然后通过可视化工具(例如 Power BI)使用这些见解。

Microsoft Fabric 的新用户应访问什么是 Microsoft Fabric?

介绍

数据科学项目生命周期通常包括以下步骤:

  • 了解业务规则
  • 获取数据
  • 浏览、清理、准备和可视化数据
  • 训练模型并跟踪试验
  • 为模型评分并生成见解

这些步骤通常以迭代方式继续。 每个阶段的目标和成功条件取决于协作、数据共享和文档。 Fabric 数据科学体验涉及多个本机构建的功能,这些功能可实现无缝协作、数据收集、共享和使用。

这些教程使你能够担任数据科学家的角色,该科学家必须浏览、清理和转换包含 10,000 个银行客户的流失状态的数据集。 然后,你构建一个机器学习模型来预测哪些银行客户可能会离开。

在教程中执行以下活动:

  1. 将 Fabric 笔记本用于数据科学方案
  2. 使用 Apache Spark 将数据引入 Fabric Lakehouse
  3. 从湖屋 Delta 表加载现有数据
  4. 使用基于 Apache Spark 和基于 Python 的工具清理和转换数据
  5. 创建试验并运行以训练不同的机器学习模型
  6. 使用 MLflow 和 Fabric UI 注册和跟踪训练的模型
  7. 大规模运行评分,并将预测和推理结果保存到湖屋
  8. 使用 DirectLake 在 Power BI 中可视化预测

建筑

本教程系列展示了一个简化的端到端数据科学方案,涉及:

  1. 从外部数据源引入数据
  2. 数据浏览和清理
  3. 机器学习模型训练和注册
  4. 批量评分和保存预测结果
  5. Power BI 中的预测结果可视化

数据科学端到端方案组件的示意图。

数据科学方案的不同组件

数据源 - 若要使用 Fabric 引入数据,可以轻松快速地连接到 Azure Data Services、其他云平台和本地数据资源。 使用 Fabric Notebook,可以从以下资源引入数据:

  • 内置湖屋
  • 数据仓库
  • 语义模型
  • 各种 Apache Spark 数据源
  • 支持 Python 的各种数据源

本系列教程重点介绍如何从湖屋引入和加载数据。

探索、清理和准备 - Fabric 数据科学体验支持数据清理、转换、探索和特征化。 它使用内置的 Spark 体验和基于 Python 的工具,例如 Data Wrangler 和 SemPy 库。 本教程展示了 Python seaborn 库的数据浏览,以及 Apache Spark 的数据清理和准备。

模型和试验 - 使用 Fabric,可以使用内置试验训练、评估和评分机器学习模型。 为了注册和部署模型并跟踪试验,MLflow 提供与 Fabric 的无缝集成,以作为建模项目的方法。 为了生成和共享业务见解,Fabric 提供了用于大规模模型预测的其他功能(PREDICT),用于生成和共享业务见解。

存储 - Fabric 在 Delta Lake 上标准化,这意味着所有 Fabric 引擎都可以与存储在 Lakehouse 中的相同数据集进行交互。 使用该存储层,可以存储支持基于文件的存储和表格格式的结构化和非结构化数据。 可以通过所有 Fabric 体验项(例如笔记本和管道)轻松访问数据集和存储的文件。

展示分析和见解 - Power BI 这款行业领先的商业智能工具可以使用湖屋数据生成报表和可视化效果。 在笔记本资源中,Python 或 Spark 的本机可视化库

  • matplotlib
  • seaborn
  • plotly
  • 等。

可以可视化湖屋中持久保存的数据。 SemPy 库还支持数据可视化。 此库支持内置的丰富且专门用于特定任务的可视化效果

  • 语义数据模型
  • 依赖项及其冲突项
  • 分类和回归用例

下一步