什么是 Microsoft Fabric 中的数据科学?

对于数据扩充和业务见解,Microsoft Fabric 提供了数据科学体验,使用户能够构建端到端的数据科学工作流。 可以在整个数据科学过程中完成各种活动:

  • 数据研究
  • 数据准备
  • 数据清除
  • 实验
  • 建模
  • 模型评分
  • 为 BI 报表提供预测见解

Microsoft Fabric 用户可以访问 Data Science 主页。 然后,他们可以发现和访问各种相关资源,如以下屏幕截图所示:

数据科学主页的屏幕截图。

大多数机器学习项目都遵循数据科学过程。 概括而言,此过程涉及以下步骤:

  • 问题构建和构思
  • 数据发现和预处理
  • 试验和建模
  • 扩充和实施
  • 构建见解

数据科学过程示意图。

本文从数据科学过程的角度介绍了 Microsoft Fabric 数据科学功能。 对于数据科学过程中的每一步,本文总结了可帮助Microsoft Fabric 功能。

问题表述和理念

Microsoft Fabric 中的数据科学用户与业务用户和分析人员在同一平台上工作。 因此,不同角色之间的数据共享和协作变得更加无缝。 分析师可以轻松地与数据科学从业者共享 Power BI 报表和数据集。 在 Microsoft Fabric 中,跨角色的协作使得问题制定阶段的交接更加轻松。

数据发现和预处理

Microsoft Fabric 用户可以使用 Lakehouse 资源与 OneLake 中的数据进行交互。 若要浏览数据并与之交互,Lakehouse 可以轻松附加到笔记本。 用户可以轻松地将数据从 Lakehouse 直接读取到 Pandas 数据帧中。 对于探索而言,从 OneLake 无缝读取数据便成为可能。

通过数据集成管道(Microsoft Fabric 的本机集成组件),可将一组功能强大的工具用于数据引入和数据业务流程管道。 易于构建的数据管道可以访问数据并将其转换为机器学习可以使用的格式。

数据探索

机器学习过程的一个重要部分涉及通过浏览和可视化了解数据。

根据数据存储位置,Microsoft Fabric 提供了用于浏览和准备用于分析和机器学习的数据的工具。 笔记本本身就变得高效、有效的数据浏览工具。

用于数据准备的 Apache Spark 和 Python

Microsoft Fabric 可以大规模转换、准备和浏览数据。 借助 Spark,用户可以使用 PySpark/Python、Scala 和 SparkR/SparklyR 工具大规模预处理数据。 强大的开源可视化库可以增强数据浏览体验,以便更好地了解数据。

用于无缝数据清理的数据整理器

为了使用 Data Wrangler,Microsoft Fabric Notebook 体验添加了一项代码工具功能,用于准备数据和生成 Python 代码。 利用这种体验,可以轻松加速繁琐和平凡的任务,例如数据清理。 借助它,还可以通过生成的代码生成自动化和可重复性。 在本文档的 Data Wrangler 部分中了解有关 Data Wrangler 的详细信息。

试验和 ML 建模

借助 PySpark/Python 和 SparklyR/R 等工具,笔记本可以处理机器学习模型训练。 机器学习算法和库可以帮助训练机器学习模型。 库管理工具可以安装这些库和算法。 然后,用户可以使用常用的机器学习库在 Microsoft Fabric 中完成其 ML 模型训练。 此外,Scikit Learn 等常用库还可以开发模型。

MLflow 试验和运行可以跟踪 ML 模型训练。 若要记录试验和模型,Microsoft Fabric 提供了支持交互的内置 MLflow 体验。 详细了解如何使用 MLflow 跟踪试验和管理 Microsoft Fabric 中的模型。

SynapseML

Microsoft拥有并运行 SynapseML(以前称为 MMLSpark)开源库。 它简化了大规模可缩放的机器学习管道创建。 作为工具生态系统,它将 Apache Spark 框架扩展到多个新方向。 SynapseML 将多个现有的机器学习框架和新Microsoft算法统一到一个可缩放的 API 中。 开源 SynapseML 库包含丰富的 ML 工具生态系统,用于预测模型开发,并使用来自 Azure AI 服务的预先训练的 AI 模型。 有关详细信息,请访问 SynapseML 资源。

扩充和实施

笔记本可以使用开源库处理机器学习模型批处理评分,以便进行预测。 它们还可以处理 Microsoft Fabric 可缩放的通用 Spark Predict 函数。 此函数支持 Microsoft Fabric 模型注册表中的 MLflow 打包模型。

获取见解

在 Microsoft Fabric 中,可以轻松地将预测值写入 OneLake。 从那里,Power BI 报表可以无缝使用它们,并采用 Power BI Direct Lake 模式。 然后,数据科学从业者可以轻松地与利益相关者共享其工作成果,并简化运营化过程。

可以使用笔记本调度功能来安排运行包含批量评分的笔记本。 也可以将批量评分作为数据管道活动或 Spark 作业的一部分进行计划。 在 Microsoft Fabric 中使用 Direct Lake 模式,Power BI 会自动获取最新的预测,而无需加载或刷新数据。

在有意义的分析开始之前,数据科学家和企业分析师花费大量时间尝试理解、清理和转换数据。 业务分析师通常使用语义模型,并将其域知识和业务逻辑编码为 Power BI 度量值。 另一方面,数据科学家可以使用相同的数据,但通常在不同的代码环境或语言中。 借助语义链接,数据科学家可以通过 SemPy Python 库在 Microsoft Fabric 体验中与 Power BI 语义模型与 Synapse 数据科学之间建立连接。 为了简化数据分析,SemPy 捕获并使用数据语义,因为用户对语义模型执行各种转换。 数据科学家使用语义链接时可以执行的操作

  • 避免在其代码中重新实现业务逻辑和域知识
  • 在代码中轻松访问和使用 Power BI 度量值
  • 使用语义为新体验提供支持 - 例如语义函数
  • 浏览和验证数据之间的功能依赖关系和关系

组织使用 SemPy 时可以预期的结果

  • 提高工作效率,并加快基于相同数据集运作的团队之间的协作速度。
  • 增强了商业智能和 AI 团队之间的协作
  • 在载入新模型或数据集时,减少了歧义和更简单的学习曲线

有关语义链接的详细信息,请访问 什么是语义链接? 资源。