Azure Databricks 入门教程

本部分中的教程介绍了核心功能,并指导你完成使用 Azure Databricks 平台的基础知识。

要了解在线培训资源的信息,请参阅获取免费的 Databricks 培训

如果没有 Azure Databricks 帐户, 请注册免费试用版

教程 DESCRIPTION
查询和可视化数据 使用 Databricks 笔记本通过 SQL、Python、Scala 和 R 查询 Unity 目录中存储的示例数据,然后将查询结果可视化到笔记本中。
从笔记本导入和可视化 CSV 数据 使用 Databricks 笔记本通过 Python、Scala 和 R 从 https://health.data.ny.gov 包含婴儿名称数据的 CSV 文件导入 Unity 目录卷中的数据。你还将了解如何修改列名、可视化数据以及保存到表。
创建表 使用 Unity 目录数据治理模型在 Databricks 中创建表并授予特权。
使用 Lakeflow 声明性管道生成 ETL 管道 使用 Lakeflow 声明性管道和自动加载工具创建和部署 ETL(提取、转换和加载)数据编排管道。
使用 Apache Spark 生成 ETL 管道 使用 Apache Spark™ 开发和部署您的首个 ETL(提取、转换和加载)管道,用于数据编排。
训练和部署 ML 模型 使用 Databricks 上的 scikit-learn 库构建机器学习分类模型,以预测葡萄酒是否被视为“高质量”。 本教程还演示了如何使用 MLflow 跟踪模型开发过程,以及使用 Hyperopt 自动执行超参数优化。
使用无代码查询多个 LLM,并创建原型 AI 代理 使用 AI Playground 查询大型语言模型(LLM),并并行比较结果、构建工具调用 AI 代理的原型,并将代理导出到代码。
教程 详细信息
查询和可视化数据 使用 Databricks 笔记本通过 SQL、Python、Scala 和 R 查询 Unity 目录中存储的示例数据,然后将查询结果可视化到笔记本中。
从笔记本导入和可视化 CSV 数据 使用 Databricks 笔记本通过 Python、Scala 和 R 从 https://health.data.ny.gov 包含婴儿名称数据的 CSV 文件导入 Unity 目录卷中的数据。你还将了解如何修改列名、可视化数据以及保存到表。
创建表 使用 Unity 目录数据治理模型在 Databricks 中创建表并授予特权。
使用 Lakeflow 声明性管道生成 ETL 管道 使用 Lakeflow 声明性管道和 Auto Loader 为数据编排创建和部署 ETL(提取、转换和加载)管道。
使用 Apache Spark 生成 ETL 管道 使用 Apache Spark™ 开发和部署您的首个 ETL(提取、转换和加载)管道,用于数据编排。
训练和部署 ML 模型 使用 Databricks 上的 scikit-learn 库构建机器学习分类模型,以预测葡萄酒是否被视为“高质量”。 本教程还演示了如何使用 MLflow 跟踪模型开发过程,以及使用 Hyperopt 自动执行超参数优化。
使用无代码查询多个 LLM,并创建原型 AI 代理 使用 AI Playground 查询大型语言模型(LLM),并并行比较结果、构建工具调用 AI 代理的原型,并将代理导出到代码。
连接到Azure Data Lake Storage 使用 OAuth 2.0 和 Microsoft Entra ID 服务主体从 Azure Databricks 连接到 Azure Data Lake Storage。

获取帮助

  • 如果你的组织没有 Azure Databricks 支持订阅,或者你不是公司支持订阅的授权联系人,则可以从 Databricks 社区获取答案。