Azure Databricks 入门教程

本部分中的教程介绍了核心功能,并指导你完成使用 Azure Databricks 平台的基础知识。

要了解在线培训资源的信息,请参阅获取免费的 Databricks 培训

如果没有 Azure Databricks 帐户, 请注册免费试用版

教程 DESCRIPTION
查询和可视化数据 使用 Databricks 笔记本通过 SQL、Python、Scala 和 R 查询 Unity 目录中存储的示例数据,然后将查询结果可视化到笔记本中。
从笔记本导入和可视化 CSV 数据 使用 Databricks 笔记本通过 Python、Scala 和 R 从 https://health.data.ny.gov 包含婴儿名称数据的 CSV 文件导入 Unity 目录卷中的数据。你还将了解如何修改列名、可视化数据以及保存到表。
创建表 使用 Unity 目录数据治理模型在 Databricks 中创建表并授予特权。
使用 DLT 生成 ETL 管道 使用 DLT 和 Auto Loader 为数据编排创建和部署 ETL(提取、转换和加载)管道。
使用 Apache Spark 生成 ETL 管道 使用 Apache Spark™ 开发和部署您的首个 ETL(提取、转换和加载)管道,用于数据编排。
训练和部署 ML 模型 使用 Databricks 上的 scikit-learn 库构建机器学习分类模型,以预测葡萄酒是否被视为“高质量”。 本教程还演示了如何使用 MLflow 跟踪模型开发过程,以及使用 Hyperopt 自动执行超参数优化。
使用无代码查询多个 LLM,并创建原型 AI 代理 使用 AI Playground 查询大型语言模型(LLM),并并行比较结果、构建工具调用 AI 代理的原型,并将代理导出到代码。
教程 详细信息
查询和可视化数据 使用 Databricks 笔记本通过 SQL、Python、Scala 和 R 查询 Unity 目录中存储的示例数据,然后将查询结果可视化到笔记本中。
从笔记本导入和可视化 CSV 数据 使用 Databricks 笔记本通过 Python、Scala 和 R 从 https://health.data.ny.gov 包含婴儿名称数据的 CSV 文件导入 Unity 目录卷中的数据。你还将了解如何修改列名、可视化数据以及保存到表。
创建表 使用 Unity 目录数据治理模型在 Databricks 中创建表并授予特权。
使用 DLT 生成 ETL 管道 使用 DLT 和 Auto Loader 为数据编排创建和部署 ETL(提取、转换和加载)管道。
使用 Apache Spark 生成 ETL 管道 使用 Apache Spark™ 开发和部署您的第一个 ETL(提取、转换和加载)管道,用于数据编排。
训练和部署 ML 模型 使用 Databricks 上的 scikit-learn 库构建机器学习分类模型,以预测葡萄酒是否被视为“高质量”。 本教程还演示了如何使用 MLflow 跟踪模型开发过程,以及使用 Hyperopt 自动执行超参数优化。
使用无代码查询大型语言模型和构建 AI 代理原型 使用 AI Playground 查询大型语言模型(LLM),并并行比较结果、构建工具调用 AI 代理的原型,并将代理导出到代码。
连接到Azure Data Lake Storage 使用 OAuth 2.0 和 Microsoft Entra ID 服务主体从 Azure Databricks 连接到 Azure Data Lake Storage。

获取帮助

  • 如果你的组织没有 Azure Databricks 支持订阅,或者你不是公司支持订阅的授权联系人,则可以从 Databricks 社区获取答案。