Azure Databricks 入门教程

2025-05-14

本部分中的教程介绍了核心功能，并指导你完成使用 Azure Databricks 平台的基础知识。

要了解在线培训资源的信息，请参阅获取免费的 Databricks 培训。

如果没有 Azure Databricks 帐户，请注册免费试用版。

教程	DESCRIPTION
查询和可视化数据	使用 Databricks 笔记本通过 SQL、Python、Scala 和 R 查询 Unity 目录中存储的示例数据，然后将查询结果可视化到笔记本中。
从笔记本导入和可视化 CSV 数据	使用 Databricks 笔记本通过 Python、Scala 和 R 从 `https://health.data.ny.gov` 包含婴儿名称数据的 CSV 文件导入 Unity 目录卷中的数据。你还将了解如何修改列名、可视化数据以及保存到表。
创建表	使用 Unity 目录数据治理模型在 Databricks 中创建表并授予特权。
使用 DLT 生成 ETL 管道	使用 DLT 和 Auto Loader 为数据编排创建和部署 ETL（提取、转换和加载）管道。
使用 Apache Spark 生成 ETL 管道	使用 Apache Spark™ 开发和部署您的首个 ETL（提取、转换和加载）管道，用于数据编排。
训练和部署 ML 模型	使用 Databricks 上的 scikit-learn 库构建机器学习分类模型，以预测葡萄酒是否被视为“高质量”。本教程还演示了如何使用 MLflow 跟踪模型开发过程，以及使用 Hyperopt 自动执行超参数优化。
使用无代码查询多个 LLM，并创建原型 AI 代理	使用 AI Playground 查询大型语言模型（LLM），并并行比较结果、构建工具调用 AI 代理的原型，并将代理导出到代码。

教程	详细信息
查询和可视化数据	使用 Databricks 笔记本通过 SQL、Python、Scala 和 R 查询 Unity 目录中存储的示例数据，然后将查询结果可视化到笔记本中。
从笔记本导入和可视化 CSV 数据	使用 Databricks 笔记本通过 Python、Scala 和 R 从 `https://health.data.ny.gov` 包含婴儿名称数据的 CSV 文件导入 Unity 目录卷中的数据。你还将了解如何修改列名、可视化数据以及保存到表。
创建表	使用 Unity 目录数据治理模型在 Databricks 中创建表并授予特权。
使用 DLT 生成 ETL 管道	使用 DLT 和 Auto Loader 为数据编排创建和部署 ETL（提取、转换和加载）管道。
使用 Apache Spark 生成 ETL 管道	使用 Apache Spark™ 开发和部署您的第一个 ETL（提取、转换和加载）管道，用于数据编排。
训练和部署 ML 模型	使用 Databricks 上的 scikit-learn 库构建机器学习分类模型，以预测葡萄酒是否被视为“高质量”。本教程还演示了如何使用 MLflow 跟踪模型开发过程，以及使用 Hyperopt 自动执行超参数优化。
使用无代码查询大型语言模型和构建 AI 代理原型	使用 AI Playground 查询大型语言模型（LLM），并并行比较结果、构建工具调用 AI 代理的原型，并将代理导出到代码。
连接到Azure Data Lake Storage	使用 OAuth 2.0 和 Microsoft Entra ID 服务主体从 Azure Databricks 连接到 Azure Data Lake Storage。

获取帮助

如果你对设置 Azure Databricks 有任何疑问并需要获取实时帮助，请发送电子邮件至 onboarding-help@databricks.com。

如果你的组织没有 Azure Databricks 支持订阅，或者你不是公司支持订阅的授权联系人，则可以从 Databricks 社区获取答案。