在 Databricks 上进行开发

Databricks 开发人员用户包括数据科学家、数据工程师、数据分析师、机器学习工程师以及 DevOps 和 MLOps 工程师 - 全部都会构建解决方案和集成以扩展和自定义 Databricks,满足自己特定需求。 除了工作区中提供的许多 Databricks API 和数据工程功能外,还有许多工具可用于连接到 Databricks 并在本地进行开发,以支持 Databricks 的开发人员用户。

本文概述了 Databricks 开发人员用户可用的 API 和工具。

开始在工作区中进行编码

在工作区中进行开发是快速熟悉 Databricks API 的好方法。 Databricks 支持工作区中 Python、SQL、Scala、R 和其他以开发人员为中心的功能,包括有用的工具和实用程序。

下面是一些入门方式:

生成自定义应用和解决方案

Azure Databricks 为工作区和本地开发提供了工具。 在工作区中,可以使用 UI 创建应用,数据可以在 Unity 目录卷和工作区文件中轻松访问,仅限工作区的功能(如用于调试的 Databricks Assistant)是可用的,其他功能(如笔记本)全面完善,并且可以通过 Git 文件夹实现源代码管理。

或者,可以在本地计算机上使用 IDE 开发自定义解决方案,以充分利用丰富开发环境的完整功能。 本地开发支持更广泛的语言,这意味着调试和测试框架等依赖于语言的功能可支持大型项目,同时可以直接访问源代码管理。

有关工具使用建议,请参阅应使用哪个开发人员工具?

功能 说明
身份验证和授权 为工具、脚本和应用配置身份验证和授权,以便与 Azure Databricks 协同工作。
Databricks 应用 在 Databricks 平台上创建可与其他用户共享的安全数据和 AI 自定义应用程序。
适用于 Visual Studio Code 的 Databricks 扩展 Visual Studio Code 连接到远程 Azure Databricks 工作区以轻松配置与 Databricks 工作区的连接,并使用 UI 管理 Databricks 资源。
PyCharm Databricks 插件 配置连接到远程 Databricks 工作区,并通过 PyCharm 在 Databricks 群集上执行文件。 此插件由 JetBrains 与 Databricks 合作开发和提供。
Databricks SDK 使用 SDK 自动与 Databricks 交互,而不是直接调用 REST API。 工作区中也提供了 SDK。

连接到 Databricks

许多集成和解决方案都必须连接到 Databricks,而 Databricks 提供了大量可供选择的连接工具。 下表提供了将开发环境和进程连接到 Azure Databricks 工作区和资源的工具。

功能 说明
Databricks Connect 使用常用的集成开发环境(例如 PyCharm、IntelliJ IDEA、Eclipse、RStudio 和 JupyterLab)连接到 Azure Databricks。
适用于 Visual Studio Code 的 Databricks 扩展 轻松配置与 Databricks 工作区的连接,以及用于管理 Databricks 资源的 UI。
SQL 驱动程序和工具 连接到 Azure Databricks 以运行 SQL 命令和脚本,以编程方式与 Azure Databricks 交互,并将 Azure Databricks SQL 功能集成到以 Python、Go、JavaScript 和 TypeScript 等常用语言编写的应用程序中。

提示

也可以将许多其他的常用的第三方工具连接到群集和 SQL 仓库,以访问 Azure Databricks 中的数据。 请参阅技术合作伙伴

管理基础结构和资源

构建 CI/CD 管道以自动预配和管理基础结构和资源的开发者和数据工程师可以从以下工具中选择,这些工具同时支持简单和更复杂的管道应用场景。

有关工具使用建议,请参阅应使用哪个开发人员工具?

功能 说明
Databricks CLI 使用 Databricks 命令行接口 (CLI) 访问 Azure Databricks 功能。 CLI 包装 Databricks REST API,因此可以使用 Databricks CLI 与 Databricks 交互,而不是使用 curl 或 Postman 直接发送 REST API 调用。 从本地终端或者从工作区 Web 终端使用 CLI。
Databricks 资产捆绑包 定义和管理 Databricks 资源和 CI/CD 管道,使用 Databricks CLI 的功能之一——Databricks 资产捆绑包,结合行业标准的开发、测试和部署最佳实践,来推动您的数据和 AI 项目。
Databricks Terraform 提供程序适用于 Databricks 的 Terraform CDKTF 使用 Terraform提供 Azure Databricks 基础设施和资源。
CI/CD 工具 集成常用的 CI/CD 系统和框架,例如 GitHub ActionsJenkinsApache Airflow

协作和共享代码

在工作区的许多其他协作功能中,Databricks 特别支持希望通过这些功能在工作区中协作和共享代码的开发人员用户:

功能 说明
UDF 开发 UDF(用户定义的函数)以重复使用和共享代码。
Git 文件夹 配置 Git 文件夹以便对 Databricks 项目文件进行版本控制和源代码管理。

与 Databricks 开发人员社区互动

Databricks 有一个活跃的开发人员社区,由以下程序和资源支持:

  • Databricks 最有价值专家:此计划旨在表彰那些在数据和 AI 社区中具有杰出贡献的社区成员、数据科学家、数据工程师、开发人员和开源爱好者。 有关详细信息,请参阅 Databricks MVP
  • 培训:Databricks 为 Apache Spark 开发者生成式 AI 工程师数据工程师等提供学习模块。
  • 社区:Databricks 社区Apache Spark 社区提供了丰富的知识。