教程:在工作区中创建和部署捆绑包

重要

工作区中的 Databricks 资产捆绑包处于 公共预览阶段

为了帮助你开始在工作区中使用 Databricks 资产捆绑包,本教程将引导你创建包含作业的捆绑包、部署该捆绑包并在捆绑包中运行作业 ( 全部来自工作区)。

有关在工作区中使用捆绑包的要求,请参阅 工作区要求中的 Databricks 资产捆绑包

有关捆绑包的详细信息,请参阅 什么是 Databricks 资产捆绑包?

创建捆绑包

首先,在 Databricks 工作区中创建捆绑包:

  1. 导航到要在其中创建捆绑包的 Git 文件夹。

  2. 单击“创建”按钮,然后单击“资产捆绑”。 或者,右键单击工作区树中的 Git 文件夹或其关联的 kebab,然后单击“ 创建>资产捆绑包”:

    创建资产捆绑包

  3. “创建资产捆绑包 ”对话框中,为资产捆绑包命名,例如 完全真棒捆绑包。 捆绑名称只能包含字母、数字、短划线和下划线。 选择 “空项目”。

    “创建新资产捆绑包”对话框

  4. 单击 “创建”

    新资产捆绑包

这会在 Git 文件夹中创建一个初始捆绑包,其中包括 .gitignore Git 配置文件和所需的 Databricks 资产捆绑包 databricks.yml 文件。 该文件 databricks.yml 包含捆绑包的主配置。 有关详细信息,请参阅 Databricks 资产捆绑包配置

定义运行笔记本的作业

接下来,将运行笔记本的任务添加到包中。 以下示例中的笔记本打印“Hello World!”。

  1. 单击创建笔记本项目磁贴。 或者,单击目录中捆绑包的烤肉串,然后单击“ 创建>笔记本”。

  2. 将笔记本重命名为 helloworld

  3. 将笔记本的语言设置为 Python,并将以下内容粘贴到笔记本的单元格中:

    print("Hello World!")
    
  4. 单击捆绑包的部署图标以切换到 “部署 ”面板。

    “部署”面板图标

  5. “捆绑资源”下,单击“ 创建”,然后单击 “创建新作业定义”。

    创建作业定义

  6. “创建作业定义”对话框的“作业名称”字段中键入 Run-notebook。 单击 “创建” 。 创建了一个作业定义文件 run-notebook.job.yml ,其中包含作业的基本 YAML,以及一些附加的、已注释掉的作业示例 YAML。

  7. 现在,将笔记本任务添加到作业定义。 将以下 YAML 复制并粘贴到 run-notebook.job.yml 文件中,替换基本 YAML:

    resources:
      jobs:
        run_notebook:
          name: run-notebook
          queue:
            enabled: true
          tasks:
            - task_key: my-notebook-task
              notebook_task:
                notebook_path: ../helloworld.ipynb
    

    作业笔记本任务配置 YAML

有关在 YAML 中定义作业的详细信息,请参阅 作业。 有关其他支持的作业任务类型的 YAML 语法,请参阅 在 Databricks 资产捆绑包中向作业添加任务

部署捆绑包

接下来,部署捆绑包并运行包含 helloworld 笔记本任务的作业。

  1. “目标”捆绑包的“部署”窗格中,单击下拉列表以选择dev目标工作区(如果尚未选择)。 目标工作区在捆绑包的targets映射的databricks.yml中定义。 请参阅 Databricks 资产捆绑包部署模式

    选择目标部署

  2. 单击“ 部署 ”按钮。 捆绑包经过验证,验证详细信息将显示在对话框中。

  3. 查看此 “部署到开发 确认”对话框中的部署详细信息,然后单击“ 部署”。

    部署到开发对话框

    重要

    部署捆绑包并运行捆绑包资源以当前用户身份执行代码。 请确保信任捆绑包中的代码,包括 YAML,其中包含运行命令的配置设置。

部署的状态将输出到 “项目输出” 窗口。

运行作业

已部署的捆绑包资源在 捆绑资源下列出。 单击与作业资源关联的播放图标以运行它。

列出已部署的资源

导航到 作业从 左侧导航栏运行以查看捆绑包运行。 捆绑作业运行的名称有前缀,例如 [dev someone] run-notebook

后续步骤