本文介绍 Azure Databricks 中的默认笔记本格式、如何更改笔记本格式,以及如何在笔记本位于源代码管理文件夹中时管理输出提交。
默认情况下,Databricks 中的笔记本以 .ipynb
(IPython 或 Jupyter)格式创建。 还可以选择改用源格式。
你仍然可以以各种格式导入和导出笔记本。 请参阅导出和导入 Databricks 笔记本。
笔记本格式
Databricks 支持以两种格式创建和编辑笔记本:IPYNB(默认)和源。
可以使用 Git 文件夹管理源文件,包括笔记本。 Git 文件夹中仅支持某些 Databricks 资产类型 。 格式会影响笔记本提交到远程存储库的方式,如下表所述。
笔记本源格式 | DESCRIPTION |
---|---|
来源 | 仅捕获源代码的基本格式,后缀表示代码语言,例如.py ,.scala .r 和.sql 。 |
IPYNB (Jupyter) | 这是一种能够捕获源代码、笔记本环境、可视化定义、笔记本小组件和可选输出的丰富格式。 IPYNB 笔记本可以包含 Databricks 笔记本支持的任何语言的代码(即使 py 是 .ipynb 的一部分)。 使用 IPYNB 格式时,可以选择对笔记本的输出和笔记本本身进行版本控制。 |
IPYNB 格式还支持为远程 Git 存储库上的 Databricks 笔记本提供更好的查看体验。 如果使用 GitHub 或 GitLab,则可以启用在拉取请求中增强笔记本差异的功能,以便更轻松地查看和评审笔记本的更改。
若要详细了解 GitHub 对 IPYNB 笔记本富差异的支持,请参阅功能预览:富 Jupyter Notebook 差异。 若要详细了解 GitLab 对 IPYNB 笔记本差异的支持,请参阅 Jupyter Notebook 文件。
为了区分源格式笔记本与常规 Python、Scala 和 SQL 文件,Azure Databricks 将注释“Databricks notebook source
添加到 Python、Scala 和 SQL 笔记本的顶部。 此注释可确保 Azure Databricks 将文件正确分析为笔记本而不是脚本文件。
更改默认笔记本格式设置
在 Azure Databricks 上创建新笔记本时,IPYNB 笔记本是默认格式。
若要将默认值更改为 Azure Databricks 源格式,请登录到 Azure Databricks 工作区,单击页面右上角的配置文件,然后单击“设置”并导航到“开发人员”。 在“编辑器设置”标题下更改笔记本格式的默认设置。
转换笔记本格式
可以通过 Azure Databricks UI 将现有笔记本转换为另一种格式。
将现有笔记本转换为另一种格式:
在工作区中打开笔记本。
从工作区菜单中选择 “文件 ”,选择 “笔记本格式”,然后选择所需的格式。 您可以选择 Jupyter(.ipynb)(推荐) 或 Source(.scala,.py,.sql,.r)。 笔记本的当前格式灰显,旁边带有复选标记。
有关 Azure Databricks 中支持的笔记本类型的详细信息,请参阅 导出和导入 Databricks 笔记本。
管理 IPYNB 笔记本输出提交
输出是在 Databricks 平台上运行笔记本的结果,包括表格显示和可视化效果。 对于源代码管理文件夹中的 IPYNB 笔记本,可以管理将笔记本输出提交到远程存储库的方式。
允许提交 .ipynb
笔记本输出
仅当工作区管理员已启用此功能时,才能提交输出。 默认情况下,Git 文件夹的管理设置不允许提交 .ipynb
笔记本输出。 如果你拥有工作区的管理员权限,可以更改此设置:
转到 Azure Databricks 管理员控制台中的 “管理员设置>工作区”设置 。
在 Git 文件夹下,选择“允许 Git 文件夹导出 IPYNB 输出”,然后选择“允许:IPYNB 输出可以打开”。
重要
当包含输出时,可视化效果和仪表板配置会包含在创建的 .ipynb
笔记本中。
控制 IPYNB 笔记本输出工件提交
提交 .ipynb
文件时,Databricks 会创建配置文件,让你控制提交输出的方式:.databricks/commit_outputs
。
如果远程存储库中有
.ipynb
笔记本文件,但没有配置文件,请打开“Git 状态”对话框。在通知对话框中,选择“ 创建commit_outputs配置文件”。
还可以从“文件”菜单生成配置文件。 “文件”菜单具有相关控件,可用于自动更新配置文件,以指定是包含还是排除特定 IPYNB 笔记本的输出。
在“文件”菜单中,选择“提交笔记本输出”。
在对话框中,确认提交笔记本输出的选择。