本页介绍如何在 Azure Databricks 中导入和导出笔记本,以及 Azure Databricks 支持的笔记本格式。
支持的笔记本格式
Databricks 可以导入和导出以下格式的笔记本:
- 源文件:一个具有
.scala
、.py
、.sql
或.r
扩展名的文件,其中仅包含源代码语句。 - HTML:一个具有
.html
扩展名的 Azure Databricks 笔记本。 - Databricks
.dbc
存档。 - IPython 笔记本:一个具有 扩展名的
.ipynb
。 - RMarkdown:一个具有 扩展名的
.Rmd
。
导入笔记本
可以从 URL 或文件导入外部笔记本。 还可以导入从 Azure Databricks 工作区批量导出的笔记本的 ZIP 存档。
- 在边栏中单击
“工作区”。 执行下列操作之一:
- 右键点击文件夹,然后选择“导入”。
- 若要在当前工作区文件夹的顶层导入笔记本,请点击右上角的 kebab 菜单,然后选择“导入”。
- 指定 URL 或浏览到一个包含受支持的外部格式的文件或一个从 Azure Databricks 工作区导出的笔记本的 ZIP 存档。
- 单击“导入”。
- 如果选择单个笔记本,它会导出到当前文件夹中。
- 如果选择 DBC 或 ZIP 存档,则会在当前文件夹中重新创建其文件夹结构并导入每个笔记本。
将文件转换为笔记本
如果工作区中的资产具有.ipynb
扩展,或包含第一行注释中的字符串Databricks notebook source
,并且具有以下扩展名之一,则工作区中的资产将标识为笔记本。 .py
.r
.scala
.sql
更改这些条件的笔记本或文件的任何写入或重命名,也会更改笔记本或文件的类型。 例如,如果一个文件 myfile.txt myfile.txt
,其中包含 Databricks 笔记本源代码 # Databricks notebook source
作为第一行,将该文件重命名为 myfile.py myfile.py
,以将其转换为笔记本。
注意
在文件和笔记本类型之间进行转换可能会产生意外的结果,因为笔记本具有特定的 IPYNB 或源格式。 请参阅笔记本格式。
若要将 Python、SQL、Scala 和 R 脚本转换为单单元格笔记本,请将注释添加到文件的第一个单元格:
Python语言
# Databricks notebook source
SQL
-- Databricks notebook source
Scala(编程语言)
// Databricks notebook source
R
# Databricks notebook source
若要在脚本中定义单元格,请使用下面所示的特殊注释。 将脚本导入 Databricks 时,将创建由 COMMAND
行标记的单元格,如下所示。
Python语言
# COMMAND ----------
SQL
-- COMMAND ----------
Scala(编程语言)
// COMMAND ----------
R
# COMMAND ----------
导出笔记本
注意
如果你将笔记本导出为 HTML、IPython 笔记本 (.ipynb) 或存档 (DBC),且尚未清除命令输出,则输出将包含在导出中。
若要导出笔记本,请在笔记本工具栏中选择“文件”>“导出”,然后选择导出格式。
将工作区文件夹中的所有文件夹导出为 ZIP 存档:
在边栏中单击
“工作区”。
右键点击文件夹,然后选择“导入”。
选择导出格式:
- DBC 存档:导出 Databricks 存档,这是一种包含元数据和笔记本命令输出的二进制格式。
- 源文件:导出笔记本源文件的 ZIP 存档,可将其导入 Azure Databricks 工作区、在 CI/CD 管道中使用,或使用每个笔记本的默认语言以源文件形式查看。 不包含笔记本命令输出。
- HTML 存档:导出 HTML 文件的 ZIP 存档。 每个笔记本的 HTML 文件都可以导入到 Azure Databricks 工作区或以 HTML 格式查看。 包含笔记本命令输出。