本部分包含 DLT Python 编程接口的详细信息。
- 有关概念信息和使用 Python 进行 DLT 的概述,请参阅 使用 Python 开发管道代码。
- 有关 SQL 参考,请参阅 DLT SQL 语言参考。
- 有关配置自动加载程序的详细信息,请参阅什么是自动加载程序?。
dlt
模块概述
DLT Python 函数在 dlt
模块中定义。 利用 Python API 实现的管道必须导入此模块:
import dlt
定义数据集的函数
DLT 使用 Python 修饰器来定义具体化视图和流式处理表等数据集。 请参阅 Functions 来定义数据集。
API 参考
Python DLT 注意事项
使用 DLT Python 接口实现管道时,需要注意以下事项:
- DLT 评估在规划和管道运行期间多次定义管道的代码。 定义数据集的 Python 函数应仅包含定义表或视图所需的代码。 数据集定义中包含的任意 Python 逻辑可能会导致意外行为。
- 不要尝试在数据集定义中实现自定义监视逻辑。 请参阅 使用事件挂钩定义 DLT 管道的自定义监视。
- 用于定义数据集的函数必须返回 Spark 数据帧。 不要在数据集定义中包含与返回的数据帧无关的逻辑。
- 切勿在 DLT 数据集代码中使用执行保存或写入文件或表的方法。
不应在 DLT 代码中使用的 Apache Spark 操作示例:
collect()
count()
toPandas()
save()
saveAsTable()
start()
toTable()