DLT Python 语言参考

本部分包含 DLT Python 编程接口的详细信息。

dlt 模块概述

DLT Python 函数在 dlt 模块中定义。 利用 Python API 实现的管道必须导入此模块:

import dlt

定义数据集的函数

DLT 使用 Python 修饰器来定义具体化视图和流式处理表等数据集。 请参阅 Functions 来定义数据集

API 参考

Python DLT 注意事项

使用 DLT Python 接口实现管道时,需要注意以下事项:

  • DLT 评估在规划和管道运行期间多次定义管道的代码。 定义数据集的 Python 函数应仅包含定义表或视图所需的代码。 数据集定义中包含的任意 Python 逻辑可能会导致意外行为。
  • 不要尝试在数据集定义中实现自定义监视逻辑。 请参阅 使用事件挂钩定义 DLT 管道的自定义监视
  • 用于定义数据集的函数必须返回 Spark 数据帧。 不要在数据集定义中包含与返回的数据帧无关的逻辑。
  • 切勿在 DLT 数据集代码中使用执行保存或写入文件或表的方法。

不应在 DLT 代码中使用的 Apache Spark 操作示例:

  • collect()
  • count()
  • toPandas()
  • save()
  • saveAsTable()
  • start()
  • toTable()