OutputTabularDatasetConfig 类

表示如何复制运行的输出并将其提升为 TabularDataset。

初始化 OutputTabularDatasetConfig。

构造函数

OutputTabularDatasetConfig(**kwargs)

注解

不应直接调用此构造函数，而是应创建 OutputFileDatasetConfig，然后调用相应的 read_* 方法将其转换为 OutputTabularDatasetConfig。

输出复制到 OutputTabularDatasetConfig 的目标的方式与 OutputFileDatasetConfig 相同。它们的区别在于，创建的数据集将是包含所有指定转换的 TabularDataset。

方法

as_input	指定如何在后续管道步骤中使用输出作为输入。
as_mount	设置要装载的输出模式。对于装载模式，输出目录将是 FUSE 装载的目录。文件关闭时，将上传写入已装载目录的文件。
as_upload	设置要上传的输出模式。对于上传模式，写入到输出目录的文件将在作业结束时上传。如果作业失败或被取消，则不会上传输出目录。
drop_columns	从数据集中删除指定的列。
keep_columns	保留指定的列并删除数据集中的所有其他列。
random_split	将数据集中的记录随机拆分为两个部分，大致按指定的百分比进行拆分。生成的输出配置将更改其名称，第一个配置将 _1 追加到名称，第二个配置将 _2 追加到名称。如果会导致名称冲突，或者想要指定自定义名称，请手动设置其名称。

as_input

指定如何在后续管道步骤中使用输出作为输入。

as_input(name=None)

参数

名称	说明
name 必需	str 特定于运行的输入的名称。

类型	说明
DatasetConsumptionConfig	描述 DatasetConsumptionConfig 如何传递输入数据的实例。

as_mount

设置要装载的输出模式。

对于装载模式，输出目录将是 FUSE 装载的目录。文件关闭时，将上传写入已装载目录的文件。

as_mount()

类型	说明
OutputTabularDatasetConfig	OutputTabularDatasetConfig模式设置为装载的实例。

as_upload

设置要上传的输出模式。

对于上传模式，写入到输出目录的文件将在作业结束时上传。如果作业失败或被取消，则不会上传输出目录。

as_upload(overwrite=False, source_globs=None)

参数

名称	说明
overwrite 必需	bool 是否覆盖目标中已存在的文件。
source_globs 必需	list[str] 用于筛选要上传的文件的 Glob 模式。

类型	说明
OutputTabularDatasetConfig	OutputTabularDatasetConfig模式设置为上传的实例。

drop_columns

从数据集中删除指定的列。

drop_columns(columns)

参数

名称	说明
columns 必需	Union[str, list[str]] 要删除的列的名称或名称列表。

类型	说明
PipelineOutputTabularDataset	要 OutputTabularDatasetConfig 删除的列的实例。

keep_columns

保留指定的列并删除数据集中的所有其他列。

keep_columns(columns)

参数

名称	说明
columns 必需	Union[str, list[str]] 要保留的列的名称或名称列表。

类型	说明
PipelineOutputTabularDataset	要 OutputTabularDatasetConfig 保留的列的实例。

random_split

将数据集中的记录随机拆分为两个部分，大致按指定的百分比进行拆分。

生成的输出配置将更改其名称，第一个配置将 _1 追加到名称，第二个配置将 _2 追加到名称。如果会导致名称冲突，或者想要指定自定义名称，请手动设置其名称。

random_split(percentage, seed=None)

参数

名称	说明
percentage 必需	float 要按其拆分数据集的大致百分比。这必须是介于 0.0 和 1.0 之间的数字。
seed 必需	int 用于随机生成器的可选种子。

类型	说明
tuple(OutputTabularDatasetConfig, OutputTabularDatasetConfig)	返回表示拆分后的两个数据集的两个 OutputTabularDatasetConfig 对象的元组。

通过