OutputTabularDatasetConfig 类
表示如何复制运行的输出并将其提升为 TabularDataset。
初始化 OutputTabularDatasetConfig。
构造函数
OutputTabularDatasetConfig(**kwargs)
注解
不应直接调用此构造函数,而是应创建 OutputFileDatasetConfig,然后调用相应的 read_* 方法将其转换为 OutputTabularDatasetConfig。
输出复制到 OutputTabularDatasetConfig 的目标的方式与 OutputFileDatasetConfig 相同。 它们的区别在于,创建的数据集将是包含所有指定转换的 TabularDataset。
方法
as_input |
指定如何在后续管道步骤中使用输出作为输入。 |
as_mount |
设置要装载的输出模式。 对于装载模式,输出目录将是 FUSE 装载的目录。 文件关闭时,将上传写入已装载目录的文件。 |
as_upload |
设置要上传的输出模式。 对于上传模式,写入到输出目录的文件将在作业结束时上传。 如果作业失败或被取消,则不会上传输出目录。 |
drop_columns |
从数据集中删除指定的列。 |
keep_columns |
保留指定的列并删除数据集中的所有其他列。 |
random_split |
将数据集中的记录随机拆分为两个部分,大致按指定的百分比进行拆分。 生成的输出配置将更改其名称,第一个配置将 _1 追加到名称,第二个配置将 _2 追加到名称。 如果会导致名称冲突,或者想要指定自定义名称,请手动设置其名称。 |
as_input
指定如何在后续管道步骤中使用输出作为输入。
as_input(name=None)
参数
名称 | 说明 |
---|---|
name
必需
|
特定于运行的输入的名称。 |
返回
类型 | 说明 |
---|---|
描述 DatasetConsumptionConfig 如何传递输入数据的实例。 |
as_mount
设置要装载的输出模式。
对于装载模式,输出目录将是 FUSE 装载的目录。 文件关闭时,将上传写入已装载目录的文件。
as_mount()
返回
类型 | 说明 |
---|---|
OutputTabularDatasetConfig模式设置为装载的实例。 |
as_upload
设置要上传的输出模式。
对于上传模式,写入到输出目录的文件将在作业结束时上传。 如果作业失败或被取消,则不会上传输出目录。
as_upload(overwrite=False, source_globs=None)
参数
名称 | 说明 |
---|---|
overwrite
必需
|
是否覆盖目标中已存在的文件。 |
source_globs
必需
|
用于筛选要上传的文件的 Glob 模式。 |
返回
类型 | 说明 |
---|---|
OutputTabularDatasetConfig模式设置为上传的实例。 |
drop_columns
从数据集中删除指定的列。
drop_columns(columns)
参数
名称 | 说明 |
---|---|
columns
必需
|
要删除的列的名称或名称列表。 |
返回
类型 | 说明 |
---|---|
要 OutputTabularDatasetConfig 删除的列的实例。 |
keep_columns
保留指定的列并删除数据集中的所有其他列。
keep_columns(columns)
参数
名称 | 说明 |
---|---|
columns
必需
|
要保留的列的名称或名称列表。 |
返回
类型 | 说明 |
---|---|
要 OutputTabularDatasetConfig 保留的列的实例。 |
random_split
将数据集中的记录随机拆分为两个部分,大致按指定的百分比进行拆分。
生成的输出配置将更改其名称,第一个配置将 _1 追加到名称,第二个配置将 _2 追加到名称。 如果会导致名称冲突,或者想要指定自定义名称,请手动设置其名称。
random_split(percentage, seed=None)
参数
名称 | 说明 |
---|---|
percentage
必需
|
要按其拆分数据集的大致百分比。 这必须是介于 0.0 和 1.0 之间的数字。 |
seed
必需
|
用于随机生成器的可选种子。 |
返回
类型 | 说明 |
---|---|
返回表示拆分后的两个数据集的两个 OutputTabularDatasetConfig 对象的元组。 |