OutputFileDatasetConfig 类
表示如何复制运行的输出并将其提升为 FileDataset。
OutputFileDatasetConfig 允许指定将计算目标上的特定本地路径上传到指定目标的方式。 如果未将任何参数传递给构造函数,我们将自动生成名称、目标和本地路径。
不传递任何参数的示例:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
创建输出并将其提升为表格数据集的示例,并将其注册为名称 foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
初始化 OutputFileDatasetConfig。
OutputFileDatasetConfig 允许指定将计算目标上的特定本地路径上传到指定目标的方式。 如果未将任何参数传递给构造函数,我们将自动生成名称、目标和本地路径。
不传递任何参数的示例:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
创建输出并将其提升为表格数据集的示例,并将其注册为名称 foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
构造函数
OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)
参数
名称 | 说明 |
---|---|
name
必需
|
特定于此运行的输出的名称。 这通常用于世系目的。 如果设置为“无”,我们将自动生成名称。 该名称也将成为一个环境变量,其中包含可以将输出文件和文件夹写入目标的位置。 |
destination
必需
|
要将输出复制到的目标。 如果设置为 None,我们将输出复制到 workspaceblobstore 数据存储,在路径 /dataset/{run-id}/{output-name}下,其中 run-id 是 Run 的 ID, 输出名称 是上述 名称 参数的输出名称。 目标为元组,其中第一项是数据存储,第二项是数据存储内要将数据复制到的路径。 数据存储中的路径可以是模板路径。 模板路径只是常规路径,但里面有占位符。 然后,将在适当的时间解析这些占位符。 占位符的语法为 {placeholder},例如 /path/with/{placeholder}。 目前仅支持两个占位符:{run-id} 和 {output-name}。 |
source
必需
|
要从中复制数据的计算目标中的路径。 如果设置为“无”,我们会将此目录设置为在计算目标的 OS 临时目录中创建的目录。 |
partition_format
必需
|
指定路径的分区格式。 默认为 None。 每个路径的分区信息将基于指定的格式提取到列中。 设置部件“{column_name}”的格式将创建字符串列,“{column_name:yyyy/MM/dd/HH/mm/ss}”创建日期时间列,其中“yy”、“MM”、“dd”、“HH”、“mm”和“ss”用于提取日期时间类型的年、月、日、小时、分钟和秒。 格式应从第一个分区键的位置开始,直到文件路径的末尾。 例如,给定路径 “../Accounts/2019/01/data.parquet,其中分区按部门名称和时间划分,partition_format=“/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet”创建一个字符串列“Department”,其值为“Accounts”,日期/时间列“PartitionDate”的值为“2019-01-01”。 |
name
必需
|
特定于此运行的输出的名称。 这通常用于世系目的。 如果设置为“无”,我们将自动生成名称。 该名称也将成为一个环境变量,其中包含可以将输出文件和文件夹写入目标的位置。 |
destination
必需
|
要将输出复制到的目标。 如果设置为 None,我们将输出复制到 workspaceblobstore 数据存储,在路径 /dataset/{run-id}/{output-name}下,其中 run-id 是 Run 的 ID, 输出名称 是上述 名称 参数的输出名称。 目标为元组,其中第一项是数据存储,第二项是数据存储内要将数据复制到的路径。 数据存储中的路径可以是模板路径。 模板路径只是常规路径,但里面有占位符。 然后,将在适当的时间解析这些占位符。 占位符的语法为 {placeholder},例如 /path/with/{placeholder}。 目前仅支持两个占位符:{run-id} 和 {output-name}。 |
source
必需
|
要从中复制数据的计算目标中的路径。 如果设置为“无”,我们会将此目录设置为在计算目标的 OS 临时目录中创建的目录。 |
partition_format
必需
|
指定路径的分区格式。 默认为 None。 每个路径的分区信息将基于指定的格式提取到列中。 设置部件“{column_name}”的格式将创建字符串列,“{column_name:yyyy/MM/dd/HH/mm/ss}”创建日期时间列,其中“yy”、“MM”、“dd”、“HH”、“mm”和“ss”用于提取日期时间类型的年、月、日、小时、分钟和秒。 格式应从第一个分区键的位置开始,直到文件路径的末尾。 例如,给定路径 “../Accounts/2019/01/data.parquet,其中分区按部门名称和时间划分,partition_format=“/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet”创建一个字符串列“Department”,其值为“Accounts”,日期/时间列“PartitionDate”的值为“2019-01-01”。 |
注解
可以将 OutputFileDatasetConfig 作为参数传递给运行,并且它将自动转换为计算上的本地路径。 如果指定了源参数,则使用源参数,否则我们会在 OS 的临时文件夹中自动生成目录。 然后,源目录中的文件和文件夹将基于输出配置复制到目标。
默认情况下,输出将复制到目标存储的模式将设置为装载。 有关装载模式的详细信息,请参阅有关as_mount的文档。
方法
as_input |
指定如何在后续管道步骤中使用输出作为输入。 |
as_mount |
设置要装载的输出模式。 对于装载模式,输出目录将是 FUSE 装载的目录。 文件关闭时,将上传写入已装载目录的文件。 |
as_upload |
设置要上传的输出模式。 对于上传模式,写入到输出目录的文件将在作业结束时上传。 如果作业失败或被取消,则不会上传输出目录。 |
as_input
指定如何在后续管道步骤中使用输出作为输入。
as_input(name=None)
参数
名称 | 说明 |
---|---|
name
必需
|
特定于运行的输入的名称。 |
返回
类型 | 说明 |
---|---|
描述 DatasetConsumptionConfig 如何传递输入数据的实例。 |
as_mount
设置要装载的输出模式。
对于装载模式,输出目录将是 FUSE 装载的目录。 文件关闭时,将上传写入已装载目录的文件。
as_mount(disable_metadata_cache=False)
参数
名称 | 说明 |
---|---|
disable_metadata_cache
必需
|
是否在本地节点中缓存元数据,如果禁用了节点,将无法在作业运行时查看从其他节点生成的文件。 |
返回
类型 | 说明 |
---|---|
OutputFileDatasetConfig模式设置为装载的实例。 |
as_upload
设置要上传的输出模式。
对于上传模式,写入到输出目录的文件将在作业结束时上传。 如果作业失败或被取消,则不会上传输出目录。
as_upload(overwrite=False, source_globs=None)
参数
名称 | 说明 |
---|---|
overwrite
必需
|
是否覆盖目标中已存在的文件。 |
source_globs
必需
|
用于筛选要上传的文件的 Glob 模式。 |
返回
类型 | 说明 |
---|---|
OutputFileDatasetConfig模式设置为上传的实例。 |