OutputFileDatasetConfig 类

表示如何复制运行的输出并将其提升为 FileDataset。

OutputFileDatasetConfig 允许指定将计算目标上的特定本地路径上传到指定目标的方式。如果未将任何参数传递给构造函数，我们将自动生成名称、目标和本地路径。

不传递任何参数的示例：


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

创建输出并将其提升为表格数据集的示例，并将其注册为名称 foo：


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

初始化 OutputFileDatasetConfig。

不传递任何参数的示例：


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

创建输出并将其提升为表格数据集的示例，并将其注册为名称 foo：


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

构造函数

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

参数

名称	说明
name 必需	str 特定于此运行的输出的名称。这通常用于世系目的。如果设置为“无”，我们将自动生成名称。该名称也将成为一个环境变量，其中包含可以将输出文件和文件夹写入目标的位置。
destination 必需	tuple 要将输出复制到的目标。如果设置为 None，我们将输出复制到 workspaceblobstore 数据存储，在路径 /dataset/{run-id}/{output-name}下，其中 run-id 是 Run 的 ID，输出名称是上述名称参数的输出名称。目标为元组，其中第一项是数据存储，第二项是数据存储内要将数据复制到的路径。数据存储中的路径可以是模板路径。模板路径只是常规路径，但里面有占位符。然后，将在适当的时间解析这些占位符。占位符的语法为 {placeholder}，例如 /path/with/{placeholder}。目前仅支持两个占位符：{run-id} 和 {output-name}。
source 必需	str 要从中复制数据的计算目标中的路径。如果设置为“无”，我们会将此目录设置为在计算目标的 OS 临时目录中创建的目录。
partition_format 必需	str 指定路径的分区格式。默认为 None。每个路径的分区信息将基于指定的格式提取到列中。设置部件“{column_name}”的格式将创建字符串列，“{column_name：yyyy/MM/dd/HH/mm/ss}”创建日期时间列，其中“yy”、“MM”、“dd”、“HH”、“mm”和“ss”用于提取日期时间类型的年、月、日、小时、分钟和秒。格式应从第一个分区键的位置开始，直到文件路径的末尾。例如，给定路径 “../Accounts/2019/01/data.parquet，其中分区按部门名称和时间划分，partition_format=“/{Department}/{PartitionDate：yyyy/MM/dd}/data.parquet”创建一个字符串列“Department”，其值为“Accounts”，日期/时间列“PartitionDate”的值为“2019-01-01”。
name 必需	str 特定于此运行的输出的名称。这通常用于世系目的。如果设置为“无”，我们将自动生成名称。该名称也将成为一个环境变量，其中包含可以将输出文件和文件夹写入目标的位置。
destination 必需	tuple 要将输出复制到的目标。如果设置为 None，我们将输出复制到 workspaceblobstore 数据存储，在路径 /dataset/{run-id}/{output-name}下，其中 run-id 是 Run 的 ID，输出名称是上述名称参数的输出名称。目标为元组，其中第一项是数据存储，第二项是数据存储内要将数据复制到的路径。数据存储中的路径可以是模板路径。模板路径只是常规路径，但里面有占位符。然后，将在适当的时间解析这些占位符。占位符的语法为 {placeholder}，例如 /path/with/{placeholder}。目前仅支持两个占位符：{run-id} 和 {output-name}。
source 必需	str 要从中复制数据的计算目标中的路径。如果设置为“无”，我们会将此目录设置为在计算目标的 OS 临时目录中创建的目录。
partition_format 必需	str 指定路径的分区格式。默认为 None。每个路径的分区信息将基于指定的格式提取到列中。设置部件“{column_name}”的格式将创建字符串列，“{column_name：yyyy/MM/dd/HH/mm/ss}”创建日期时间列，其中“yy”、“MM”、“dd”、“HH”、“mm”和“ss”用于提取日期时间类型的年、月、日、小时、分钟和秒。格式应从第一个分区键的位置开始，直到文件路径的末尾。例如，给定路径 “../Accounts/2019/01/data.parquet，其中分区按部门名称和时间划分，partition_format=“/{Department}/{PartitionDate：yyyy/MM/dd}/data.parquet”创建一个字符串列“Department”，其值为“Accounts”，日期/时间列“PartitionDate”的值为“2019-01-01”。

注解

可以将 OutputFileDatasetConfig 作为参数传递给运行，并且它将自动转换为计算上的本地路径。如果指定了源参数，则使用源参数，否则我们会在 OS 的临时文件夹中自动生成目录。然后，源目录中的文件和文件夹将基于输出配置复制到目标。

默认情况下，输出将复制到目标存储的模式将设置为装载。有关装载模式的详细信息，请参阅有关as_mount的文档。

方法

as_input

指定如何在后续管道步骤中使用输出作为输入。

as_mount

设置要装载的输出模式。

对于装载模式，输出目录将是 FUSE 装载的目录。文件关闭时，将上传写入已装载目录的文件。

as_upload

设置要上传的输出模式。

对于上传模式，写入到输出目录的文件将在作业结束时上传。如果作业失败或被取消，则不会上传输出目录。

as_input

指定如何在后续管道步骤中使用输出作为输入。

as_input(name=None)

参数

名称	说明
name 必需	str 特定于运行的输入的名称。

类型	说明
DatasetConsumptionConfig	描述 DatasetConsumptionConfig 如何传递输入数据的实例。

as_mount

设置要装载的输出模式。

对于装载模式，输出目录将是 FUSE 装载的目录。文件关闭时，将上传写入已装载目录的文件。

as_mount(disable_metadata_cache=False)

参数

名称	说明
disable_metadata_cache 必需	bool 是否在本地节点中缓存元数据，如果禁用了节点，将无法在作业运行时查看从其他节点生成的文件。

类型	说明
OutputFileDatasetConfig	OutputFileDatasetConfig模式设置为装载的实例。

as_upload

设置要上传的输出模式。

对于上传模式，写入到输出目录的文件将在作业结束时上传。如果作业失败或被取消，则不会上传输出目录。

as_upload(overwrite=False, source_globs=None)

参数

名称	说明
overwrite 必需	bool 是否覆盖目标中已存在的文件。
source_globs 必需	list[str] 用于筛选要上传的文件的 Glob 模式。

类型	说明
OutputFileDatasetConfig	OutputFileDatasetConfig模式设置为上传的实例。

通过

构造函数

参数

注解

as_input

参数

返回

as_mount

参数

返回

as_upload

参数

返回

通过

OutputFileDatasetConfig 类

构造函数

参数

注解

方法

as_input

参数

返回

as_mount

参数

返回

as_upload

参数

返回

反馈