PythonScriptStep 类

参考

创建运行 Python 脚本的 Azure ML 管道步骤。

有关使用 PythonScriptStep 的示例，请参阅笔记本 https://aka.ms/pl-get-started。

创建运行 Python 脚本的 Azure ML 管道步骤。

构造函数

PythonScriptStep(script_name, name=None, arguments=None, compute_target=None, runconfig=None, runconfig_pipeline_params=None, inputs=None, outputs=None, params=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

参数

名称	说明
script_name 必需	str [必需]相对于 `source_directory`. 的 Python 脚本的名称。
name	str 步骤的名称。如果未指定，则使用 `script_name`。默认值: None
arguments	list Python 脚本文件的命令行参数。参数将通过 RunConfiguration 中的参数传递给计算 `arguments` 。有关如何处理特殊符号等参数的更多详细信息，请参阅 < a0 />。默认值: None
compute_target	Union[DsvmCompute, AmlCompute, RemoteCompute, HDInsightCompute, str, tuple] [必需]要使用的计算目标。如果未指定，将使用 runconfig 中的目标。此参数可以指定为计算目标对象或工作区上计算目标的字符串名称。（可选）如果计算目标在创建管道时不可用，则可以指定元组（“计算目标名称”、“计算目标类型”）以避免提取计算目标对象（AmlCompute 类型为“AmlCompute”，RemoteCompute 类型为“VirtualMachine”。默认值: None
runconfig	RunConfiguration 要使用的可选 RunConfiguration。 RunConfiguration 可用于指定运行的其他要求，例如 conda 依赖项和 docker 映像。如果未指定，将创建默认 Runconfig。默认值: None
runconfig_pipeline_params	dict[str, PipelineParameter] 在运行时使用键值对替代 runconfig 属性和该属性的 PipelineParameter 的名称。支持的值：“NodeCount”、“MpiProcessCountPerNode”、“TensorflowWorkerCount”、“TensorflowParameterServerCount” 默认值: None
inputs	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData, PipelineOutputFileDataset, PipelineOutputTabularDataset, DatasetConsumptionConfig]] 输入端口绑定的列表。默认值: None
outputs	list[Union[PipelineData, OutputDatasetConfig, PipelineOutputFileDataset, PipelineOutputTabularDataset, OutputPortBinding]] 输出端口绑定的列表。默认值: None
params	dict 注册为环境变量的名称/值对字典，其中包含“AML_PARAMETER_”。默认值: None
source_directory	str 包含步骤中使用的 Python 脚本、conda env 和其他资源的文件夹。默认值: None
allow_reuse	bool 指示使用相同设置重新运行时，该步骤是否应重复使用以前的结果。默认情况下启用重用。如果步骤内容（脚本/依赖项）以及输入和参数保持不变，则重复使用此步骤上一次运行的输出。重用步骤时，将立即向任何后续步骤提供上一次运行的结果，而不是将作业提交到计算。如果使用 Azure 机器学习数据集作为输入，则重复使用取决于数据集的定义是否已更改，而不是由基础数据是否已更改决定。默认值: True
version	str 用于表示步骤功能更改的可选版本标记。默认值: None
hash_paths	list 已弃用：不再需要。检查步骤内容更改时哈希的路径列表。如果未检测到任何更改，管道将重复使用上一次运行中的步骤内容。默认情况下，除 .amlignore 或 .gitignore 中列出的文件外，对内容 `source_directory` 进行哈希处理。默认值: None
script_name 必需	str [必需]相对于 `source_directory`. 的 Python 脚本的名称。
name 必需	str 步骤的名称。如果未指定，则使用 `script_name`。
arguments 必需	[str] Python 脚本文件的命令行参数。参数将通过 RunConfiguration 中的参数传递给计算 `arguments` 。有关如何处理特殊符号等参数的更多详细信息，请参阅 < a0 />。
compute_target 必需	Union[DsvmCompute, AmlCompute, RemoteCompute, HDInsightCompute, str, tuple] [必需]要使用的计算目标。如果未指定，将使用 runconfig 中的目标。此参数可以指定为计算目标对象或工作区上计算目标的字符串名称。（可选）如果计算目标在创建管道时不可用，则可以指定元组（“计算目标名称”、“计算目标类型”）以避免提取计算目标对象（AmlCompute 类型为“AmlCompute”，RemoteCompute 类型为“VirtualMachine”。
runconfig 必需	RunConfiguration 要使用的可选 RunConfiguration。 RunConfiguration 可用于指定运行的其他要求，例如 conda 依赖项和 docker 映像。如果未指定，将创建默认 Runconfig。
runconfig_pipeline_params 必需	dict[str, PipelineParameter] 在运行时使用键值对替代 runconfig 属性和该属性的 PipelineParameter 的名称。支持的值：“NodeCount”、“MpiProcessCountPerNode”、“TensorflowWorkerCount”、“TensorflowParameterServerCount”
inputs 必需	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData, PipelineOutputFileDataset, PipelineOutputTabularDataset, DatasetConsumptionConfig]] 输入端口绑定的列表。
outputs 必需	list[Union[PipelineData, OutputDatasetConfig, PipelineOutputFileDataset, PipelineOutputTabularDataset, OutputPortBinding]] 输出端口绑定的列表。
params 必需	<xref:<xref:{str: str}>> 名称值对的字典。使用“AML_PARAMETER_>>”<<注册为环境变量。
source_directory 必需	str 包含步骤中使用的 Python 脚本、conda env 和其他资源的文件夹。
allow_reuse 必需	bool 指示使用相同设置重新运行时，该步骤是否应重复使用以前的结果。默认情况下启用重用。如果步骤内容（脚本/依赖项）以及输入和参数保持不变，则重复使用此步骤上一次运行的输出。重用步骤时，将立即向任何后续步骤提供上一次运行的结果，而不是将作业提交到计算。如果使用 Azure 机器学习数据集作为输入，则重复使用取决于数据集的定义是否已更改，而不是由基础数据是否已更改决定。
version 必需	str 用于表示步骤功能更改的可选版本标记。
hash_paths 必需	list 已弃用：不再需要。检查步骤内容更改时哈希的路径列表。如果未检测到任何更改，管道将重复使用上一次运行中的步骤内容。默认情况下，除 .amlignore 或 .gitignore 中列出的文件外，对内容 `source_directory` 进行哈希处理。

注解

PythonScriptStep 是一个基本的内置步骤，用于在计算目标上运行 Python 脚本。它采用脚本名称和其他可选参数，例如脚本、计算目标、输入和输出的参数。如果未指定计算目标，则使用工作区的默认计算目标。还可以使用 a RunConfiguration 来指定 PythonScriptStep 的要求，例如 conda 依赖项和 docker 映像。

使用 PythonScriptStep 的最佳做法是对脚本和与步骤关联的任何依赖文件使用单独的文件夹，并使用参数指定该文件夹 source_directory 。遵循此最佳做法有两个好处。首先，它有助于减小为步骤创建的快照的大小，因为仅快照了步骤所需的快照。其次，如果没有对触发重新上传快照的更改 source_directory ，则可以重复使用上一次运行中的步骤输出。

以下代码示例演示如何在机器学习训练方案中使用 PythonScriptStep。有关此示例的更多详细信息，请参阅 https://aka.ms/pl-first-pipeline。


   from azureml.pipeline.steps import PythonScriptStep

   trainStep = PythonScriptStep(
       script_name="train.py",
       arguments=["--input", blob_input_data, "--output", output_data1],
       inputs=[blob_input_data],
       outputs=[output_data1],
       compute_target=compute_target,
       source_directory=project_folder
   )

PythonScriptSteps 支持多种输入和输出类型。这些包括DatasetConsumptionConfig输入和输出OutputDatasetConfig PipelineOutputAbstractDataset以及PipelineData输入和输出。

下面是用作 Dataset 步骤输入和输出的示例：


   from azureml.core import Dataset
   from azureml.pipeline.steps import PythonScriptStep
   from azureml.pipeline.core import Pipeline, PipelineData

   # get input dataset
   input_ds = Dataset.get_by_name(workspace, 'weather_ds')

   # register pipeline output as dataset
   output_ds = PipelineData('prepared_weather_ds', datastore=datastore).as_dataset()
   output_ds = output_ds.register(name='prepared_weather_ds', create_new_version=True)

   # configure pipeline step to use dataset as the input and output
   prep_step = PythonScriptStep(script_name="prepare.py",
                                inputs=[input_ds.as_named_input('weather_ds')],
                                outputs=[output_ds],
                                compute_target=compute_target,
                                source_directory=project_folder)

有关使用其他输入/输出类型的示例，请参阅相应的文档页。

方法

create_node

为 PythonScriptStep 创建一个节点，并将其添加到指定的图形。

此方法不用于直接使用。使用此步骤实例化管道时，Azure ML 会自动传递通过此方法所需的参数，以便可以将该步骤添加到表示工作流的管道图中。

create_node

为 PythonScriptStep 创建一个节点，并将其添加到指定的图形。

此方法不用于直接使用。使用此步骤实例化管道时，Azure ML 会自动传递通过此方法所需的参数，以便可以将该步骤添加到表示工作流的管道图中。

create_node(graph, default_datastore, context)

参数

名称	说明
graph 必需	Graph 要向其添加节点的图形对象。
default_datastore 必需	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] 默认数据存储。
context 必需	<xref:azureml.pipeline.core._GraphContext> 图形上下文。

类型	说明
Node	创建的节点。

通过

PythonScriptStep 类

构造函数

参数

注解

方法

create_node

参数

返回

反馈