core 包
包含 Azure 机器学习管道的核心功能,这些管道是可配置的机器学习工作流。
使用 Azure 机器学习管道可以创建可重用的机器学习工作流,这些工作流可用作机器学习方案的模板。 此包包含用于处理 Azure ML 管道的核心功能,通常与包中的 steps 类一起使用。
机器学习管道由可以排序和并行化的对象集合 PipelineStep 表示,或者使用步骤之间的显式依赖关系创建。 管道步骤用于定义表示 Pipeline 要执行的工作流的对象。 可以在 Jupyter Notebook 或任何其他 IDE 中创建和使用已安装 Azure ML SDK 的管道。
Azure ML 管道使你能够专注于机器学习,而不是基础结构。 若要开始生成管道,请参阅 https://aka.ms/pl-first-pipeline。
有关机器学习管道的优势及其与 Azure 提供的其他管道有何关联的详细信息,请参阅 Azure 机器学习服务中的 ML 管道是什么?
模块
builder |
定义用于生成 Azure 机器学习管道的类。 管道图由管道步骤(PipelineStep)、每个步骤中生成或使用的可选管道数据(PipelineData)和可选的步骤执行序列(StepSequence)组成。 |
graph |
定义用于构造 Azure 机器学习管道图的类。 使用(和派生类)Pipeline和PipelineStep对象时PipelineData,将为对象创建 PipelineData Azure ML 管道图。 在典型的用例中,无需直接使用此模块中的类。 管道运行图由表示基本单元(如数据源或步骤)的模块节点组成。 节点可以具有输入端口和输出端口以及关联的参数。 边缘定义图中两个节点端口之间的关系。 |
module |
包含用于创建和管理 Azure 机器学习管道可重用计算单元的类。 模块允许你在一个 Pipeline中创建计算单元,该单元可以具有输入、输出,并依赖于参数和环境配置来运行。 模块可以进行版本控制并在不同的 Azure 机器学习管道中使用,这与一个管道中使用的(和派生类)不同 PipelineStep 。 模块设计为在多个管道中重复使用,可以改进以适应不同的用例的特定计算逻辑。 管道中的步骤可用于快速迭代来改进算法,实现目标后,该算法通常作为模块发布,以便重复使用。 |
module_step_base |
包含使用版本 Module向管道添加步骤的功能。 |
pipeline |
定义用于创建可重用 Azure 机器学习工作流的类。 |
pipeline_draft |
定义用于管理可变管道的类。 |
pipeline_endpoint |
定义用于管理管道的类,包括版本控制和终结点。 |
pipeline_output_dataset |
包含将中间输出提升到 Azure 机器学习数据集的功能。 默认情况下,管道中的中间数据(输出)不会成为 Azure 机器学习数据集。 若要将中间数据提升到 Azure 机器学习数据集,请调用 as_dataset PipelineData 类上的方法以返回对象 PipelineOutputFileDataset 。 然后,可以从 PipelineOutputFileDataset 对象创建一个 PipelineOutputTabularDataset 对象。 |
run |
定义提交的管道的类,包括用于检查状态和检索运行详细信息的类。 |
schedule |
定义用于计划 Azure 机器学习管道提交的类。 |
类
InputPortBinding |
定义从源到管道步骤输入的绑定。 InputPortBinding 可用作步骤的输入。 源可以是一个PipelineData、PortDataReference、DataReference或PipelineDatasetOutputPortBinding。 InputPortBinding 可用于指定步骤输入的名称(如果它应不同于绑定对象的名称(即避免重复输入/输出名称,或者因为步骤脚本需要输入具有特定名称)。 它还可用于指定输入的bind_mode PythonScriptStep 。 初始化 InputPortBinding。 |
Module |
表示 Azure 机器学习管道中使用的计算单元。 模块是将在计算目标和接口说明上运行的文件集合。 文件集合可以是脚本、二进制文件或计算目标上执行所需的任何其他文件。 模块接口描述输入、输出和参数定义。 它不会将它们绑定到特定值或数据。 模块具有与之关联的快照,用于捕获为模块定义的文件的集合。 初始化模块。 |
ModuleVersion |
表示一个 Module内的实际计算单位。 不应直接使用此类。 请改用类的 Module 发布方法之一。 初始化 ModuleVersion。 |
ModuleVersionDescriptor |
定义 . 的版本 ModuleVersion和 ID。 初始化 ModuleVersionDescriptor。 |
OutputPortBinding |
定义管道步骤的命名输出。 OutputPortBinding 可用于指定一个步骤生成的数据类型以及数据生成方式。 它可用于 InputPortBinding 指定步骤输出是另一步的必需输入。 初始化 OutputPortBinding。 |
Pipeline |
表示可以作为可重用的 Azure 机器学习工作流执行的步骤集合。 使用管道创建和管理将各种机器学习阶段拼凑在一起的工作流。 每个机器学习阶段(如数据准备和模型训练)都可以包含管道中的一个或多个步骤。 有关使用管道的原因和时间的概述,请参阅 https://aka.ms/pl-concept。 有关构造管道的概述,请参阅 https://aka.ms/pl-first-pipeline。 初始化管道。 |
PipelineData |
表示 Azure 机器学习管道中的中间数据。 管道中使用的数据可以由一个步骤生成,另一个步骤是提供 PipelineData 对象作为一个步骤的输出,以及一个或多个后续步骤的输入。 请注意 ,如果使用管道数据,请确保使用的目录已存在。 为确保目录存在 python 示例,假设在一个管道步骤中有一个名为output_folder的输出端口,需要将此文件夹中的某些数据写入相对路径。
PipelineData 使用不再推荐用于数据访问和传递的 DataReference 基础,请改用 OutputFileDatasetConfig ,可在此处找到示例: 使用 OutputFileDatasetConfig 的管道。 初始化 PipelineData。 |
PipelineDataset |
充当数据集和管道的适配器。 注释 此类已弃用。 若要了解如何在管道中使用数据集,请参阅 https://aka.ms/pipeline-with-dataset。 这是一个内部类。 不应直接创建此类,而是在 Dataset 或 OutputDatasetConfig 类上调用 as_* 实例方法。 充当数据集和管道的适配器。 这是一个内部类。 不应直接创建此类,而是在 Dataset 或 OutputDatasetConfig 类上调用 as_* 实例方法。 |
PipelineDraft |
表示可用于提交运行和创建已发布管道的可变管道。 使用 PipelineDrafts 循环访问管道。 可以从头开始创建 PipelineDrafts、另一个 PipelineDraft 或现有管道: Pipeline、 PublishedPipeline或 PipelineRun。 初始化 PipelineDraft。 |
PipelineEndpoint |
表示可从唯一 Pipeline 终结点 URL 触发的工作流。 PipelineEndpoints 可用于创建新版本,同时维护同一 PublishedPipeline 终结点。 PipelineEndpoints 在工作区中唯一命名。 使用 PipelineEndpoint 对象的终结点属性,可以使用 REST 调用从外部应用程序触发新的管道运行。 有关如何在调用 REST 终结点时进行身份验证的信息,请参阅 https://aka.ms/pl-restep-auth。 有关创建和运行机器学习管道的详细信息,请参阅 https://aka.ms/pl-first-pipeline。 初始化 PipelineEndpoint。 |
PipelineParameter |
在管道执行中定义参数。 使用 PipelineParameters 构造通用管道,以后可以使用不同的参数值重新提交这些管道。 初始化管道参数。 |
PipelineRun |
表示一个 Pipeline. 的运行。 此类可用于在提交管道运行后管理、检查状态和检索运行详细信息。 用于 get_steps 检索 StepRun 管道运行创建的对象。 其他用途包括检索 Graph 与管道运行关联的对象、提取管道运行的状态以及等待运行完成。 初始化管道运行。 |
PipelineStep |
表示 Azure 机器学习管道中的执行步骤。 管道是从多个管道步骤构造的,这些步骤是管道中的不同计算单元。 每个步骤都可以独立运行并使用独立的计算资源。 每个步骤通常都有自己的命名输入、输出和参数。 PipelineStep 类是基类,其他专为常见方案设计的内置步骤类继承,例如 PythonScriptStep, DataTransferStep和 HyperDriveStep。 有关 Pipelines 和 PipelineSteps 关联方式的概述,请参阅 什么是 ML 管道。 初始化 PipelineStep。 |
PortDataReference |
为与已完成 StepRun 的输出关联的数据建模。 PortDataReference 对象可用于下载由 a .StepRun 它还可以用作未来管道中的步骤输入。 初始化 PortDataReference。 |
PublishedPipeline |
表示要提交的管道,而不使用构造它的 Python 代码。 此外,可以使用 PublishedPipeline 重新提交 Pipeline 具有不同 PipelineParameter 值和输入的订阅。 初始化 PublishedPipeline。 :p aram 终结点 REST 终结点 URL,用于提交此管道的管道运行。 :type endpoint: str :p aram total_run_steps:此管道中的步骤数:type total_run_steps:int :p aram 工作区:已发布管道的工作区。 :type workspace: azureml.core.Workspace :p aram continue_on_step_failure:是否继续执行 PipelineRun 中的其他步骤 如果步骤失败,则默认值为 false。 |
Schedule |
定义要提交管道的计划。 发布管道后,可以使用计划以指定间隔或检测到对 Blob 存储位置的更改时提交管道。 初始化计划。 |
ScheduleRecurrence |
定义管道 Schedule的频率、间隔和开始时间。 ScheduleRecurrence 还允许指定定期的时区和小时或分钟或周天。 初始化计划重复周期。 它还允许指定定期的时区和小时或分钟或周天。 |
StepRun |
中 Pipeline步骤的运行。 此类可用于在提交父管道运行并提交步骤运行后管理、检查状态和检索运行详细信息。 初始化 StepRun。 |
StepRunOutput |
表示管道中创建的输出 StepRun 。 StepRunOutput 可用于访问 PortDataReference 步骤创建的。 初始化 StepRunOutput。 |
StepSequence |
表示步骤 Pipeline 列表以及执行步骤的顺序。 初始化管道时使用 StepSequence 创建包含按特定顺序运行的步骤的工作流。 初始化 StepSequence。 |
TrainingOutput |
定义特定 PipelineSteps 的专用输出,以便在管道中使用。 TrainingOutput 使自动化机器学习指标或模型可作为步骤输出提供,供 Azure 机器学习管道中的另一个步骤使用。 可用于 AutoMLStep 或 HyperDriveStep. 初始化 TrainingOutput。 param model_file:要包含在输出中的特定模型文件。 仅限 HyperDriveStep 。 |
枚举
TimeZone |
枚举重复 Schedule周期的有效时区。 |