TensorFlow 类

表示 TensorFlow 试验中训练的估算器。

荒废的。将 ScriptRunConfig 对象与自己的已定义环境或 Azure ML TensorFlow 特选环境之一配合使用。有关使用 ScriptRunConfig 配置 TensorFlow 试验运行的简介，请参阅使用 Azure 机器学习大规模训练 TensorFlow 模型。

支持的版本：1.10、1.12、1.13、2.0、2.1、2.2

初始化 TensorFlow 估算器。

Docker 运行引用。：type shm_size：str :p aram resume_from：包含从中恢复试验的检查点或模型文件的数据路径。：type resume_from：azureml.data.datapath.DataPath :p aram max_run_duration_seconds：运行允许的最大时间。 Azure ML 将自动尝试

如果运行时间超过此值，请取消运行。

构造函数

TensorFlow(source_directory, *, compute_target=None, vm_size=None, vm_priority=None, entry_script=None, script_params=None, node_count=1, process_count_per_node=1, worker_count=1, parameter_server_count=1, distributed_backend=None, distributed_training=None, use_gpu=False, use_docker=True, custom_docker_base_image=None, custom_docker_image=None, image_registry_details=None, user_managed=False, conda_packages=None, pip_packages=None, conda_dependencies_file_path=None, pip_requirements_file_path=None, conda_dependencies_file=None, pip_requirements_file=None, environment_variables=None, environment_definition=None, inputs=None, source_directory_data_store=None, shm_size=None, resume_from=None, max_run_duration_seconds=None, framework_version=None, _enable_optimized_mode=False, _disable_validation=True, _show_lint_warnings=False, _show_package_warnings=False)

参数

名称	说明
source_directory 必需	str 包含试验配置文件的本地目录。
compute_target 必需	AbstractComputeTarget 或 str 将进行训练的计算目标。这可以是对象，也可以是字符串“local”。
vm_size 必需	str 将针对训练创建的计算目标的 VM 大小。支持的值：任何 Azure VM 大小。
vm_priority 必需	str 将为训练创建的计算目标的 VM 优先级。如果未指定，则使用“专用”。支持的值：“dedicated”和“lowpriority”。这仅在输入中指定的时间 `vm_size param` 生效。
entry_script 必需	str 包含训练脚本的文件的相对路径。
script_params 必需	dict 要传递给中指定的 `entry_script`训练脚本的命令行参数的字典。
node_count 必需	int 用于训练的计算目标中的节点数。 AmlCompute分布式训练仅支持目标（`node_count`>1）。
process_count_per_node 必需	int 使用 MPI 时，每个节点的进程数。
worker_count 必需	int 使用参数服务器进行分布式训练时，工作器节点数。荒废的。指定为参数的 `distributed_training` 一部分。
parameter_server_count 必需	int 使用参数服务器进行分布式训练时，参数服务器节点数。
distributed_backend 必需	str 用于分布式训练的通信后端。荒废的。使用 `distributed_training` 参数。支持的值：“mpi”和“ps”。 “mpi”表示 MPI/Horovod，“ps”表示参数服务器。当任一或 `node_countprocess_count_per_nodeworker_countparameter_server_count`> 1 或 1 时，此参数是必需的。对于“ps”，其`worker_count`和`parameter_server_count`应小于或等于 `node_count` * （每个节点的 CPU 数或 GPU 数）当 == 1 和 `node_count` == 1 时`process_count_per_node`，除非显式设置了后端，否则不会使用后端。 AmlCompute分布式训练仅支持目标。
distributed_training 必需	ParameterServer 或 Mpi 用于运行分布式训练作业的参数。若要使用参数服务器后端运行分布式作业，请使用ParameterServer对象进行指定和`worker_count`指定`parameter_server_count`。和`worker_count`参数的总`parameter_server_count`和应小于或等于 `node_count` * （每个节点的 CPU 数或 GPU 数）。若要使用 MPI 后端运行分布式作业，请使用 Mpi 对象来指定 `process_count_per_node`。
use_gpu 必需	bool 指定运行试验的环境是否应支持 GPU。如果为 true，则会在环境中使用基于 GPU 的默认 docker 映像。如果为 false，将使用基于 CPU 的映像。仅当未设置参数时 `custom_docker_image` ，才会使用默认 docker 映像（CPU 或 GPU）。此设置仅在启用了 Docker 的计算目标中使用。
use_docker 必需	bool 指定运行试验的环境是否应基于 Docker。
custom_docker_base_image 必需	str 将从中生成要用于训练的映像的 Docker 映像的名称。荒废的。使用 `custom_docker_image` 参数。如果未设置，则默认基于 CPU 的映像将用作基础映像。
custom_docker_image 必需	str 将从中生成要用于训练的映像的 Docker 映像的名称。如果未设置，则默认基于 CPU 的映像将用作基础映像。
image_registry_details 必需	ContainerRegistry Docker 映像注册表的详细信息。
user_managed 必需	bool 指定 Azure ML 是否重复使用现有的 Python 环境。如果为 false，Azure ML 将基于 conda 依赖项规范创建 Python 环境。
conda_packages 必需	list 表示要添加到试验的 Python 环境的 conda 包的字符串列表。
pip_packages 必需	list 表示要添加到试验的 Python 环境的 pip 包的字符串列表。
conda_dependencies_file_path 必需	str 一个字符串，表示 conda 依赖项 yaml 文件的相对路径。如果指定，Azure ML 将不会安装任何与框架相关的包。荒废的。使用 `conda_dependencies_file` 参数。
pip_requirements_file_path 必需	str 一个字符串，表示 pip 要求文本文件的相对路径。这可以与 `pip_packages` 参数结合使用。荒废的。使用 `pip_requirements_file` 参数。
conda_dependencies_file 必需	str 一个字符串，表示 conda 依赖项 yaml 文件的相对路径。如果指定，Azure ML 将不会安装任何与框架相关的包。
pip_requirements_file 必需	str 一个字符串，表示 pip 要求文本文件的相对路径。这可以与 `pip_packages` 参数结合使用。
environment_variables 必需	dict 环境变量名称和值的字典。这些环境变量是在执行用户脚本的进程上设置的。
environment_definition 必需	Environment 试验的环境定义。它包括 PythonSection、DockerSection 和环境变量。可以使用此参数设置未通过其他参数直接公开给估算器构造的任何环境选项。如果指定此参数，它将优先于其他与环境相关的参数，例如`use_gpu`，`custom_docker_image`或`conda_packagespip_packages`。这些无效组合将报告错误。
inputs 必需	list 要用作输入的对象DataReference DatasetConsumptionConfig列表。
source_directory_data_store 必需	Datastore 项目共享的后盾数据存储。
shm_size 必需	str Docker 容器的共享内存块的大小。如果未设置，则使用默认azureml.core.environment._DEFAULT_SHM_SIZE。有关详细信息，请查看 Docker 运行参考。
resume_from 必需	DataPath 包含从中恢复试验的检查点或模型文件的数据路径。
max_run_duration_seconds 必需	int 运行允许的最大时间。如果运行时间超过此值，Azure ML 将尝试自动取消运行。
framework_version 必需	str 用于执行训练代码的 TensorFlow 版本。如果未提供版本，估算器将默认为 Azure ML 支持的最新版本。用于 `TensorFlow.get_supported_versions()` 返回列表以获取当前 Azure ML SDK 支持的所有版本的列表。
source_directory 必需	str 包含试验配置文件的本地目录。
compute_target 必需	AbstractComputeTarget 或 str 将进行训练的计算目标。这可以是对象，也可以是字符串“local”。
vm_size 必需	str 将针对训练创建的计算目标的 VM 大小。支持的值：任何 Azure VM 大小。
vm_priority 必需	str 将为训练创建的计算目标的 VM 优先级。如果未指定，则使用“专用”。支持的值：“dedicated”和“lowpriority”。这仅在输入中指定的时间 `vm_size param` 生效。
entry_script 必需	str 包含训练脚本的文件的相对路径。
script_params 必需	dict 要传递给指定 `entry_script`tne 训练脚本的命令行参数字典。
node_count 必需	int 用于训练的计算目标中的节点数。 AmlCompute分布式训练仅支持目标（`node_count`>1）。
process_count_per_node 必需	int 使用 MPI 时，每个节点的进程数。
worker_count 必需	int 使用参数服务器时，工作器节点数。荒废的。指定为参数的 `distributed_training` 一部分。
parameter_server_count 必需	int 使用参数服务器时，参数服务器节点数。
distributed_backend 必需	str 用于分布式训练的通信后端。荒废的。使用 `distributed_training` 参数。支持的值：“mpi”和“ps”。 “mpi”表示 MPI/Horovod，“ps”表示参数服务器。当任一或 `node_countprocess_count_per_nodeworker_countparameter_server_count`> 1 或 1 时，此参数是必需的。对于“ps”，其`worker_count`和`parameter_server_count`应小于或等于 `node_count` * （每个节点的 CPU 数或 GPU 数）当 == 1 和 `node_count` == 1 时`process_count_per_node`，除非显式设置了后端，否则不会使用后端。 AmlCompute分布式训练仅支持目标。分布式训练支持。
distributed_training 必需	ParameterServer 或 Mpi 用于运行分布式训练作业的参数。若要使用参数服务器后端运行分布式作业，请使用ParameterServer对象进行指定和`worker_count`指定`parameter_server_count`。和`worker_count`参数的总`parameter_server_count`和应小于或等于 `node_count` * （每个节点的 CPU 数或 GPU 数）。若要使用 MPI 后端运行分布式作业，请使用 Mpi 对象来指定 `process_count_per_node`。
use_gpu 必需	bool 指定运行试验的环境是否应支持 GPU。如果为 true，则会在环境中使用基于 GPU 的默认 Docker 映像。如果为 false，将使用基于 CPU 的映像。仅当未设置参数时 `custom_docker_image` ，才会使用默认 docker 映像（CPU 或 GPU）。此设置仅在启用了 Docker 的计算目标中使用。
use_docker 必需	bool 指定运行试验的环境是否应基于 Docker。
custom_docker_base_image 必需	str 将从中生成要用于训练的映像的 Docker 映像的名称。荒废的。使用 `custom_docker_image` 参数。如果未设置，则默认基于 CPU 的映像将用作基础映像。
custom_docker_image 必需	str 将从中生成要用于训练的映像的 Docker 映像的名称。如果未设置，则默认基于 CPU 的映像将用作基础映像。
image_registry_details 必需	ContainerRegistry Docker 映像注册表的详细信息。
user_managed 必需	bool 指定 Azure ML 是否重复使用现有的 Python 环境。如果为 false，Azure ML 将基于 conda 依赖项规范创建 Python 环境。
conda_packages 必需	list 表示要添加到试验的 Python 环境的 conda 包的字符串列表。
pip_packages 必需	list 表示要添加到试验的 Python 环境的 pip 包的字符串列表。
conda_dependencies_file_path 必需	str conda 依赖项 yaml 文件的相对路径。如果指定，Azure ML 将不会安装任何与框架相关的包。荒废的。使用 `conda_dependencies_file` 参数。
pip_requirements_file_path 必需	str pip 要求文本文件的相对路径。这可以与 `pip_packages` 参数结合使用。荒废的。使用 `pip_requirements_file` 参数。
environment_variables 必需	dict 环境变量名称和值的字典。这些环境变量是在执行用户脚本的进程上设置的。
conda_dependencies_file 必需	str 一个字符串，表示 conda 依赖项 yaml 文件的相对路径。如果指定，Azure ML 将不会安装任何与框架相关的包。
pip_requirements_file 必需	str pip 要求文本文件的相对路径。这可以与 `pip_packages` 参数结合使用。
environment_variables 必需	环境变量名称和值的字典。这些环境变量是在执行用户脚本的进程上设置的。
environment_definition 必需	Environment 试验的环境定义。它包括 PythonSection、DockerSection 和环境变量。可以使用此参数设置未通过其他参数直接公开给估算器构造的任何环境选项。如果指定此参数，它将优先于其他与环境相关的参数，例如`use_gpu`，`custom_docker_image`或`conda_packagespip_packages`。这些无效组合将报告错误。
inputs 必需	list azureml.data.data_reference的列表。要用作输入的 DataReference 对象。
source_directory_data_store 必需	str 项目共享的后盾数据存储。
shm_size 必需	Docker 容器的共享内存块的大小。如果未设置，则默认为azureml.core.environment._DEFAULT_SHM_SIZE。有关详细信息，请参阅
framework_version 必需	str 用于执行训练代码的 TensorFlow 版本。如果未提供版本，估算器将默认为 Azure ML 支持的最新版本。使用 TensorFlow.get_supported_versions（）返回一个列表，以获取当前 Azure ML SDK 支持的所有版本的列表。
_enable_optimized_mode 必需	bool 使用预生成的框架映像启用增量环境生成，以加快环境准备速度。预建框架映像基于预安装的框架依赖项的 Azure ML 默认 CPU/GPU 基础映像构建。
_disable_validation 必需	bool 在运行提交之前禁用脚本验证。默认值为 True。
_show_lint_warnings 必需	bool 显示脚本 linting 警告。默认值为 False。
_show_package_warnings 必需	bool 显示包验证警告。默认值为 False。

注解

提交训练作业时，Azure ML 在 Docker 容器中的 conda 环境中运行脚本。 TensorFlow 容器已安装以下依赖项。

依赖项 |TensorFlow 1.10/1.12 |TensorFlow 1.13 |TF 2.0/2.1/2.2 |———————————— |——————– |————— |—————— |Python |3.6.2 |3.6.2 |3.6.2 |CUDA （仅限 GPU 映像） |9.0 |10.0 |10.0 |cuDNN （仅限 GPU 映像） |7.6.3 |7.6.3 |7.6.3 |NCCL （仅限 GPU 映像） |2.4.8 |2.4.8 |2.4.8 |azureml-defaults |最新 |最新 |最新 |azureml-dataset-runtime[fuse，pandas] |最新 |最新 |最新 |IntelMpi |2018.3.222 |2018.3.222 |—- |OpenMpi |—- |—- |3.1.2 |horovod |0.15.2 |0.16.1 |0.18.1/0.19.1/0.19.5 |miniconda |4.5.11 |4.5.11 |4.5.11 |tensorflow |1.10.0/1.12.0 |1.13.1 |2.0.0/2.1.0/2.2.0 |git |2.7.4 |2.7.4 |2.7.4 |

v1 Docker 映像扩展 Ubuntu 16.04。 v2 Docker 映像扩展 Ubuntu 18.04。

若要安装其他依赖项，可以使用 pip_packages 或 conda_packages 参数。或者，可以指定 pip_requirements_file 或 conda_dependencies_file 参数。或者，可以生成自己的映像，并将 custom_docker_image 参数传递给估算器构造函数。

有关 TensorFlow 训练中使用的 Docker 容器的详细信息，请参阅 https://github.com/Azure/AzureML-Containers。

TensorFlow 类支持两种分布式训练方法：

使用基于 MPI 的分布式训练

Horovod 框架
本机分布式 TensorFlow

有关在分布式训练中使用 TensorFlow 的示例和详细信息，请参阅教程：使用 Azure 机器学习大规模训练和注册 TensorFlow 模型。

属性

DEFAULT_VERSION

DEFAULT_VERSION = '1.13'

FRAMEWORK_NAME

FRAMEWORK_NAME = 'TensorFlow'

通过

TensorFlow 类

构造函数

参数

注解

属性

DEFAULT_VERSION

FRAMEWORK_NAME

反馈