AdlaStep Clase

Crea un paso de canalización de Azure ML para ejecutar un script U-SQL con Azure Data Lake Analytics.

Para obtener un ejemplo de uso de este AdlaStep, consulte el cuaderno https://aka.ms/pl-adla.

Cree un paso de canalización de Azure ML para ejecutar un script de U-SQL con Azure Data Lake Analytics.

Constructor

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Parámetros

Nombre	Description
script_name Requerido	str [Obligatorio] Nombre de un script de U-SQL, en relación con `source_directory`.
name	str Nombre del paso. Si no se especifica, `script_name` se usa . Valor predeterminado: None
inputs	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Lista de enlaces de puerto de entrada. Valor predeterminado: None
outputs	list[Union[PipelineData, PipelineOutputAbstractDataset, OutputPortBinding]] Lista de enlaces de puerto de salida. Valor predeterminado: None
params	dict Diccionario de pares nombre-valor. Valor predeterminado: None
degree_of_parallelism	int El grado de paralelismo que se va a usar en este trabajo. Debe ser mayor que 0. Si se establece en menor que 0, el valor predeterminado es 1. Valor predeterminado: None
priority	int El valor de prioridad que se usará en el trabajo actual. Los números más bajos tienen una prioridad más alta. De forma predeterminada, un trabajo tiene una prioridad de 1000. El valor que especifique debe ser mayor que 0. Valor predeterminado: None
runtime_version	str La versión en tiempo de ejecución del motor de Data Lake Analytics. Valor predeterminado: None
compute_target	AdlaCompute, str [Obligatorio] Proceso de ADLA que se va a usar para este trabajo. Valor predeterminado: None
source_directory	str Carpeta que contiene el script, los ensamblados, etc. Valor predeterminado: None
allow_reuse	bool Indica si el paso debe reutilizar los resultados anteriores al volver a ejecutarse con la misma configuración. La reutilización está habilitada de forma predeterminada. Si el contenido del paso (scripts o dependencias), así como las entradas y los parámetros permanecen sin cambios, se reutiliza la salida de la ejecución anterior de este paso. Al volver a usar el paso, en lugar de enviar el trabajo al proceso, los resultados de la ejecución anterior se pone inmediatamente a disposición de los pasos posteriores. Si usa conjuntos de datos de Azure Machine Learning como entradas, la reutilización viene determinada por si la definición del conjunto de datos ha cambiado, no por si los datos subyacentes han cambiado. Valor predeterminado: True
version	str Etiqueta de versión opcional para indicar un cambio en la funcionalidad del paso. Valor predeterminado: None
hash_paths	list EN DESUSO: ya no es necesario. Lista de rutas de acceso a hash al comprobar si hay cambios en el contenido del paso. Si no se detectan cambios, la canalización reutilizará el contenido del paso de una ejecución anterior. De forma predeterminada, el contenido de `source_directory` se aplica un hash excepto a los archivos enumerados en .amlignore o .gitignore. Valor predeterminado: None
script_name Requerido	str [Obligatorio] Nombre de un script de U-SQL, en relación con `source_directory`.
name Requerido	str Nombre del paso. Si no se especifica, `script_name` se usa .
inputs Requerido	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Lista de enlaces de puerto de entrada
outputs Requerido	list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]] Lista de enlaces de puerto de salida.
params Requerido	dict Diccionario de pares nombre-valor.
degree_of_parallelism Requerido	int El grado de paralelismo que se va a usar en este trabajo. Debe ser mayor que 0. Si se establece en menor que 0, el valor predeterminado es 1.
priority Requerido	int El valor de prioridad que se usará en el trabajo actual. Los números más bajos tienen una prioridad más alta. De forma predeterminada, un trabajo tiene una prioridad de 1000. El valor que especifique debe ser mayor que 0.
runtime_version Requerido	str La versión en tiempo de ejecución del motor de Data Lake Analytics.
compute_target Requerido	AdlaCompute, str [Obligatorio] Proceso de ADLA que se va a usar para este trabajo.
source_directory Requerido	str Carpeta que contiene el script, los ensamblados, etc.
allow_reuse Requerido	bool Indica si el paso debe reutilizar los resultados anteriores al volver a ejecutarse con la misma configuración. La reutilización está habilitada de forma predeterminada. Si el contenido del paso (scripts o dependencias), así como las entradas y los parámetros permanecen sin cambios, se reutiliza la salida de la ejecución anterior de este paso. Al volver a usar el paso, en lugar de enviar el trabajo al proceso, los resultados de la ejecución anterior se pone inmediatamente a disposición de los pasos posteriores. Si usa conjuntos de datos de Azure Machine Learning como entradas, la reutilización viene determinada por si la definición del conjunto de datos ha cambiado, no por si los datos subyacentes han cambiado.
version Requerido	str Etiqueta de versión opcional para indicar un cambio en la funcionalidad del paso.
hash_paths Requerido	list EN DESUSO: ya no es necesario. Lista de rutas de acceso a hash al comprobar si hay cambios en el contenido del paso. Si no se detectan cambios, la canalización reutilizará el contenido del paso de una ejecución anterior. De forma predeterminada, el contenido de `source_directory` se aplica un hash excepto a los archivos enumerados en .amlignore o .gitignore.

Comentarios

Puede usar @@name@@ sintaxis en el script para hacer referencia a entradas, salidas y parámetros.

si name es el nombre de un enlace de puerto de entrada o salida, las apariciones de @@name@@ en el script se reemplazan por la ruta de acceso de datos real de un enlace de puerto correspondiente.
si name coincide con cualquier clave en dict params , las apariciones de @@name@@ se reemplazarán por el valor correspondiente en dict.

AdlaStep solo funciona con datos almacenados en data Lake Storage predeterminado de la cuenta de Data Lake Analytics. Si los datos están en un almacenamiento no predeterminado, use para DataTransferStep copiar los datos en el almacenamiento predeterminado. Para encontrar el almacenamiento predeterminado, abra la cuenta de Data Lake Analytics en Azure Portal y, a continuación, vaya al elemento "Orígenes de datos" en Configuración en el panel izquierdo.

En el ejemplo siguiente se muestra cómo usar AdlaStep en una canalización de Azure Machine Learning.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

El ejemplo completo está disponible en https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Métodos

create_node

Cree un nodo a partir del paso AdlaStep y agréguelo al gráfico especificado.

Este método no está pensado para usarse directamente. Cuando se crea una instancia de una canalización con este paso, Azure ML pasa automáticamente los parámetros necesarios a través de este método para que el paso se pueda agregar a un grafo de canalización que represente el flujo de trabajo.

create_node

Cree un nodo a partir del paso AdlaStep y agréguelo al gráfico especificado.

create_node(graph, default_datastore, context)

Parámetros

Nombre	Description
graph Requerido	Graph Objeto de grafo.
default_datastore Requerido	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] Almacén de datos predeterminado.
context Requerido	<xref:azureml.pipeline.core._GraphContext> Contexto del grafo.

Devoluciones

Tipo	Description
Node	Objeto de nodo.

Compartir a través de

AdlaStep Clase

Constructor

Parámetros

Comentarios

Métodos

create_node

Parámetros

Devoluciones

Comentarios