AdlaStep Clase
Crea un paso de canalización de Azure ML para ejecutar un script U-SQL con Azure Data Lake Analytics.
Para obtener un ejemplo de uso de este AdlaStep, consulte el cuaderno https://aka.ms/pl-adla.
Cree un paso de canalización de Azure ML para ejecutar un script de U-SQL con Azure Data Lake Analytics.
Constructor
AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)
Parámetros
Nombre | Description |
---|---|
script_name
Requerido
|
[Obligatorio] Nombre de un script de U-SQL, en relación con |
name
|
Nombre del paso. Si no se especifica, Valor predeterminado: None
|
inputs
|
Lista de enlaces de puerto de entrada. Valor predeterminado: None
|
outputs
|
Lista de enlaces de puerto de salida. Valor predeterminado: None
|
params
|
Diccionario de pares nombre-valor. Valor predeterminado: None
|
degree_of_parallelism
|
El grado de paralelismo que se va a usar en este trabajo. Debe ser mayor que 0. Si se establece en menor que 0, el valor predeterminado es 1. Valor predeterminado: None
|
priority
|
El valor de prioridad que se usará en el trabajo actual. Los números más bajos tienen una prioridad más alta. De forma predeterminada, un trabajo tiene una prioridad de 1000. El valor que especifique debe ser mayor que 0. Valor predeterminado: None
|
runtime_version
|
La versión en tiempo de ejecución del motor de Data Lake Analytics. Valor predeterminado: None
|
compute_target
|
[Obligatorio] Proceso de ADLA que se va a usar para este trabajo. Valor predeterminado: None
|
source_directory
|
Carpeta que contiene el script, los ensamblados, etc. Valor predeterminado: None
|
allow_reuse
|
Indica si el paso debe reutilizar los resultados anteriores al volver a ejecutarse con la misma configuración. La reutilización está habilitada de forma predeterminada. Si el contenido del paso (scripts o dependencias), así como las entradas y los parámetros permanecen sin cambios, se reutiliza la salida de la ejecución anterior de este paso. Al volver a usar el paso, en lugar de enviar el trabajo al proceso, los resultados de la ejecución anterior se pone inmediatamente a disposición de los pasos posteriores. Si usa conjuntos de datos de Azure Machine Learning como entradas, la reutilización viene determinada por si la definición del conjunto de datos ha cambiado, no por si los datos subyacentes han cambiado. Valor predeterminado: True
|
version
|
Etiqueta de versión opcional para indicar un cambio en la funcionalidad del paso. Valor predeterminado: None
|
hash_paths
|
EN DESUSO: ya no es necesario. Lista de rutas de acceso a hash al comprobar si hay cambios en el contenido del paso. Si no se detectan cambios, la canalización reutilizará el contenido del paso de una ejecución anterior. De forma predeterminada, el contenido de Valor predeterminado: None
|
script_name
Requerido
|
[Obligatorio] Nombre de un script de U-SQL, en relación con |
name
Requerido
|
Nombre del paso. Si no se especifica, |
inputs
Requerido
|
Lista de enlaces de puerto de entrada |
outputs
Requerido
|
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]
Lista de enlaces de puerto de salida. |
params
Requerido
|
Diccionario de pares nombre-valor. |
degree_of_parallelism
Requerido
|
El grado de paralelismo que se va a usar en este trabajo. Debe ser mayor que 0. Si se establece en menor que 0, el valor predeterminado es 1. |
priority
Requerido
|
El valor de prioridad que se usará en el trabajo actual. Los números más bajos tienen una prioridad más alta. De forma predeterminada, un trabajo tiene una prioridad de 1000. El valor que especifique debe ser mayor que 0. |
runtime_version
Requerido
|
La versión en tiempo de ejecución del motor de Data Lake Analytics. |
compute_target
Requerido
|
[Obligatorio] Proceso de ADLA que se va a usar para este trabajo. |
source_directory
Requerido
|
Carpeta que contiene el script, los ensamblados, etc. |
allow_reuse
Requerido
|
Indica si el paso debe reutilizar los resultados anteriores al volver a ejecutarse con la misma configuración. La reutilización está habilitada de forma predeterminada. Si el contenido del paso (scripts o dependencias), así como las entradas y los parámetros permanecen sin cambios, se reutiliza la salida de la ejecución anterior de este paso. Al volver a usar el paso, en lugar de enviar el trabajo al proceso, los resultados de la ejecución anterior se pone inmediatamente a disposición de los pasos posteriores. Si usa conjuntos de datos de Azure Machine Learning como entradas, la reutilización viene determinada por si la definición del conjunto de datos ha cambiado, no por si los datos subyacentes han cambiado. |
version
Requerido
|
Etiqueta de versión opcional para indicar un cambio en la funcionalidad del paso. |
hash_paths
Requerido
|
EN DESUSO: ya no es necesario. Lista de rutas de acceso a hash al comprobar si hay cambios en el contenido del paso. Si no se detectan cambios, la canalización reutilizará el contenido del paso de una ejecución anterior. De forma predeterminada, el contenido de |
Comentarios
Puede usar @@name@@ sintaxis en el script para hacer referencia a entradas, salidas y parámetros.
si name es el nombre de un enlace de puerto de entrada o salida, las apariciones de @@name@@ en el script se reemplazan por la ruta de acceso de datos real de un enlace de puerto correspondiente.
si name coincide con cualquier clave en dict params , las apariciones de @@name@@ se reemplazarán por el valor correspondiente en dict.
AdlaStep solo funciona con datos almacenados en data Lake Storage predeterminado de la cuenta de Data Lake Analytics. Si los datos están en un almacenamiento no predeterminado, use para DataTransferStep copiar los datos en el almacenamiento predeterminado. Para encontrar el almacenamiento predeterminado, abra la cuenta de Data Lake Analytics en Azure Portal y, a continuación, vaya al elemento "Orígenes de datos" en Configuración en el panel izquierdo.
En el ejemplo siguiente se muestra cómo usar AdlaStep en una canalización de Azure Machine Learning.
adla_step = AdlaStep(
name='extract_employee_names',
script_name='sample_script.usql',
source_directory=sample_folder,
inputs=[sample_input],
outputs=[sample_output],
compute_target=adla_compute)
El ejemplo completo está disponible en https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb
Métodos
create_node |
Cree un nodo a partir del paso AdlaStep y agréguelo al gráfico especificado. Este método no está pensado para usarse directamente. Cuando se crea una instancia de una canalización con este paso, Azure ML pasa automáticamente los parámetros necesarios a través de este método para que el paso se pueda agregar a un grafo de canalización que represente el flujo de trabajo. |
create_node
Cree un nodo a partir del paso AdlaStep y agréguelo al gráfico especificado.
Este método no está pensado para usarse directamente. Cuando se crea una instancia de una canalización con este paso, Azure ML pasa automáticamente los parámetros necesarios a través de este método para que el paso se pueda agregar a un grafo de canalización que represente el flujo de trabajo.
create_node(graph, default_datastore, context)
Parámetros
Nombre | Description |
---|---|
graph
Requerido
|
Objeto de grafo. |
default_datastore
Requerido
|
Almacén de datos predeterminado. |
context
Requerido
|
<xref:azureml.pipeline.core._GraphContext>
Contexto del grafo. |
Devoluciones
Tipo | Description |
---|---|
Objeto de nodo. |