Compartir a través de


OutputFileDatasetConfig Clase

Representa cómo copiar la salida de una ejecución y promocionarse como un objeto FileDataset.

OutputFileDatasetConfig permite especificar cómo desea que una ruta de acceso local determinada en el destino de proceso se cargue en el destino de proceso. Si no se pasan argumentos al constructor, se generará automáticamente un nombre, un destino y una ruta de acceso local.

Un ejemplo de no pasar ningún argumento:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Un ejemplo de cómo crear una salida y, a continuación, promover la salida a un conjunto de datos tabular y registrarla con el nombre foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Inicialice outputFileDatasetConfig.

OutputFileDatasetConfig permite especificar cómo desea que una ruta de acceso local determinada en el destino de proceso se cargue en el destino de proceso. Si no se pasan argumentos al constructor, se generará automáticamente un nombre, un destino y una ruta de acceso local.

Un ejemplo de no pasar ningún argumento:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Un ejemplo de cómo crear una salida y, a continuación, promover la salida a un conjunto de datos tabular y registrarla con el nombre foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Constructor

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Parámetros

Nombre Description
name
Requerido
str

Nombre de la salida específica de esta ejecución. Esto se usa generalmente con fines de linaje. Si se establece en Ninguno, se generará automáticamente un nombre. El nombre también se convertirá en una variable de entorno que contiene la ruta de acceso local de donde puede escribir los archivos y carpetas de salida en los que se cargará en el destino.

destination
Requerido

Destino al que se va a copiar la salida. Si se establece en Ninguno, se copiará la salida en el almacén de datos workspaceblobstore, en la ruta de acceso /dataset/{run-id}/{output-name}, donde run-id es el identificador de ejecución y el nombre de salida es el nombre de salida del parámetro name anterior. El destino es una tupla donde el primer elemento es el almacén de datos y el segundo elemento es la ruta de acceso dentro del almacén de datos en el que copiar los datos.

La ruta de acceso dentro del almacén de datos puede ser una ruta de acceso de plantilla. Una ruta de acceso de plantilla es simplemente una ruta de acceso normal, pero con marcadores de posición dentro. Esos marcadores de posición se resolverán en el momento adecuado. La sintaxis de los marcadores de posición es {placeholder}, por ejemplo, /path/with/{placeholder}. Actualmente solo se admiten dos marcadores de posición, {run-id} y {output-name}.

source
Requerido
str

Ruta de acceso dentro del destino de proceso desde la que copiar los datos. Si se establece en Ninguno, se establecerá en un directorio que creamos dentro del directorio temporal del sistema operativo del destino de proceso.

partition_format
Requerido
str

Especifique el formato de partición de la ruta de acceso. El valor predeterminado es Ninguno. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato '{column_name}' crea una columna de cadena y '{column_name:aaaa/MM/dd/HH/mm/ss}' crea una columna datetime, donde 'aaaa', 'MM', 'dd', 'HH', 'mm' y 'ss' se usan para extraer año, mes, día, hora, minuto y segundo para el tipo datetime. El formato debe comenzar desde la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso '.. /Accounts/2019/01/01/data.parquet' donde la partición es por nombre y hora del departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una columna de cadena 'Department' con el valor 'Accounts' y una columna datetime 'PartitionDate' con el valor '2019-01-01'.

name
Requerido
str

Nombre de la salida específica de esta ejecución. Esto se usa generalmente con fines de linaje. Si se establece en Ninguno, se generará automáticamente un nombre. El nombre también se convertirá en una variable de entorno que contiene la ruta de acceso local de donde puede escribir los archivos y carpetas de salida en los que se cargará en el destino.

destination
Requerido

Destino al que se va a copiar la salida. Si se establece en Ninguno, se copiará la salida en el almacén de datos workspaceblobstore, en la ruta de acceso /dataset/{run-id}/{output-name}, donde run-id es el identificador de ejecución y el nombre de salida es el nombre de salida del parámetro name anterior. El destino es una tupla donde el primer elemento es el almacén de datos y el segundo elemento es la ruta de acceso dentro del almacén de datos en el que copiar los datos.

La ruta de acceso dentro del almacén de datos puede ser una ruta de acceso de plantilla. Una ruta de acceso de plantilla es simplemente una ruta de acceso normal, pero con marcadores de posición dentro. Esos marcadores de posición se resolverán en el momento adecuado. La sintaxis de los marcadores de posición es {placeholder}, por ejemplo, /path/with/{placeholder}. Actualmente solo se admiten dos marcadores de posición, {run-id} y {output-name}.

source
Requerido
str

Ruta de acceso dentro del destino de proceso desde la que copiar los datos. Si se establece en Ninguno, se establecerá en un directorio que creamos dentro del directorio temporal del sistema operativo del destino de proceso.

partition_format
Requerido
str

Especifique el formato de partición de la ruta de acceso. El valor predeterminado es Ninguno. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato '{column_name}' crea una columna de cadena y '{column_name:aaaa/MM/dd/HH/mm/ss}' crea una columna datetime, donde 'aaaa', 'MM', 'dd', 'HH', 'mm' y 'ss' se usan para extraer año, mes, día, hora, minuto y segundo para el tipo datetime. El formato debe comenzar desde la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso '.. /Accounts/2019/01/01/data.parquet' donde la partición es por nombre y hora del departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una columna de cadena 'Department' con el valor 'Accounts' y una columna datetime 'PartitionDate' con el valor '2019-01-01'.

Comentarios

Puede pasar OutputFileDatasetConfig como argumento a la ejecución y se traducirá automáticamente en la ruta de acceso local en el proceso. El argumento de origen se usará si se especifica uno; de lo contrario, se generará automáticamente un directorio en la carpeta temporal del sistema operativo. Los archivos y carpetas dentro del directorio de origen se copiarán en el destino en función de la configuración de salida.

De forma predeterminada, el modo en el que se copiará la salida en el almacenamiento de destino se establecerá en montaje. Para obtener más información sobre el modo de montaje, consulte la documentación de as_mount.

Métodos

as_input

Especifique cómo consumir la salida como entrada en los pasos posteriores de la canalización.

as_mount

Establezca el modo de salida que se va a montar.

Para el modo de montaje, el directorio de salida será un directorio montado en FUSE. Los archivos escritos en el directorio montado se cargarán cuando se cierre el archivo.

as_upload

Establezca el modo de salida que se va a cargar.

Para el modo de carga, los archivos escritos en el directorio de salida se cargarán al final del trabajo. Si se produce un error en el trabajo o se cancela, no se cargará el directorio de salida.

as_input

Especifique cómo consumir la salida como entrada en los pasos posteriores de la canalización.

as_input(name=None)

Parámetros

Nombre Description
name
Requerido
str

Nombre de la entrada específica de la ejecución.

Devoluciones

Tipo Description

Instancia DatasetConsumptionConfig que describe cómo entregar los datos de entrada.

as_mount

Establezca el modo de salida que se va a montar.

Para el modo de montaje, el directorio de salida será un directorio montado en FUSE. Los archivos escritos en el directorio montado se cargarán cuando se cierre el archivo.

as_mount(disable_metadata_cache=False)

Parámetros

Nombre Description
disable_metadata_cache
Requerido

Si se almacenan en caché los metadatos en el nodo local, si se deshabilita un nodo, no podrá ver los archivos generados desde otros nodos durante la ejecución del trabajo.

Devoluciones

Tipo Description

Instancia OutputFileDatasetConfig con el modo establecido en montar.

as_upload

Establezca el modo de salida que se va a cargar.

Para el modo de carga, los archivos escritos en el directorio de salida se cargarán al final del trabajo. Si se produce un error en el trabajo o se cancela, no se cargará el directorio de salida.

as_upload(overwrite=False, source_globs=None)

Parámetros

Nombre Description
overwrite
Requerido

Si se deben sobrescribir los archivos que ya existen en el destino.

source_globs
Requerido

Patrones Glob usados para filtrar los archivos que se cargarán.

Devoluciones

Tipo Description

Instancia OutputFileDatasetConfig con el modo establecido para cargar.