OutputFileDatasetConfig Clase
Representa cómo copiar la salida de una ejecución y promocionarse como un objeto FileDataset.
OutputFileDatasetConfig permite especificar cómo desea que una ruta de acceso local determinada en el destino de proceso se cargue en el destino de proceso. Si no se pasan argumentos al constructor, se generará automáticamente un nombre, un destino y una ruta de acceso local.
Un ejemplo de no pasar ningún argumento:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Un ejemplo de cómo crear una salida y, a continuación, promover la salida a un conjunto de datos tabular y registrarla con el nombre foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Inicialice outputFileDatasetConfig.
OutputFileDatasetConfig permite especificar cómo desea que una ruta de acceso local determinada en el destino de proceso se cargue en el destino de proceso. Si no se pasan argumentos al constructor, se generará automáticamente un nombre, un destino y una ruta de acceso local.
Un ejemplo de no pasar ningún argumento:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Un ejemplo de cómo crear una salida y, a continuación, promover la salida a un conjunto de datos tabular y registrarla con el nombre foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Constructor
OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)
Parámetros
Nombre | Description |
---|---|
name
Requerido
|
Nombre de la salida específica de esta ejecución. Esto se usa generalmente con fines de linaje. Si se establece en Ninguno, se generará automáticamente un nombre. El nombre también se convertirá en una variable de entorno que contiene la ruta de acceso local de donde puede escribir los archivos y carpetas de salida en los que se cargará en el destino. |
destination
Requerido
|
Destino al que se va a copiar la salida. Si se establece en Ninguno, se copiará la salida en el almacén de datos workspaceblobstore, en la ruta de acceso /dataset/{run-id}/{output-name}, donde run-id es el identificador de ejecución y el nombre de salida es el nombre de salida del parámetro name anterior. El destino es una tupla donde el primer elemento es el almacén de datos y el segundo elemento es la ruta de acceso dentro del almacén de datos en el que copiar los datos. La ruta de acceso dentro del almacén de datos puede ser una ruta de acceso de plantilla. Una ruta de acceso de plantilla es simplemente una ruta de acceso normal, pero con marcadores de posición dentro. Esos marcadores de posición se resolverán en el momento adecuado. La sintaxis de los marcadores de posición es {placeholder}, por ejemplo, /path/with/{placeholder}. Actualmente solo se admiten dos marcadores de posición, {run-id} y {output-name}. |
source
Requerido
|
Ruta de acceso dentro del destino de proceso desde la que copiar los datos. Si se establece en Ninguno, se establecerá en un directorio que creamos dentro del directorio temporal del sistema operativo del destino de proceso. |
partition_format
Requerido
|
Especifique el formato de partición de la ruta de acceso. El valor predeterminado es Ninguno. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato '{column_name}' crea una columna de cadena y '{column_name:aaaa/MM/dd/HH/mm/ss}' crea una columna datetime, donde 'aaaa', 'MM', 'dd', 'HH', 'mm' y 'ss' se usan para extraer año, mes, día, hora, minuto y segundo para el tipo datetime. El formato debe comenzar desde la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso '.. /Accounts/2019/01/01/data.parquet' donde la partición es por nombre y hora del departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una columna de cadena 'Department' con el valor 'Accounts' y una columna datetime 'PartitionDate' con el valor '2019-01-01'. |
name
Requerido
|
Nombre de la salida específica de esta ejecución. Esto se usa generalmente con fines de linaje. Si se establece en Ninguno, se generará automáticamente un nombre. El nombre también se convertirá en una variable de entorno que contiene la ruta de acceso local de donde puede escribir los archivos y carpetas de salida en los que se cargará en el destino. |
destination
Requerido
|
Destino al que se va a copiar la salida. Si se establece en Ninguno, se copiará la salida en el almacén de datos workspaceblobstore, en la ruta de acceso /dataset/{run-id}/{output-name}, donde run-id es el identificador de ejecución y el nombre de salida es el nombre de salida del parámetro name anterior. El destino es una tupla donde el primer elemento es el almacén de datos y el segundo elemento es la ruta de acceso dentro del almacén de datos en el que copiar los datos. La ruta de acceso dentro del almacén de datos puede ser una ruta de acceso de plantilla. Una ruta de acceso de plantilla es simplemente una ruta de acceso normal, pero con marcadores de posición dentro. Esos marcadores de posición se resolverán en el momento adecuado. La sintaxis de los marcadores de posición es {placeholder}, por ejemplo, /path/with/{placeholder}. Actualmente solo se admiten dos marcadores de posición, {run-id} y {output-name}. |
source
Requerido
|
Ruta de acceso dentro del destino de proceso desde la que copiar los datos. Si se establece en Ninguno, se establecerá en un directorio que creamos dentro del directorio temporal del sistema operativo del destino de proceso. |
partition_format
Requerido
|
Especifique el formato de partición de la ruta de acceso. El valor predeterminado es Ninguno. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato '{column_name}' crea una columna de cadena y '{column_name:aaaa/MM/dd/HH/mm/ss}' crea una columna datetime, donde 'aaaa', 'MM', 'dd', 'HH', 'mm' y 'ss' se usan para extraer año, mes, día, hora, minuto y segundo para el tipo datetime. El formato debe comenzar desde la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso '.. /Accounts/2019/01/01/data.parquet' donde la partición es por nombre y hora del departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una columna de cadena 'Department' con el valor 'Accounts' y una columna datetime 'PartitionDate' con el valor '2019-01-01'. |
Comentarios
Puede pasar OutputFileDatasetConfig como argumento a la ejecución y se traducirá automáticamente en la ruta de acceso local en el proceso. El argumento de origen se usará si se especifica uno; de lo contrario, se generará automáticamente un directorio en la carpeta temporal del sistema operativo. Los archivos y carpetas dentro del directorio de origen se copiarán en el destino en función de la configuración de salida.
De forma predeterminada, el modo en el que se copiará la salida en el almacenamiento de destino se establecerá en montaje. Para obtener más información sobre el modo de montaje, consulte la documentación de as_mount.
Métodos
as_input |
Especifique cómo consumir la salida como entrada en los pasos posteriores de la canalización. |
as_mount |
Establezca el modo de salida que se va a montar. Para el modo de montaje, el directorio de salida será un directorio montado en FUSE. Los archivos escritos en el directorio montado se cargarán cuando se cierre el archivo. |
as_upload |
Establezca el modo de salida que se va a cargar. Para el modo de carga, los archivos escritos en el directorio de salida se cargarán al final del trabajo. Si se produce un error en el trabajo o se cancela, no se cargará el directorio de salida. |
as_input
Especifique cómo consumir la salida como entrada en los pasos posteriores de la canalización.
as_input(name=None)
Parámetros
Nombre | Description |
---|---|
name
Requerido
|
Nombre de la entrada específica de la ejecución. |
Devoluciones
Tipo | Description |
---|---|
Instancia DatasetConsumptionConfig que describe cómo entregar los datos de entrada. |
as_mount
Establezca el modo de salida que se va a montar.
Para el modo de montaje, el directorio de salida será un directorio montado en FUSE. Los archivos escritos en el directorio montado se cargarán cuando se cierre el archivo.
as_mount(disable_metadata_cache=False)
Parámetros
Nombre | Description |
---|---|
disable_metadata_cache
Requerido
|
Si se almacenan en caché los metadatos en el nodo local, si se deshabilita un nodo, no podrá ver los archivos generados desde otros nodos durante la ejecución del trabajo. |
Devoluciones
Tipo | Description |
---|---|
Instancia OutputFileDatasetConfig con el modo establecido en montar. |
as_upload
Establezca el modo de salida que se va a cargar.
Para el modo de carga, los archivos escritos en el directorio de salida se cargarán al final del trabajo. Si se produce un error en el trabajo o se cancela, no se cargará el directorio de salida.
as_upload(overwrite=False, source_globs=None)
Parámetros
Nombre | Description |
---|---|
overwrite
Requerido
|
Si se deben sobrescribir los archivos que ya existen en el destino. |
source_globs
Requerido
|
Patrones Glob usados para filtrar los archivos que se cargarán. |
Devoluciones
Tipo | Description |
---|---|
Instancia OutputFileDatasetConfig con el modo establecido para cargar. |