Compartir a través de


TabularDataset Clase

Representa un conjunto de datos tabular que se va a usar en Azure Machine Learning.

TabularDataset define una serie de operaciones inmutables evaluadas de forma diferida para cargar datos del origen de datos en una representación tabular. Los datos no se cargan desde el origen hasta que se pide a TabularDataset que entreguen datos.

TabularDataset se crea mediante métodos como from_delimited_files desde la TabularDatasetFactory clase .

Para obtener más información, consulte el artículo Agregar y registrar conjuntos de datos. Para empezar a trabajar con un conjunto de datos tabular, consulte https://aka.ms/tabulardataset-samplenotebook.

Inicialice un objeto TabularDataset.

Este constructor no se supone que se invoque directamente. El conjunto de datos está pensado para crearse mediante TabularDatasetFactory la clase .

Constructor

TabularDataset()

Comentarios

Se puede crear un objeto TabularDataset a partir de archivos CSV, TSV, Parquet o consulta SQL mediante los from_* métodos de la TabularDatasetFactory clase . Puede realizar operaciones de restablecimiento en un objeto TabularDataset, como dividir, omitir y filtrar registros. El resultado del restablecimiento siempre es uno o varios nuevos objetos TabularDataset.

También puede convertir un objeto TabularDataset en otros formatos como un DataFrame de Pandas. La carga de datos real se produce cuando se pide a TabularDataset que entregue los datos en otro mecanismo de almacenamiento (por ejemplo, un dataframe de Pandas o un archivo CSV).

TabularDataset se puede usar como entrada de una ejecución de experimento. También se puede registrar en el área de trabajo con un nombre especificado y recuperarse con ese nombre más adelante.

Métodos

download

Nota:

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.

Descargue los flujos de archivos definidos por el conjunto de datos en la ruta de acceso local.

drop_columns

Quite las columnas especificadas del conjunto de datos.

Si se quita una columna timeseries, también se quitarán las funcionalidades correspondientes para el conjunto de datos devuelto.

filter

Nota:

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.

Filtra los datos, dejando solo los registros que coinciden con la expresión especificada.

get_profile

Nota:

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.

Obtenga el perfil de datos de la última ejecución de perfil enviada para este o el mismo conjunto de datos del área de trabajo.

get_profile_runs

Nota:

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.

Devuelve ejecuciones de perfil anteriores asociadas a este conjunto de datos o al mismo conjunto de datos del área de trabajo.

keep_columns

Mantenga las columnas especificadas y quite todas las demás del conjunto de datos.

Si se quita una columna timeseries, también se quitarán las funcionalidades correspondientes para el conjunto de datos devuelto.

mount

Nota:

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.

Cree un administrador de contextos para montar flujos de archivos definidos por el conjunto de datos como archivos locales.

partition_by

Los datos con particiones se copiarán y generarán en el destino especificado por destino.

cree el conjunto de datos a partir de la ruta de acceso de datos de salida con formato de partición, registre el conjunto de datos si se proporciona el nombre, devuelva el conjunto de datos para la nueva ruta de acceso de datos con particiones.


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset
random_split

Divida los registros del conjunto de datos en dos partes aleatoriamente y aproximadamente por el porcentaje especificado.

El primer conjunto de datos contiene aproximadamente percentage los registros totales y el segundo conjunto de datos los registros restantes.

skip

Omita los registros de la parte superior del conjunto de datos por el recuento especificado.

submit_profile_run

Nota:

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.

Envíe una ejecución de experimentación para calcular el perfil de datos.

Un perfil de datos puede ser muy útil para comprender los datos de entrada, identificar anomalías y valores que faltan proporcionando información útil sobre los datos como el tipo de columna, los valores que faltan, etc.

take

Tome un ejemplo de registros de la parte superior del conjunto de datos por el recuento especificado.

take_sample

Tome una muestra aleatoria de registros en el conjunto de datos aproximadamente por la probabilidad especificada.

time_after

Filtre TabularDataset con columnas de marca de tiempo después de una hora de inicio especificada.

time_before

Filtre TabularDataset con columnas de marca de tiempo antes de una hora de finalización especificada.

time_between

Filtre TabularDataset entre una hora de inicio y finalización especificada.

time_recent

Filtre TabularDataset para que contenga solo la duración especificada (cantidad) de datos recientes.

to_csv_files

Convierta el conjunto de datos actual en un objeto FileDataset que contenga archivos CSV.

El conjunto de datos resultante contendrá uno o varios archivos CSV, cada uno correspondiente a una partición de datos del conjunto de datos actual. Estos archivos no se materializan hasta que se descargan o leen.

to_dask_dataframe

Nota:

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.

Devuelve un DataFrame de Dask que puede leer los datos del conjunto de datos de forma diferir.

to_pandas_dataframe

Cargue todos los registros del conjunto de datos en un DataFrame de Pandas.

to_parquet_files

Convierta el conjunto de datos actual en un objeto FileDataset que contenga archivos Parquet.

El conjunto de datos resultante contendrá uno o varios archivos Parquet, cada uno correspondiente a una partición de datos del conjunto de datos actual. Estos archivos no se materializan hasta que se descargan o leen.

to_spark_dataframe

Cargue todos los registros del conjunto de datos en un dataframe de Spark.

with_timestamp_columns

Defina columnas de marca de tiempo para el conjunto de datos.

download

Nota:

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.

Descargue los flujos de archivos definidos por el conjunto de datos en la ruta de acceso local.

download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)

Parámetros

Nombre Description
stream_column
Requerido
str

Columna de flujo que se va a descargar.

target_path
Requerido
str

Directorio local en el que se descargarán los archivos. Si no, los datos se descargarán en un directorio temporal.

overwrite
Requerido

Indica si se deben sobrescribir los archivos existentes. El valor predeterminado es False. Los archivos existentes se sobrescribirán si la sobrescritura se establece en True; de lo contrario, se generará una excepción.

ignore_not_found
Requerido

Indica si se produce un error en la descarga si no se encuentran algunos archivos a los que apunta el conjunto de datos. El valor predeterminado es True. Se producirá un error en la descarga si se produce un error en la descarga de archivos por cualquier motivo si ignore_not_found está establecido en False; de lo contrario, se registrará una advertencia para los errores no encontrados y dowload se realizará correctamente siempre que no se encuentre ningún otro tipo de error.

Devoluciones

Tipo Description

Devuelve una matriz de rutas de acceso de archivo para cada archivo descargado.

drop_columns

Quite las columnas especificadas del conjunto de datos.

Si se quita una columna timeseries, también se quitarán las funcionalidades correspondientes para el conjunto de datos devuelto.

drop_columns(columns)

Parámetros

Nombre Description
columns
Requerido

Nombre o lista de nombres de las columnas que se van a quitar.

Devoluciones

Tipo Description

Devuelve un nuevo objeto TabularDataset con las columnas especificadas quitadas.

filter

Nota:

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.

Filtra los datos, dejando solo los registros que coinciden con la expresión especificada.

filter(expression)

Parámetros

Nombre Description
expression
Requerido
any

Expresión que se va a evaluar.

Devoluciones

Tipo Description

Conjunto de datos modificado (no registrado).

Comentarios

Las expresiones se inician indizando el conjunto de datos con el nombre de una columna. Admiten una variedad de funciones y operadores y se pueden combinar mediante operadores lógicos. La expresión resultante se evaluará de forma diferida para cada registro cuando se produzca una extracción de datos y no donde se defina.


   dataset['myColumn'] > dataset['columnToCompareAgainst']
   dataset['myColumn'].starts_with('prefix')

get_profile

Nota:

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.

Obtenga el perfil de datos de la última ejecución de perfil enviada para este o el mismo conjunto de datos del área de trabajo.

get_profile(workspace=None)

Parámetros

Nombre Description
workspace
Requerido

Área de trabajo donde se envió la ejecución del perfil. El valor predeterminado es el área de trabajo de este conjunto de datos. Obligatorio si el conjunto de datos no está asociado a un área de trabajo. Consulte https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace para obtener más información sobre las áreas de trabajo.

Devoluciones

Tipo Description

Resultado del perfil de la última ejecución de perfil del tipo DatasetProfile.

get_profile_runs

Nota:

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.

Devuelve ejecuciones de perfil anteriores asociadas a este conjunto de datos o al mismo conjunto de datos del área de trabajo.

get_profile_runs(workspace=None)

Parámetros

Nombre Description
workspace
Requerido

Área de trabajo donde se envió la ejecución del perfil. El valor predeterminado es el área de trabajo de este conjunto de datos. Obligatorio si el conjunto de datos no está asociado a un área de trabajo. Consulte https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace para obtener más información sobre las áreas de trabajo.

Devoluciones

Tipo Description

objeto iterator de tipo azureml.core.Run.

keep_columns

Mantenga las columnas especificadas y quite todas las demás del conjunto de datos.

Si se quita una columna timeseries, también se quitarán las funcionalidades correspondientes para el conjunto de datos devuelto.

keep_columns(columns, validate=False)

Parámetros

Nombre Description
columns
Requerido

El nombre o una lista de nombres para las columnas que se van a conservar.

validate
Requerido

Indica si se deben validar si los datos se pueden cargar desde el conjunto de datos devuelto. El valor predeterminado es False. La validación requiere que el origen de datos sea accesible desde el proceso actual.

Devoluciones

Tipo Description

Devuelve un nuevo objeto TabularDataset con solo las columnas especificadas guardadas.

mount

Nota:

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.

Cree un administrador de contextos para montar flujos de archivos definidos por el conjunto de datos como archivos locales.

mount(stream_column, mount_point=None)

Parámetros

Nombre Description
stream_column
Requerido
str

Columna de flujo que se va a montar.

mount_point
Requerido
str

Directorio local en el que se van a montar los archivos. Si No, los datos se montarán en un directorio temporal, que puede encontrar llamando al método de instancia de MountContext.mount_point .

Devoluciones

Tipo Description
<xref:azureml.dataprep.fuse.daemon.MountContext>

Devuelve un administrador de contexto para administrar el ciclo de vida del montaje.

partition_by

Los datos con particiones se copiarán y generarán en el destino especificado por destino.

cree el conjunto de datos a partir de la ruta de acceso de datos de salida con formato de partición, registre el conjunto de datos si se proporciona el nombre, devuelva el conjunto de datos para la nueva ruta de acceso de datos con particiones.


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset
partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)

Parámetros

Nombre Description
partition_keys
Requerido

Claves de partición necesarias

target
Requerido

Obligatorio, la ruta de acceso del almacén de datos en la que se cargarán los datos parquet de trama de datos. Se generará una carpeta guid en la ruta de acceso de destino para evitar conflictos.

name
Requerido
str

Opcional, El nombre del registro.

show_progress
Requerido

Opcional, indica si se va a mostrar el progreso de la carga en la consola. El valor predeterminado es True.

partition_as_file_dataset
Requerido

Opcional, indica si devuelve un filedataset o no. El valor predeterminado es False.

Devoluciones

Tipo Description

Conjunto de datos guardado o registrado.

random_split

Divida los registros del conjunto de datos en dos partes aleatoriamente y aproximadamente por el porcentaje especificado.

El primer conjunto de datos contiene aproximadamente percentage los registros totales y el segundo conjunto de datos los registros restantes.

random_split(percentage, seed=None)

Parámetros

Nombre Description
percentage
Requerido

Porcentaje aproximado por el que se va a dividir el conjunto de datos. Debe ser un número comprendido entre 0,0 y 1,0.

seed
Requerido
int

Inicialización opcional que se usará para el generador aleatorio.

Devoluciones

Tipo Description

Devuelve una tupla de nuevos objetos TabularDataset que representan los dos conjuntos de datos después de la división.

skip

Omita los registros de la parte superior del conjunto de datos por el recuento especificado.

skip(count)

Parámetros

Nombre Description
count
Requerido
int

Número de registros que se omitirán.

Devoluciones

Tipo Description

Devuelve un nuevo objeto TabularDataset que representa un conjunto de datos con registros omitidos.

submit_profile_run

Nota:

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.

Envíe una ejecución de experimentación para calcular el perfil de datos.

Un perfil de datos puede ser muy útil para comprender los datos de entrada, identificar anomalías y valores que faltan proporcionando información útil sobre los datos como el tipo de columna, los valores que faltan, etc.

submit_profile_run(compute_target, experiment, cache_datastore_name=None)

Parámetros

Nombre Description
compute_target
Requerido

Destino de proceso en el que se va a ejecutar el experimento de cálculo del perfil. Especifique "local" para usar el proceso local. Consulte https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget para obtener más información sobre los destinos de proceso.

experiment
Requerido

Objeto de experimento. Consulte https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment para obtener más información sobre los experimentos.

cache_datastore_name
Requerido
str

el nombre del almacén de datos para almacenar la caché de perfiles, si Ninguno, se usará el almacén de datos predeterminado.

Devoluciones

Tipo Description

Objeto de tipo DatasetProfileRun clase.

take

Tome un ejemplo de registros de la parte superior del conjunto de datos por el recuento especificado.

take(count)

Parámetros

Nombre Description
count
Requerido
int

Número de registros que se van a tomar.

Devoluciones

Tipo Description

Devuelve un nuevo objeto TabularDataset que representa el conjunto de datos muestreado.

take_sample

Tome una muestra aleatoria de registros en el conjunto de datos aproximadamente por la probabilidad especificada.

take_sample(probability, seed=None)

Parámetros

Nombre Description
probability
Requerido

Probabilidad de que un registro se incluya en la muestra.

seed
Requerido
int

Inicialización opcional que se usará para el generador aleatorio.

Devoluciones

Tipo Description

Devuelve un nuevo objeto TabularDataset que representa el conjunto de datos muestreado.

time_after

Filtre TabularDataset con columnas de marca de tiempo después de una hora de inicio especificada.

time_after(start_time, include_boundary=True, validate=True)

Parámetros

Nombre Description
start_time
Requerido

Límite inferior para filtrar datos.

include_boundary
Requerido

Indique si se debe incluir la fila asociada al tiempo de límite (start_time).

validate
Requerido

Indica si se deben validar si existen columnas especificadas en el conjunto de datos. El valor predeterminado es True. La validación requiere que el origen de datos sea accesible desde el proceso actual.

Devoluciones

Tipo Description

Un objeto TabularDataset con el nuevo conjunto de datos filtrado.

time_before

Filtre TabularDataset con columnas de marca de tiempo antes de una hora de finalización especificada.

time_before(end_time, include_boundary=True, validate=True)

Parámetros

Nombre Description
end_time
Requerido

Límite superior para filtrar datos.

include_boundary
Requerido

Indique si se debe incluir la fila asociada al tiempo de límite (end_time).

validate
Requerido

Indica si se deben validar si existen columnas especificadas en el conjunto de datos. El valor predeterminado es True. La validación requiere que el origen de datos sea accesible desde el proceso actual.

Devoluciones

Tipo Description

Un objeto TabularDataset con el nuevo conjunto de datos filtrado.

time_between

Filtre TabularDataset entre una hora de inicio y finalización especificada.

time_between(start_time, end_time, include_boundary=True, validate=True)

Parámetros

Nombre Description
start_time
Requerido

Límite inferior para filtrar datos.

end_time
Requerido

Límite superior para filtrar datos.

include_boundary
Requerido

Indique si se debe incluir la fila asociada al tiempo de límite (start_end y end_time).

validate
Requerido

Indica si se deben validar si existen columnas especificadas en el conjunto de datos. El valor predeterminado es True. La validación requiere que el origen de datos sea accesible desde el proceso actual.

Devoluciones

Tipo Description

Un objeto TabularDataset con el nuevo conjunto de datos filtrado.

time_recent

Filtre TabularDataset para que contenga solo la duración especificada (cantidad) de datos recientes.

time_recent(time_delta, include_boundary=True, validate=True)

Parámetros

Nombre Description
time_delta
Requerido

Duración (cantidad) de datos recientes que se van a recuperar.

include_boundary
Requerido

Indique si se debe incluir la fila asociada al tiempo de límite (time_delta).

validate
Requerido

Indica si se deben validar si existen columnas especificadas en el conjunto de datos. El valor predeterminado es True. La validación requiere que el origen de datos sea accesible desde el proceso actual.

Devoluciones

Tipo Description

Un objeto TabularDataset con el nuevo conjunto de datos filtrado.

to_csv_files

Convierta el conjunto de datos actual en un objeto FileDataset que contenga archivos CSV.

El conjunto de datos resultante contendrá uno o varios archivos CSV, cada uno correspondiente a una partición de datos del conjunto de datos actual. Estos archivos no se materializan hasta que se descargan o leen.

to_csv_files(separator=',')

Parámetros

Nombre Description
separator
Requerido
str

Separador que se va a usar para separar los valores del archivo resultante.

Devoluciones

Tipo Description

Devuelve un nuevo objeto FileDataset con un conjunto de archivos CSV que contienen los datos de este conjunto de datos.

to_dask_dataframe

Nota:

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.

Devuelve un DataFrame de Dask que puede leer los datos del conjunto de datos de forma diferir.

to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')

Parámetros

Nombre Description
sample_size
Requerido

Número de registros que se van a leer para determinar el esquema y los tipos.

dtypes
Requerido

Un dict opcional que especifica las columnas esperadas y sus dtypes. sample_size se omite si se proporciona esto.

on_error
Requerido

Cómo controlar los valores de error del conjunto de datos, como los generados por un error al analizar los valores. Los valores válidos son 'null' que los reemplaza por null; y "fail", lo que dará lugar a una excepción.

out_of_range_datetime
Requerido

Cómo controlar los valores de fecha y hora que están fuera del intervalo admitidos por Pandas. Los valores válidos son 'null' que los reemplaza por null; y "fail", lo que dará lugar a una excepción.

Devoluciones

Tipo Description

dask.dataframe.core.DataFrame

to_pandas_dataframe

Cargue todos los registros del conjunto de datos en un DataFrame de Pandas.

to_pandas_dataframe(on_error='null', out_of_range_datetime='null')

Parámetros

Nombre Description
on_error
Requerido

Cómo controlar los valores de error del conjunto de datos, como los generados por un error al analizar los valores. Los valores válidos son 'null' que los reemplaza por null; y "fail", lo que dará lugar a una excepción.

out_of_range_datetime
Requerido

Cómo controlar los valores de fecha y hora que están fuera del intervalo admitidos por Pandas. Los valores válidos son 'null' que los reemplaza por null; y "fail", lo que dará lugar a una excepción.

Devoluciones

Tipo Description

Devuelve un DataFrame de Pandas.

to_parquet_files

Convierta el conjunto de datos actual en un objeto FileDataset que contenga archivos Parquet.

El conjunto de datos resultante contendrá uno o varios archivos Parquet, cada uno correspondiente a una partición de datos del conjunto de datos actual. Estos archivos no se materializan hasta que se descargan o leen.

to_parquet_files()

Devoluciones

Tipo Description

Devuelve un nuevo objeto FileDataset con un conjunto de archivos Parquet que contienen los datos de este conjunto de datos.

to_spark_dataframe

Cargue todos los registros del conjunto de datos en un dataframe de Spark.

to_spark_dataframe()

Devoluciones

Tipo Description

Devuelve un dataframe de Spark.

with_timestamp_columns

Defina columnas de marca de tiempo para el conjunto de datos.

with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)

Parámetros

Nombre Description
timestamp
Requerido
str

Nombre de columna como marca de tiempo (se usa para denominarse fine_grain_timestamp) (opcional). El valor predeterminado es None(clear).

partition_timestamp
Requerido
str

Nombre de la columna partition_timestamp (se usa para denominarse marca de tiempo de grano general) (opcional). El valor predeterminado es None(clear).

validate
Requerido

Indica si se deben validar si existen columnas especificadas en el conjunto de datos. El valor predeterminado es False. La validación requiere que el origen de datos sea accesible desde el proceso actual.

Devoluciones

Tipo Description

Devuelve un nuevo objeto TabularDataset con columnas de marca de tiempo definidas.

Comentarios

El método define las columnas que se van a usar como marcas de tiempo. Las columnas de marca de tiempo de un conjunto de datos permiten tratar los datos como datos de serie temporal y habilitar funcionalidades adicionales. Cuando un conjunto de datos tiene y timestamp (used to be referred as fine_grain_timestamp)partition_timestamp (used to be referred as coarse grain timestamp) se especifica, las dos columnas deben representar la misma escala de tiempo.

Atributos

timestamp_columns

Devuelve las columnas de marca de tiempo.

Devoluciones

Tipo Description
(str, str)

Los nombres de columna para la marca de tiempo (que se usa para denominarse fine_grain_timestamp) y partition_timestamp (que se usa para denominarse marca de tiempo de grano general) definidos para el conjunto de datos.