TabularDataset Clase
Representa un conjunto de datos tabular que se va a usar en Azure Machine Learning.
TabularDataset define una serie de operaciones inmutables evaluadas de forma diferida para cargar datos del origen de datos en una representación tabular. Los datos no se cargan desde el origen hasta que se pide a TabularDataset que entreguen datos.
TabularDataset se crea mediante métodos como from_delimited_files desde la TabularDatasetFactory clase .
Para obtener más información, consulte el artículo Agregar y registrar conjuntos de datos. Para empezar a trabajar con un conjunto de datos tabular, consulte https://aka.ms/tabulardataset-samplenotebook.
Inicialice un objeto TabularDataset.
Este constructor no se supone que se invoque directamente. El conjunto de datos está pensado para crearse mediante TabularDatasetFactory la clase .
Constructor
TabularDataset()
Comentarios
Se puede crear un objeto TabularDataset a partir de archivos CSV, TSV, Parquet o consulta SQL mediante los from_*
métodos de la TabularDatasetFactory clase . Puede realizar operaciones de restablecimiento en un objeto TabularDataset, como dividir, omitir y filtrar registros.
El resultado del restablecimiento siempre es uno o varios nuevos objetos TabularDataset.
También puede convertir un objeto TabularDataset en otros formatos como un DataFrame de Pandas. La carga de datos real se produce cuando se pide a TabularDataset que entregue los datos en otro mecanismo de almacenamiento (por ejemplo, un dataframe de Pandas o un archivo CSV).
TabularDataset se puede usar como entrada de una ejecución de experimento. También se puede registrar en el área de trabajo con un nombre especificado y recuperarse con ese nombre más adelante.
Métodos
download |
Nota: Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información. Descargue los flujos de archivos definidos por el conjunto de datos en la ruta de acceso local. |
drop_columns |
Quite las columnas especificadas del conjunto de datos. Si se quita una columna timeseries, también se quitarán las funcionalidades correspondientes para el conjunto de datos devuelto. |
filter |
Nota: Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información. Filtra los datos, dejando solo los registros que coinciden con la expresión especificada. |
get_profile |
Nota: Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información. Obtenga el perfil de datos de la última ejecución de perfil enviada para este o el mismo conjunto de datos del área de trabajo. |
get_profile_runs |
Nota: Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información. Devuelve ejecuciones de perfil anteriores asociadas a este conjunto de datos o al mismo conjunto de datos del área de trabajo. |
keep_columns |
Mantenga las columnas especificadas y quite todas las demás del conjunto de datos. Si se quita una columna timeseries, también se quitarán las funcionalidades correspondientes para el conjunto de datos devuelto. |
mount |
Nota: Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información. Cree un administrador de contextos para montar flujos de archivos definidos por el conjunto de datos como archivos locales. |
partition_by |
Los datos con particiones se copiarán y generarán en el destino especificado por destino. cree el conjunto de datos a partir de la ruta de acceso de datos de salida con formato de partición, registre el conjunto de datos si se proporciona el nombre, devuelva el conjunto de datos para la nueva ruta de acceso de datos con particiones.
|
random_split |
Divida los registros del conjunto de datos en dos partes aleatoriamente y aproximadamente por el porcentaje especificado. El primer conjunto de datos contiene aproximadamente |
skip |
Omita los registros de la parte superior del conjunto de datos por el recuento especificado. |
submit_profile_run |
Nota: Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información. Envíe una ejecución de experimentación para calcular el perfil de datos. Un perfil de datos puede ser muy útil para comprender los datos de entrada, identificar anomalías y valores que faltan proporcionando información útil sobre los datos como el tipo de columna, los valores que faltan, etc. |
take |
Tome un ejemplo de registros de la parte superior del conjunto de datos por el recuento especificado. |
take_sample |
Tome una muestra aleatoria de registros en el conjunto de datos aproximadamente por la probabilidad especificada. |
time_after |
Filtre TabularDataset con columnas de marca de tiempo después de una hora de inicio especificada. |
time_before |
Filtre TabularDataset con columnas de marca de tiempo antes de una hora de finalización especificada. |
time_between |
Filtre TabularDataset entre una hora de inicio y finalización especificada. |
time_recent |
Filtre TabularDataset para que contenga solo la duración especificada (cantidad) de datos recientes. |
to_csv_files |
Convierta el conjunto de datos actual en un objeto FileDataset que contenga archivos CSV. El conjunto de datos resultante contendrá uno o varios archivos CSV, cada uno correspondiente a una partición de datos del conjunto de datos actual. Estos archivos no se materializan hasta que se descargan o leen. |
to_dask_dataframe |
Nota: Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información. Devuelve un DataFrame de Dask que puede leer los datos del conjunto de datos de forma diferir. |
to_pandas_dataframe |
Cargue todos los registros del conjunto de datos en un DataFrame de Pandas. |
to_parquet_files |
Convierta el conjunto de datos actual en un objeto FileDataset que contenga archivos Parquet. El conjunto de datos resultante contendrá uno o varios archivos Parquet, cada uno correspondiente a una partición de datos del conjunto de datos actual. Estos archivos no se materializan hasta que se descargan o leen. |
to_spark_dataframe |
Cargue todos los registros del conjunto de datos en un dataframe de Spark. |
with_timestamp_columns |
Defina columnas de marca de tiempo para el conjunto de datos. |
download
Nota:
Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.
Descargue los flujos de archivos definidos por el conjunto de datos en la ruta de acceso local.
download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)
Parámetros
Nombre | Description |
---|---|
stream_column
Requerido
|
Columna de flujo que se va a descargar. |
target_path
Requerido
|
Directorio local en el que se descargarán los archivos. Si no, los datos se descargarán en un directorio temporal. |
overwrite
Requerido
|
Indica si se deben sobrescribir los archivos existentes. El valor predeterminado es False. Los archivos existentes se sobrescribirán si la sobrescritura se establece en True; de lo contrario, se generará una excepción. |
ignore_not_found
Requerido
|
Indica si se produce un error en la descarga si no se encuentran algunos archivos a los que apunta el conjunto de datos. El valor predeterminado es True. Se producirá un error en la descarga si se produce un error en la descarga de archivos por cualquier motivo si ignore_not_found está establecido en False; de lo contrario, se registrará una advertencia para los errores no encontrados y dowload se realizará correctamente siempre que no se encuentre ningún otro tipo de error. |
Devoluciones
Tipo | Description |
---|---|
Devuelve una matriz de rutas de acceso de archivo para cada archivo descargado. |
drop_columns
Quite las columnas especificadas del conjunto de datos.
Si se quita una columna timeseries, también se quitarán las funcionalidades correspondientes para el conjunto de datos devuelto.
drop_columns(columns)
Parámetros
Nombre | Description |
---|---|
columns
Requerido
|
Nombre o lista de nombres de las columnas que se van a quitar. |
Devoluciones
Tipo | Description |
---|---|
Devuelve un nuevo objeto TabularDataset con las columnas especificadas quitadas. |
filter
Nota:
Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.
Filtra los datos, dejando solo los registros que coinciden con la expresión especificada.
filter(expression)
Parámetros
Nombre | Description |
---|---|
expression
Requerido
|
Expresión que se va a evaluar. |
Devoluciones
Tipo | Description |
---|---|
Conjunto de datos modificado (no registrado). |
Comentarios
Las expresiones se inician indizando el conjunto de datos con el nombre de una columna. Admiten una variedad de funciones y operadores y se pueden combinar mediante operadores lógicos. La expresión resultante se evaluará de forma diferida para cada registro cuando se produzca una extracción de datos y no donde se defina.
dataset['myColumn'] > dataset['columnToCompareAgainst']
dataset['myColumn'].starts_with('prefix')
get_profile
Nota:
Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.
Obtenga el perfil de datos de la última ejecución de perfil enviada para este o el mismo conjunto de datos del área de trabajo.
get_profile(workspace=None)
Parámetros
Nombre | Description |
---|---|
workspace
Requerido
|
Área de trabajo donde se envió la ejecución del perfil. El valor predeterminado es el área de trabajo de este conjunto de datos. Obligatorio si el conjunto de datos no está asociado a un área de trabajo. Consulte https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace para obtener más información sobre las áreas de trabajo. |
Devoluciones
Tipo | Description |
---|---|
Resultado del perfil de la última ejecución de perfil del tipo DatasetProfile. |
get_profile_runs
Nota:
Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.
Devuelve ejecuciones de perfil anteriores asociadas a este conjunto de datos o al mismo conjunto de datos del área de trabajo.
get_profile_runs(workspace=None)
Parámetros
Nombre | Description |
---|---|
workspace
Requerido
|
Área de trabajo donde se envió la ejecución del perfil. El valor predeterminado es el área de trabajo de este conjunto de datos. Obligatorio si el conjunto de datos no está asociado a un área de trabajo. Consulte https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace para obtener más información sobre las áreas de trabajo. |
Devoluciones
Tipo | Description |
---|---|
objeto iterator de tipo azureml.core.Run. |
keep_columns
Mantenga las columnas especificadas y quite todas las demás del conjunto de datos.
Si se quita una columna timeseries, también se quitarán las funcionalidades correspondientes para el conjunto de datos devuelto.
keep_columns(columns, validate=False)
Parámetros
Nombre | Description |
---|---|
columns
Requerido
|
El nombre o una lista de nombres para las columnas que se van a conservar. |
validate
Requerido
|
Indica si se deben validar si los datos se pueden cargar desde el conjunto de datos devuelto. El valor predeterminado es False. La validación requiere que el origen de datos sea accesible desde el proceso actual. |
Devoluciones
Tipo | Description |
---|---|
Devuelve un nuevo objeto TabularDataset con solo las columnas especificadas guardadas. |
mount
Nota:
Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.
Cree un administrador de contextos para montar flujos de archivos definidos por el conjunto de datos como archivos locales.
mount(stream_column, mount_point=None)
Parámetros
Nombre | Description |
---|---|
stream_column
Requerido
|
Columna de flujo que se va a montar. |
mount_point
Requerido
|
Directorio local en el que se van a montar los archivos. Si No, los datos se montarán en un directorio temporal, que puede encontrar llamando al método de instancia de MountContext.mount_point . |
Devoluciones
Tipo | Description |
---|---|
<xref:azureml.dataprep.fuse.daemon.MountContext>
|
Devuelve un administrador de contexto para administrar el ciclo de vida del montaje. |
partition_by
Los datos con particiones se copiarán y generarán en el destino especificado por destino.
cree el conjunto de datos a partir de la ruta de acceso de datos de salida con formato de partición, registre el conjunto de datos si se proporciona el nombre, devuelva el conjunto de datos para la nueva ruta de acceso de datos con particiones.
ds = Dataset.get_by_name('test') # indexed by country, state, partition_date
# #1: call partition_by locally
new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
target=DataPath(datastore, "repartition"))
partition_keys = newds.partition_keys # ['country']
# new_ds can be passed to PRS as input dataset
partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)
Parámetros
Nombre | Description |
---|---|
partition_keys
Requerido
|
Claves de partición necesarias |
target
Requerido
|
Obligatorio, la ruta de acceso del almacén de datos en la que se cargarán los datos parquet de trama de datos. Se generará una carpeta guid en la ruta de acceso de destino para evitar conflictos. |
name
Requerido
|
Opcional, El nombre del registro. |
show_progress
Requerido
|
Opcional, indica si se va a mostrar el progreso de la carga en la consola. El valor predeterminado es True. |
partition_as_file_dataset
Requerido
|
Opcional, indica si devuelve un filedataset o no. El valor predeterminado es False. |
Devoluciones
Tipo | Description |
---|---|
Conjunto de datos guardado o registrado. |
random_split
Divida los registros del conjunto de datos en dos partes aleatoriamente y aproximadamente por el porcentaje especificado.
El primer conjunto de datos contiene aproximadamente percentage
los registros totales y el segundo conjunto de datos los registros restantes.
random_split(percentage, seed=None)
Parámetros
Nombre | Description |
---|---|
percentage
Requerido
|
Porcentaje aproximado por el que se va a dividir el conjunto de datos. Debe ser un número comprendido entre 0,0 y 1,0. |
seed
Requerido
|
Inicialización opcional que se usará para el generador aleatorio. |
Devoluciones
Tipo | Description |
---|---|
Devuelve una tupla de nuevos objetos TabularDataset que representan los dos conjuntos de datos después de la división. |
skip
Omita los registros de la parte superior del conjunto de datos por el recuento especificado.
skip(count)
Parámetros
Nombre | Description |
---|---|
count
Requerido
|
Número de registros que se omitirán. |
Devoluciones
Tipo | Description |
---|---|
Devuelve un nuevo objeto TabularDataset que representa un conjunto de datos con registros omitidos. |
submit_profile_run
Nota:
Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.
Envíe una ejecución de experimentación para calcular el perfil de datos.
Un perfil de datos puede ser muy útil para comprender los datos de entrada, identificar anomalías y valores que faltan proporcionando información útil sobre los datos como el tipo de columna, los valores que faltan, etc.
submit_profile_run(compute_target, experiment, cache_datastore_name=None)
Parámetros
Nombre | Description |
---|---|
compute_target
Requerido
|
Destino de proceso en el que se va a ejecutar el experimento de cálculo del perfil. Especifique "local" para usar el proceso local. Consulte https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget para obtener más información sobre los destinos de proceso. |
experiment
Requerido
|
Objeto de experimento. Consulte https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment para obtener más información sobre los experimentos. |
cache_datastore_name
Requerido
|
el nombre del almacén de datos para almacenar la caché de perfiles, si Ninguno, se usará el almacén de datos predeterminado. |
Devoluciones
Tipo | Description |
---|---|
Objeto de tipo DatasetProfileRun clase. |
take
Tome un ejemplo de registros de la parte superior del conjunto de datos por el recuento especificado.
take(count)
Parámetros
Nombre | Description |
---|---|
count
Requerido
|
Número de registros que se van a tomar. |
Devoluciones
Tipo | Description |
---|---|
Devuelve un nuevo objeto TabularDataset que representa el conjunto de datos muestreado. |
take_sample
Tome una muestra aleatoria de registros en el conjunto de datos aproximadamente por la probabilidad especificada.
take_sample(probability, seed=None)
Parámetros
Nombre | Description |
---|---|
probability
Requerido
|
Probabilidad de que un registro se incluya en la muestra. |
seed
Requerido
|
Inicialización opcional que se usará para el generador aleatorio. |
Devoluciones
Tipo | Description |
---|---|
Devuelve un nuevo objeto TabularDataset que representa el conjunto de datos muestreado. |
time_after
Filtre TabularDataset con columnas de marca de tiempo después de una hora de inicio especificada.
time_after(start_time, include_boundary=True, validate=True)
Parámetros
Nombre | Description |
---|---|
start_time
Requerido
|
Límite inferior para filtrar datos. |
include_boundary
Requerido
|
Indique si se debe incluir la fila asociada al tiempo de límite ( |
validate
Requerido
|
Indica si se deben validar si existen columnas especificadas en el conjunto de datos. El valor predeterminado es True. La validación requiere que el origen de datos sea accesible desde el proceso actual. |
Devoluciones
Tipo | Description |
---|---|
Un objeto TabularDataset con el nuevo conjunto de datos filtrado. |
time_before
Filtre TabularDataset con columnas de marca de tiempo antes de una hora de finalización especificada.
time_before(end_time, include_boundary=True, validate=True)
Parámetros
Nombre | Description |
---|---|
end_time
Requerido
|
Límite superior para filtrar datos. |
include_boundary
Requerido
|
Indique si se debe incluir la fila asociada al tiempo de límite ( |
validate
Requerido
|
Indica si se deben validar si existen columnas especificadas en el conjunto de datos. El valor predeterminado es True. La validación requiere que el origen de datos sea accesible desde el proceso actual. |
Devoluciones
Tipo | Description |
---|---|
Un objeto TabularDataset con el nuevo conjunto de datos filtrado. |
time_between
Filtre TabularDataset entre una hora de inicio y finalización especificada.
time_between(start_time, end_time, include_boundary=True, validate=True)
Parámetros
Nombre | Description |
---|---|
start_time
Requerido
|
Límite inferior para filtrar datos. |
end_time
Requerido
|
Límite superior para filtrar datos. |
include_boundary
Requerido
|
Indique si se debe incluir la fila asociada al tiempo de límite ( |
validate
Requerido
|
Indica si se deben validar si existen columnas especificadas en el conjunto de datos. El valor predeterminado es True. La validación requiere que el origen de datos sea accesible desde el proceso actual. |
Devoluciones
Tipo | Description |
---|---|
Un objeto TabularDataset con el nuevo conjunto de datos filtrado. |
time_recent
Filtre TabularDataset para que contenga solo la duración especificada (cantidad) de datos recientes.
time_recent(time_delta, include_boundary=True, validate=True)
Parámetros
Nombre | Description |
---|---|
time_delta
Requerido
|
Duración (cantidad) de datos recientes que se van a recuperar. |
include_boundary
Requerido
|
Indique si se debe incluir la fila asociada al tiempo de límite ( |
validate
Requerido
|
Indica si se deben validar si existen columnas especificadas en el conjunto de datos. El valor predeterminado es True. La validación requiere que el origen de datos sea accesible desde el proceso actual. |
Devoluciones
Tipo | Description |
---|---|
Un objeto TabularDataset con el nuevo conjunto de datos filtrado. |
to_csv_files
Convierta el conjunto de datos actual en un objeto FileDataset que contenga archivos CSV.
El conjunto de datos resultante contendrá uno o varios archivos CSV, cada uno correspondiente a una partición de datos del conjunto de datos actual. Estos archivos no se materializan hasta que se descargan o leen.
to_csv_files(separator=',')
Parámetros
Nombre | Description |
---|---|
separator
Requerido
|
Separador que se va a usar para separar los valores del archivo resultante. |
Devoluciones
Tipo | Description |
---|---|
Devuelve un nuevo objeto FileDataset con un conjunto de archivos CSV que contienen los datos de este conjunto de datos. |
to_dask_dataframe
Nota:
Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.
Devuelve un DataFrame de Dask que puede leer los datos del conjunto de datos de forma diferir.
to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')
Parámetros
Nombre | Description |
---|---|
sample_size
Requerido
|
Número de registros que se van a leer para determinar el esquema y los tipos. |
dtypes
Requerido
|
Un dict opcional que especifica las columnas esperadas y sus dtypes. sample_size se omite si se proporciona esto. |
on_error
Requerido
|
Cómo controlar los valores de error del conjunto de datos, como los generados por un error al analizar los valores. Los valores válidos son 'null' que los reemplaza por null; y "fail", lo que dará lugar a una excepción. |
out_of_range_datetime
Requerido
|
Cómo controlar los valores de fecha y hora que están fuera del intervalo admitidos por Pandas. Los valores válidos son 'null' que los reemplaza por null; y "fail", lo que dará lugar a una excepción. |
Devoluciones
Tipo | Description |
---|---|
dask.dataframe.core.DataFrame |
to_pandas_dataframe
Cargue todos los registros del conjunto de datos en un DataFrame de Pandas.
to_pandas_dataframe(on_error='null', out_of_range_datetime='null')
Parámetros
Nombre | Description |
---|---|
on_error
Requerido
|
Cómo controlar los valores de error del conjunto de datos, como los generados por un error al analizar los valores. Los valores válidos son 'null' que los reemplaza por null; y "fail", lo que dará lugar a una excepción. |
out_of_range_datetime
Requerido
|
Cómo controlar los valores de fecha y hora que están fuera del intervalo admitidos por Pandas. Los valores válidos son 'null' que los reemplaza por null; y "fail", lo que dará lugar a una excepción. |
Devoluciones
Tipo | Description |
---|---|
Devuelve un DataFrame de Pandas. |
to_parquet_files
Convierta el conjunto de datos actual en un objeto FileDataset que contenga archivos Parquet.
El conjunto de datos resultante contendrá uno o varios archivos Parquet, cada uno correspondiente a una partición de datos del conjunto de datos actual. Estos archivos no se materializan hasta que se descargan o leen.
to_parquet_files()
Devoluciones
Tipo | Description |
---|---|
Devuelve un nuevo objeto FileDataset con un conjunto de archivos Parquet que contienen los datos de este conjunto de datos. |
to_spark_dataframe
Cargue todos los registros del conjunto de datos en un dataframe de Spark.
to_spark_dataframe()
Devoluciones
Tipo | Description |
---|---|
Devuelve un dataframe de Spark. |
with_timestamp_columns
Defina columnas de marca de tiempo para el conjunto de datos.
with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)
Parámetros
Nombre | Description |
---|---|
timestamp
Requerido
|
Nombre de columna como marca de tiempo (se usa para denominarse fine_grain_timestamp) (opcional). El valor predeterminado es None(clear). |
partition_timestamp
Requerido
|
Nombre de la columna partition_timestamp (se usa para denominarse marca de tiempo de grano general) (opcional). El valor predeterminado es None(clear). |
validate
Requerido
|
Indica si se deben validar si existen columnas especificadas en el conjunto de datos. El valor predeterminado es False. La validación requiere que el origen de datos sea accesible desde el proceso actual. |
Devoluciones
Tipo | Description |
---|---|
Devuelve un nuevo objeto TabularDataset con columnas de marca de tiempo definidas. |
Comentarios
El método define las columnas que se van a usar como marcas de tiempo. Las columnas de marca de tiempo de un conjunto de datos permiten tratar los datos como datos de serie temporal y habilitar funcionalidades adicionales. Cuando un conjunto de datos tiene y timestamp (used to be referred as fine_grain_timestamp)
partition_timestamp (used to be referred as coarse grain timestamp)
se especifica, las dos columnas deben representar la misma escala de tiempo.
Atributos
timestamp_columns
Devuelve las columnas de marca de tiempo.
Devoluciones
Tipo | Description |
---|---|
Los nombres de columna para la marca de tiempo (que se usa para denominarse fine_grain_timestamp) y partition_timestamp (que se usa para denominarse marca de tiempo de grano general) definidos para el conjunto de datos. |