Dataset Clase

Representa un recurso para explorar, transformar y administrar datos en Azure Machine Learning.

Un conjunto de datos es una referencia a los datos de una Datastore dirección URL web pública o detrás de ellos.

Para los métodos en desuso en esta clase, compruebe la AbstractDataset clase para ver las API mejoradas.

Se admiten los siguientes tipos de conjuntos de datos:

TabularDataset representa los datos en un formato tabular creado mediante el análisis del archivo o la lista de archivos proporcionados.
FileDataset hace referencia a uno o varios archivos en almacenes de datos o desde direcciones URL públicas.

Para empezar a trabajar con conjuntos de datos, consulte el artículo Agregar y registrar conjuntos de datos, o vea los cuadernos https://aka.ms/tabulardataset-samplenotebook y https://aka.ms/filedataset-samplenotebook.

Inicialice el objeto Dataset.

Para obtener un conjunto de datos que ya se ha registrado en el área de trabajo, use el método get.

Constructor

Dataset(definition, workspace=None, name=None, id=None)

Parámetros

Nombre	Description
definition Requerido	<xref:azureml.data.DatasetDefinition> Definición del conjunto de datos.
workspace Requerido	Workspace Área de trabajo en la que existe el conjunto de datos.
name Requerido	str Nombre del conjunto de datos.
id Requerido	str Identificador único del conjunto de datos.

Comentarios

La clase Dataset expone dos atributos de clase útiles (File y Tabular) que puede usar para crear un conjunto de datos sin trabajar con los métodos de fábrica correspondientes. Por ejemplo, para crear un conjunto de datos mediante estos atributos:

Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()

También puede crear un nuevo objeto TabularDataset o FileDataset llamando directamente a los métodos de fábrica correspondientes de la clase definida en TabularDatasetFactory y FileDatasetFactory.

En el ejemplo siguiente se muestra cómo crear un objeto TabularDataset que apunte a una única ruta de acceso en un almacén de datos.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

El ejemplo completo está disponible en https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

Variables

Nombre	Description
azureml.core.Dataset.File	Atributo de clase que proporciona acceso a los métodos FileDatasetFactory para crear nuevos objetos FileDataset. Uso: Dataset.File.from_files().
azureml.core.Dataset.Tabular	Atributo de clase que proporciona acceso a los métodos TabularDatasetFactory para crear nuevos objetos TabularDataset. Uso: Dataset.Tabular.from_delimited_files().

Métodos

archive	Archivar un conjunto de datos activo o en desuso. Nota: Este método está en desuso y ya no se admitirá. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
auto_read_files	Analiza los archivos en la ruta de acceso especificada y devuelve un nuevo conjunto de datos. Nota: Este método está en desuso y ya no se admitirá. Se recomienda usar los métodos Dataset.Tabular.from_* para leer archivos. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
compare_profiles	Compare el perfil del conjunto de datos actual con otro perfil de conjunto de datos. Esto muestra las diferencias en las estadísticas de resumen entre dos conjuntos de datos. El parámetro "rhs_dataset" significa "lado derecho" y es simplemente el segundo conjunto de datos. El primer conjunto de datos (el objeto del conjunto de datos actual) se considera el "lado izquierdo". Nota: Este método está en desuso y ya no se admitirá. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
create_snapshot	Cree una instantánea del conjunto de datos registrado. Nota: Este método está en desuso y ya no se admitirá. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
delete_snapshot	Elimine la instantánea del conjunto de datos por nombre. Nota: Este método está en desuso y ya no se admitirá. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
deprecate	Desuso de un conjunto de datos activo en un área de trabajo por otro conjunto de datos. Nota: Este método está en desuso y ya no se admitirá. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
diff	Diff the current Dataset with rhs_dataset. Nota: Este método está en desuso y ya no se admitirá. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
from_binary_files	Cree un conjunto de datos en memoria sin registrar a partir de archivos binarios. Nota: Este método está en desuso y ya no se admitirá. Se recomienda usar Dataset.File.from_files en su lugar. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
from_delimited_files	Cree un conjunto de datos en memoria sin registrar a partir de archivos delimitados. Nota: Este método está en desuso y ya no se admitirá. Se recomienda usar Dataset.Tabular.from_delimited_files en su lugar. Para obtener más información, consulte https://aka.ms/dataset-deprecation. `# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'), header='ALL_FILES_HAVE_SAME_HEADERS') df = dataset.to_pandas_dataframe()`
from_excel_files	Cree un conjunto de datos en memoria sin registrar a partir de archivos de Excel. Nota: Este método está en desuso y ya no se admitirá. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
from_json_files	Cree un conjunto de datos en memoria sin registrar a partir de archivos JSON. Nota: Este método está en desuso y ya no se admitirá. Se recomienda usar Dataset.Tabular.from_json_lines_files en su lugar para leer desde el archivo de líneas JSON. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
from_pandas_dataframe	Cree un conjunto de datos en memoria sin registrar a partir de un dataframe de Pandas. Nota: Este método está en desuso y ya no se admitirá. Se recomienda usar Dataset.Tabular.register_pandas_dataframe en su lugar. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
from_parquet_files	Cree un conjunto de datos en memoria sin registrar a partir de archivos parquet. Nota: Este método está en desuso y ya no se admitirá. Se recomienda usar Dataset.Tabular.from_parquet_files en su lugar. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
from_sql_query	Cree un conjunto de datos en memoria sin registrar a partir de una consulta SQL. Nota: Este método está en desuso y ya no se admitirá. Se recomienda usar Dataset.Tabular.from_sql_query en su lugar. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
generate_profile	Genere un nuevo perfil para el conjunto de datos. Nota: Este método está en desuso y ya no se admitirá. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
get	Obtenga un conjunto de datos que ya exista en el área de trabajo especificando su nombre o identificador. Nota: Este método está en desuso y ya no se admitirá. Se recomienda usar get_by_name y get_by_id en su lugar. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
get_all	Obtenga todos los conjuntos de datos registrados en el área de trabajo.
get_all_snapshots	Obtenga todas las instantáneas del conjunto de datos. Nota: Este método está en desuso y ya no se admitirá. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
get_by_id	Obtenga un conjunto de datos que se guarda en el área de trabajo.
get_by_name	Obtenga un conjunto de datos registrado del área de trabajo por su nombre de registro.
get_definition	Obtenga una definición específica del conjunto de datos. Nota: Este método está en desuso y ya no se admitirá. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
get_definitions	Obtenga todas las definiciones del conjunto de datos. Nota: Este método está en desuso y ya no se admitirá. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
get_profile	Obtenga estadísticas de resumen en el conjunto de datos calculado anteriormente. Nota: Este método está en desuso y ya no se admitirá. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
get_snapshot	Obtenga la instantánea del conjunto de datos por nombre. Nota: Este método está en desuso y ya no se admitirá. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
head	Extraiga el número especificado de registros especificados de este conjunto de datos y los devuelve como dataframe. Nota: Este método está en desuso y ya no se admitirá. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
list	Enumere todos los conjuntos de datos del área de trabajo, incluidos los que tienen `is_visible` la propiedad igual a False. Nota: Este método está en desuso y ya no se admitirá. Se recomienda usar get_all en su lugar. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
reactivate	Reactivar un conjunto de datos archivado o en desuso. Nota: Este método está en desuso y ya no se admitirá. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
register	Registre el conjunto de datos en el área de trabajo, lo que hace que esté disponible para otros usuarios del área de trabajo. Nota: Este método está en desuso y ya no se admitirá. Se recomienda usar register en su lugar. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
sample	Genere un nuevo ejemplo a partir del conjunto de datos de origen mediante la estrategia de muestreo y los parámetros proporcionados. Nota: Este método está en desuso y ya no se admitirá. Cree un mediante una TabularDataset llamada a los métodos estáticos en Dataset.Tabular y use el take_sample método allí. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
to_pandas_dataframe	Cree un dataframe de Pandas ejecutando la canalización de transformación definida por esta definición de conjunto de datos. Nota: Este método está en desuso y ya no se admitirá. Cree un mediante una TabularDataset llamada a los métodos estáticos en Dataset.Tabular y use el to_pandas_dataframe método allí. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
to_spark_dataframe	Cree un DataFrame de Spark que pueda ejecutar la canalización de transformación definida por esta definición de conjunto de datos. Nota: Este método está en desuso y ya no se admitirá. Cree un mediante una TabularDataset llamada a los métodos estáticos en Dataset.Tabular y use el to_spark_dataframe método allí. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
update	Actualice los atributos mutables del conjunto de datos en el área de trabajo y devuelva el conjunto de datos actualizado del área de trabajo. Nota: Este método está en desuso y ya no se admitirá. Para obtener más información, consulte https://aka.ms/dataset-deprecation.
update_definition	Actualice la definición del conjunto de datos. Nota: Este método está en desuso y ya no se admitirá. Para obtener más información, consulte https://aka.ms/dataset-deprecation.

auto_read_files

Analiza los archivos en la ruta de acceso especificada y devuelve un nuevo conjunto de datos.

Nota:

Este método está en desuso y ya no se admitirá.

Se recomienda usar los métodos Dataset.Tabular.from_* para leer archivos. Para obtener más información, consulte https://aka.ms/dataset-deprecation.

static auto_read_files(path, include_path=False, partition_format=None)

Parámetros

Nombre	Description
path Requerido	DataReference o str Ruta de acceso de datos en un almacén de datos registrado, una ruta de acceso local o una dirección URL HTTP (CSV/TSV).
include_path Requerido	bool Si se debe incluir una columna que contenga la ruta de acceso del archivo desde el que se leyeron los datos. Resulta útil al leer varios archivos y desea saber a qué archivo se originó un registro determinado. También resulta útil si hay información en la ruta de acceso del archivo o el nombre que desea en una columna.
partition_format Requerido	str Especifique el formato de partición en la ruta de acceso y cree columnas de cadena a partir del formato '{x}' y la columna datetime del formato '{x:aaaa/MM/dd/HH/mm/ss}', donde 'aaaa', 'MM', 'dd', 'HH', 'mm' y 'ss' se usan para extrat year, month, day, hour, minute y second para el tipo datetime. El formato debe comenzar desde la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada una ruta de acceso de archivo '.. /Accounts/2019/01/01/data.csv' donde los datos se particionan por nombre y hora del departamento, podemos definir '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' para crear columnas 'Department' de tipo de cadena y 'PartitionDate' del tipo datetime.

Devoluciones

Tipo	Description
Dataset	Objeto dataset.

Comentarios

Use este método cuando se detecten automáticamente formatos de archivo y delimitadores.

Después de crear un conjunto de datos, debe usar get_profile para enumerar los tipos de columna detectados y las estadísticas de resumen de cada columna.

El conjunto de datos devuelto no está registrado en el área de trabajo.

compare_profiles

Compare el perfil del conjunto de datos actual con otro perfil de conjunto de datos.

Esto muestra las diferencias en las estadísticas de resumen entre dos conjuntos de datos. El parámetro "rhs_dataset" significa "lado derecho" y es simplemente el segundo conjunto de datos. El primer conjunto de datos (el objeto del conjunto de datos actual) se considera el "lado izquierdo".

Nota:

Este método está en desuso y ya no se admitirá.

Para obtener más información, consulte https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parámetros

Nombre	Description
rhs_dataset Requerido	Dataset Un segundo conjunto de datos, también denominado conjunto de datos "lado derecho" para la comparación.
profile_arguments Requerido	dict Argumentos para reintentar perfil específico.
include_columns Requerido	list[str] Lista de nombres de columna que se van a incluir en comparación.
exclude_columns Requerido	list[str] Lista de nombres de columna que se van a excluir en comparación.
histogram_compare_method Requerido	HistogramCompareMethod Enumeración que describe el método de comparación, por ejemplo: Wasserstein o Energy

Devoluciones

Tipo	Description
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>	Diferencia entre los dos perfiles de conjunto de datos.

Comentarios

Solo para conjuntos de datos registrados. Genera una excepción si el perfil del conjunto de datos actual no existe. Para conjuntos de datos no registrados, use el método profile.compare.

create_snapshot

Cree una instantánea del conjunto de datos registrado.

Nota:

Este método está en desuso y ya no se admitirá.

Para obtener más información, consulte https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parámetros

Nombre	Description
snapshot_name Requerido	str Nombre de la instantánea. Los nombres de instantánea deben ser únicos dentro de un conjunto de datos.
compute_target Requerido	Union[ComputeTarget, str] Destino de proceso opcional para realizar la creación del perfil de instantánea. Si se omite, se usa el proceso local.
create_data_snapshot Requerido	bool Si es True, se creará una copia materializada de los datos.
target_datastore Requerido	Union[AbstractAzureStorageDatastore, str] Almacén de datos de destino para guardar la instantánea. Si se omite, la instantánea se creará en el almacenamiento predeterminado del área de trabajo.

Devoluciones

Tipo	Description
DatasetSnapshot	Objeto de instantánea del conjunto de datos.

Comentarios

Las instantáneas capturan estadísticas de resumen a un momento dado de los datos subyacentes y una copia opcional de los propios datos. Para más información sobre la creación de instantáneas, vaya a https://aka.ms/azureml/howto/createsnapshots.

delete_snapshot

Elimine la instantánea del conjunto de datos por nombre.

Nota:

Este método está en desuso y ya no se admitirá.

Para obtener más información, consulte https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Parámetros

Nombre	Description
snapshot_name Requerido	str Nombre de la instantánea.

Devoluciones

Tipo	Description
None	Ninguno.

Comentarios

Úselo para liberar el almacenamiento consumido por los datos guardados en instantáneas que ya no necesite.

deprecate

Desuso de un conjunto de datos activo en un área de trabajo por otro conjunto de datos.

Nota:

Este método está en desuso y ya no se admitirá.

Para obtener más información, consulte https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Parámetros

Nombre	Description
deprecate_by_dataset_id Requerido	str Identificador del conjunto de datos que es el reemplazo previsto para este conjunto de datos.

Devoluciones

Tipo	Description
None	Ninguno.

Comentarios

Los conjuntos de datos en desuso registrarán advertencias cuando se consuman. La desuso de un conjunto de datos deja de usar todas sus definiciones.

Los conjuntos de datos en desuso todavía se pueden consumir. Para bloquear completamente que se consuma un conjunto de datos, archivelo.

Si está en desuso por accidente, se activará.

diff

Diff the current Dataset with rhs_dataset.

Nota:

Este método está en desuso y ya no se admitirá.

Para obtener más información, consulte https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Parámetros

Nombre	Description
rhs_dataset Requerido	Dataset Otro conjunto de datos también denominado Conjunto de datos del lado derecho para la comparación
compute_target Requerido	Union[ComputeTarget, str] destino de proceso para realizar la diferencia. Si se omite, se usa el proceso local.
columns Requerido	list[str] Lista de nombres de columna que se van a incluir en diferencias.

Devoluciones

Tipo	Description
DatasetActionRun	Objeto de ejecución de acción del conjunto de datos.

from_binary_files

Cree un conjunto de datos en memoria sin registrar a partir de archivos binarios.

Nota:

Este método está en desuso y ya no se admitirá.

Se recomienda usar Dataset.File.from_files en su lugar. Para obtener más información, consulte https://aka.ms/dataset-deprecation.

static from_binary_files(path)

Parámetros

Nombre	Description
path Requerido	DataReference o str Ruta de acceso de datos en un almacén de datos registrado o una ruta de acceso local.

Devoluciones

Tipo	Description
Dataset	Objeto Dataset.

Comentarios

Use este método para leer archivos como secuencias de datos binarios. Devuelve un objeto de secuencia de archivos por lectura de archivo. Use este método cuando lea imágenes, vídeos, audio u otros datos binarios.

get_profile y create_snapshot no funcionarán según lo previsto para un conjunto de datos creado por este método.

El conjunto de datos devuelto no está registrado en el área de trabajo.

from_delimited_files

Cree un conjunto de datos en memoria sin registrar a partir de archivos delimitados.

Nota:

Este método está en desuso y ya no se admitirá.

Se recomienda usar Dataset.Tabular.from_delimited_files en su lugar. Para obtener más información, consulte https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()

static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

Parámetros

Nombre	Description
path Requerido	DataReference o str Ruta de acceso de datos en un almacén de datos registrado, una ruta de acceso local o una dirección URL HTTP.
separator Requerido	str Separador usado para dividir columnas.
header Requerido	PromoteHeadersBehavior Controla cómo se promueven los encabezados de columna al leer archivos.
encoding Requerido	FileEncoding Codificación de los archivos que se van a leer.
quoting Requerido	bool Especifique cómo controlar los nuevos caracteres de línea entre comillas. El valor predeterminado (False) es interpretar los nuevos caracteres de línea como inicio de nuevas filas, independientemente de si los nuevos caracteres de línea están entre comillas o no. Si se establece en True, los nuevos caracteres de línea dentro de comillas no darán lugar a nuevas filas y la velocidad de lectura de archivos se ralentizará.
infer_column_types Requerido	bool Indica si se deducen los tipos de datos de columna.
skip_rows Requerido	int Número de filas que se van a omitir en los archivos que se van a leer.
skip_mode Requerido	SkipLinesBehavior Controla cómo se omiten las filas al leer archivos.
comment Requerido	str Carácter usado para indicar líneas de comentario en los archivos que se leen. Se omitirán las líneas que comienzan con esta cadena.
include_path Requerido	bool Si se debe incluir una columna que contenga la ruta de acceso del archivo desde el que se leyeron los datos. Esto resulta útil cuando está leyendo varios archivos y desea saber de qué archivo se originó un registro determinado o para mantener información útil en la ruta de acceso del archivo.
archive_options Requerido	<xref:azureml.dataprep.ArchiveOptions> Opciones para el archivo de archivo, incluido el tipo de archivo y el patrón glob de entrada. Solo se admite ZIP como tipo de archivo en este momento. Por ejemplo, especificando `archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')` lee todos los archivos con el nombre que termina con "10-20.csv" en ZIP.
partition_format Requerido	str Especifique el formato de partición en la ruta de acceso y cree columnas de cadena a partir del formato '{x}' y la columna datetime del formato '{x:aaaa/MM/dd/HH/mm/ss}', donde 'aaaa', 'MM', 'dd', 'HH', 'mm' y 'ss' se usan para extrat year, month, day, hour, minute y second para el tipo datetime. El formato debe comenzar desde la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada una ruta de acceso de archivo '.. /Accounts/2019/01/01/data.csv' donde los datos se particionan por nombre y hora del departamento, podemos definir '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' para crear columnas 'Department' de tipo de cadena y 'PartitionDate' del tipo datetime.

Devoluciones

Tipo	Description
Dataset	Objeto dataset.

Comentarios

Use este método para leer archivos de texto delimitados cuando desee controlar las opciones usadas.

Después de crear un conjunto de datos, debe usar get_profile para enumerar los tipos de columna detectados y las estadísticas de resumen de cada columna.

El conjunto de datos devuelto no está registrado en el área de trabajo.

from_excel_files

Cree un conjunto de datos en memoria sin registrar a partir de archivos de Excel.

Nota:

Este método está en desuso y ya no se admitirá.

Para obtener más información, consulte https://aka.ms/dataset-deprecation.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Parámetros

Nombre	Description
path Requerido	DataReference o str Ruta de acceso de datos en un almacén de datos registrado o una ruta de acceso local.
sheet_name Requerido	str Nombre de la hoja de Excel que se va a cargar. De forma predeterminada, se lee la primera hoja de cada archivo de Excel.
use_column_headers Requerido	bool Controla si se va a usar la primera fila como encabezados de columna.
skip_rows Requerido	int Número de filas que se van a omitir en los archivos que se van a leer.
include_path Requerido	bool Si se debe incluir una columna que contenga la ruta de acceso del archivo desde el que se leyeron los datos. Esto resulta útil cuando está leyendo varios archivos y desea saber de qué archivo se originó un registro determinado o para mantener información útil en la ruta de acceso del archivo.
infer_column_types Requerido	bool Si es true, se deducirán los tipos de datos de columna.
partition_format Requerido	str Especifique el formato de partición en la ruta de acceso y cree columnas de cadena a partir del formato '{x}' y la columna datetime del formato '{x:aaaa/MM/dd/HH/mm/ss}', donde 'aaaa', 'MM', 'dd', 'HH', 'mm' y 'ss' se usan para extrat year, month, day, hour, minute y second para el tipo datetime. El formato debe comenzar desde la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada una ruta de acceso de archivo '.. /Accounts/2019/01/01/data.xlsx' donde los datos se particionan por nombre y hora del departamento, podemos definir '/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx' para crear columnas 'Department' de tipo de cadena y 'PartitionDate' del tipo datetime.

Devoluciones

Tipo	Description
Dataset	Objeto dataset.

Comentarios

Use este método para leer archivos de Excel en formato .xlsx. Los datos se pueden leer desde una hoja en cada archivo de Excel. Después de crear un conjunto de datos, debe usar get_profile para enumerar los tipos de columna detectados y las estadísticas de resumen de cada columna. El conjunto de datos devuelto no está registrado en el área de trabajo.

from_json_files

Cree un conjunto de datos en memoria sin registrar a partir de archivos JSON.

Nota:

Este método está en desuso y ya no se admitirá.

Se recomienda usar Dataset.Tabular.from_json_lines_files en su lugar para leer desde el archivo de líneas JSON. Para obtener más información, consulte https://aka.ms/dataset-deprecation.

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

Parámetros

Nombre	Description
path Requerido	DataReference o str Ruta de acceso a los archivos o carpetas que desea cargar y analizar. Puede ser una ruta de acceso local o una dirección URL de blob de Azure. Se admite la globbing. Por ejemplo, puede usar path = "./data*" para leer todos los archivos con el nombre a partir de "data".
encoding Requerido	FileEncoding Codificación de los archivos que se van a leer.
flatten_nested_arrays Requerido	bool Propiedad que controla el control del programa de matrices anidadas. Si decide aplanar matrices JSON anidadas, podría dar lugar a un número mucho mayor de filas.
include_path Requerido	bool Indica si se debe incluir una columna que contenga la ruta de acceso desde la que se leyeron los datos. Esto es útil cuando se leen varios archivos y es posible que desee saber a qué archivo se originó un registro determinado o para mantener información útil en la ruta de acceso del archivo.
partition_format Requerido	str Especifique el formato de partición en la ruta de acceso y cree columnas de cadena a partir del formato '{x}' y la columna datetime del formato '{x:aaaa/MM/dd/HH/mm/ss}', donde 'aaaa', 'MM', 'dd', 'HH', 'mm' y 'ss' se usan para extrat year, month, day, hour, minute y second para el tipo datetime. El formato debe comenzar desde la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada una ruta de acceso de archivo '.. /Accounts/2019/01/01/data.json' y los datos se particionan por nombre y hora del departamento, podemos definir '/{Department}/{PartitionDate:yyyy/MM/dd}/data.json' para crear columnas 'Departamento' de tipo de cadena y 'PartitionDate' de tipo datetime.

Devoluciones

Tipo	Description
Dataset	Objeto Dataset local.

from_pandas_dataframe

Cree un conjunto de datos en memoria sin registrar a partir de un dataframe de Pandas.

Nota:

Este método está en desuso y ya no se admitirá.

Se recomienda usar Dataset.Tabular.register_pandas_dataframe en su lugar. Para obtener más información, consulte https://aka.ms/dataset-deprecation.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

Parámetros

Nombre	Description
dataframe Requerido	DataFrame DataFrame de Pandas.
path Requerido	Union[DataReference, str] Ruta de acceso de datos en el almacén de datos registrado o la ruta de acceso de carpeta local.
in_memory Requerido	bool Indica si se va a leer el dataframe de la memoria en lugar de conservarlo en el disco.

Devoluciones

Tipo	Description
Dataset	Un objeto Dataset.

Comentarios

Use este método para convertir un dataframe de Pandas en un objeto Dataset. No se puede registrar un conjunto de datos creado por este método, ya que los datos proceden de la memoria.

Si in_memory es False, el DataFrame de Pandas se convierte en un archivo CSV localmente. Si pat es de tipo DataReference, el marco pandas se cargará en el almacén de datos y el conjunto de datos se basará en DataReference. Si ''path' es una carpeta local, el conjunto de datos se creará fuera del archivo local que no se puede eliminar.

Genera una excepción si dataReference actual no es una ruta de acceso de carpeta.

from_parquet_files

Cree un conjunto de datos en memoria sin registrar a partir de archivos parquet.

Nota:

Este método está en desuso y ya no se admitirá.

Se recomienda usar Dataset.Tabular.from_parquet_files en su lugar. Para obtener más información, consulte https://aka.ms/dataset-deprecation.

static from_parquet_files(path, include_path=False, partition_format=None)

Parámetros

Nombre	Description
path Requerido	DataReference o str Ruta de acceso de datos en un almacén de datos registrado o una ruta de acceso local.
include_path Requerido	bool Si se debe incluir una columna que contenga la ruta de acceso del archivo desde el que se leyeron los datos. Esto resulta útil cuando está leyendo varios archivos y desea saber de qué archivo se originó un registro determinado o para mantener información útil en la ruta de acceso del archivo.
partition_format Requerido	str Especifique el formato de partición en la ruta de acceso y cree columnas de cadena a partir del formato '{x}' y la columna datetime del formato '{x:aaaa/MM/dd/HH/mm/ss}', donde 'aaaa', 'MM', 'dd', 'HH', 'mm' y 'ss' se usan para extrat year, month, day, hour, minute y second para el tipo datetime. El formato debe comenzar desde la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada una ruta de acceso de archivo '.. /Accounts/2019/01/01/data.parquet" donde los datos se particionan por nombre y hora del departamento, podemos definir '/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' para crear columnas 'Department' de tipo de cadena y 'PartitionDate' de tipo datetime.

Devoluciones

Tipo	Description
Dataset	Objeto dataset.

Comentarios

Use este método para leer archivos Parquet.

Después de crear un conjunto de datos, debe usar get_profile para enumerar los tipos de columna detectados y las estadísticas de resumen de cada columna.

El conjunto de datos devuelto no está registrado en el área de trabajo.

from_sql_query

Cree un conjunto de datos en memoria sin registrar a partir de una consulta SQL.

Nota:

Este método está en desuso y ya no se admitirá.

Se recomienda usar Dataset.Tabular.from_sql_query en su lugar. Para obtener más información, consulte https://aka.ms/dataset-deprecation.

static from_sql_query(data_source, query)

Parámetros

Nombre	Description
data_source Requerido	AzureSqlDatabaseDatastore Detalles del almacén de datos de Azure SQL.
query Requerido	str Consulta que se va a ejecutar para leer datos.

Devoluciones

Tipo	Description
Dataset	Objeto Dataset local.

generate_profile

Genere un nuevo perfil para el conjunto de datos.

Nota:

Este método está en desuso y ya no se admitirá.

Para obtener más información, consulte https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Parámetros

Nombre	Description
compute_target Requerido	Union[ComputeTarget, str] Un destino de proceso opcional para realizar la creación del perfil de instantánea. Si se omite, se usa el proceso local.
workspace Requerido	Workspace Área de trabajo, necesaria para conjuntos de datos transitorios (no registrados).
arguments Requerido	dict[str, object] Argumentos de perfil. Los argumentos válidos son: 'include_stype_counts' de tipo bool. Compruebe si los valores tienen un aspecto similar a algunos tipos semánticos conocidos, como la dirección de correo electrónico, la dirección IP (V4/V6), el número de teléfono de EE. UU., el código postal de EE. UU., la latitud y la longitud. Habilitar esto afecta al rendimiento. 'number_of_histogram_bins' de tipo int. Representa el número de intervalos de histograma que se van a usar para los datos numéricos. El valor predeterminado es 10.

Devoluciones

Tipo	Description
DatasetActionRun	Objeto de ejecución de acción del conjunto de datos.

Comentarios

La llamada sincrónica se bloqueará hasta que se complete. Llame get_result a para obtener el resultado de la acción.

get

Obtenga un conjunto de datos que ya exista en el área de trabajo especificando su nombre o identificador.

Nota:

Este método está en desuso y ya no se admitirá.

Se recomienda usar get_by_name y get_by_id en su lugar. Para obtener más información, consulte https://aka.ms/dataset-deprecation.

static get(workspace, name=None, id=None)

Parámetros

Nombre	Description
workspace Requerido	Workspace Área de trabajo de AzureML existente en la que se creó el conjunto de datos.
name Requerido	str Nombre del conjunto de datos que se va a recuperar.
id Requerido	str Identificador único del conjunto de datos en el área de trabajo.

Devoluciones

Tipo	Description
Dataset	Conjunto de datos con el nombre o el identificador especificados.

Comentarios

Puede proporcionar o nameid. Se produce una excepción si:

name y id se especifican, pero no coinciden.
el conjunto de datos con el especificado name o id no se encuentra en el área de trabajo.

get_all

Obtenga todos los conjuntos de datos registrados en el área de trabajo.

get_all()

Parámetros

Nombre	Description
workspace Requerido	Workspace Área de trabajo de AzureML existente en la que se registraron los conjuntos de datos.

Devoluciones

Tipo	Description
dict[str, Union[TabularDataset, FileDataset]]	Diccionario de objetos TabularDataset y FileDataset con clave por su nombre de registro.

get_all_snapshots

Obtenga todas las instantáneas del conjunto de datos.

Nota:

Este método está en desuso y ya no se admitirá.

Para obtener más información, consulte https://aka.ms/dataset-deprecation.

get_all_snapshots()

Devoluciones

Tipo	Description
list[DatasetSnapshot]	Lista de instantáneas del conjunto de datos.

get_by_id

Obtenga un conjunto de datos que se guarda en el área de trabajo.

get_by_id(id, **kwargs)

Parámetros

Nombre	Description
workspace Requerido	Workspace Área de trabajo de AzureML existente en la que se guarda el conjunto de datos.
id Requerido	str Identificador del conjunto de datos.

Devoluciones

Tipo	Description
Union[TabularDataset, FileDataset]	Objeto de conjunto de datos. Si el conjunto de datos está registrado, también se devolverá su nombre de registro y su versión.

get_by_name

Obtenga un conjunto de datos registrado del área de trabajo por su nombre de registro.

get_by_name(name, version='latest', **kwargs)

Parámetros

Nombre	Description
workspace Requerido	Workspace Área de trabajo de AzureML existente en la que se registró el conjunto de datos.
name Requerido	str Nombre del registro.
version Requerido	int Versión de registro. El valor predeterminado es "latest".

Devoluciones

Tipo	Description
Union[TabularDataset, FileDataset]	Objeto de conjunto de datos registrado.

get_definition

Obtenga una definición específica del conjunto de datos.

Nota:

Este método está en desuso y ya no se admitirá.

Para obtener más información, consulte https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Parámetros

Nombre	Description
version_id Requerido	str El identificador de versión de la definición del conjunto de datos

Devoluciones

Tipo	Description
DatasetDefinition	Definición del conjunto de datos.

Comentarios

Si version_id se proporciona, Azure Machine Learning intenta obtener la definición correspondiente a esa versión. Si esa versión no existe, se produce una excepción. Si version_id se omite, se recupera la versión más reciente.

get_definitions

Obtenga todas las definiciones del conjunto de datos.

Nota:

Este método está en desuso y ya no se admitirá.

Para obtener más información, consulte https://aka.ms/dataset-deprecation.

get_definitions()

Devoluciones

Tipo	Description
dict[str, DatasetDefinition]	Diccionario de definiciones de conjunto de datos.

Comentarios

Para conjuntos de datos no registrados, solo existe una definición.

get_profile

Obtenga estadísticas de resumen en el conjunto de datos calculado anteriormente.

Nota:

Este método está en desuso y ya no se admitirá.

Para obtener más información, consulte https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Parámetros

Nombre	Description
arguments Requerido	dict[str, object] Argumentos de perfil.
generate_if_not_exist Requerido	bool Indica si se va a generar un perfil si no existe.
workspace Requerido	Workspace Área de trabajo, necesaria para conjuntos de datos transitorios (no registrados).
compute_target Requerido	Union[ComputeTarget, str] Destino de proceso para ejecutar la acción de perfil.

Devoluciones

Tipo	Description
<xref:azureml.dataprep.DataProfile>	DataProfile del conjunto de datos.

Comentarios

Para un conjunto de datos registrado con un área de trabajo de Azure Machine Learning, este método recupera un perfil existente que se creó anteriormente llamando get_profile a si sigue siendo válido. Los perfiles se invalidan cuando se detectan datos modificados en el conjunto de datos o los argumentos para get_profile son diferentes de los usados cuando se generó el perfil. Si el perfil no está presente o no está invalidado, generate_if_not_exist determinará si se genera un perfil nuevo.

En el caso de un conjunto de datos que no está registrado con un área de trabajo de Azure Machine Learning, este método siempre se ejecuta generate_profile y devuelve el resultado.

get_snapshot

Obtenga la instantánea del conjunto de datos por nombre.

Nota:

Este método está en desuso y ya no se admitirá.

Para obtener más información, consulte https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Parámetros

Nombre	Description
snapshot_name Requerido	str Nombre de la instantánea.

Devoluciones

Tipo	Description
DatasetSnapshot	Objeto de instantánea del conjunto de datos.

head

Extraiga el número especificado de registros especificados de este conjunto de datos y los devuelve como dataframe.

Nota:

Este método está en desuso y ya no se admitirá.

Para obtener más información, consulte https://aka.ms/dataset-deprecation.

head(count)

Parámetros

Nombre	Description
count Requerido	int Número de registros que se van a extraer.

Devoluciones

Tipo	Description
DataFrame	Un DataFrame de Pandas.

list

Enumere todos los conjuntos de datos del área de trabajo, incluidos los que tienen is_visible la propiedad igual a False.

Nota:

Este método está en desuso y ya no se admitirá.

Se recomienda usar get_all en su lugar. Para obtener más información, consulte https://aka.ms/dataset-deprecation.

static list(workspace)

Parámetros

Nombre	Description
workspace Requerido	Workspace Área de trabajo para la que desea recuperar la lista de conjuntos de datos.

Devoluciones

Tipo	Description
list[Dataset]	Lista de objetos Dataset.

reactivate

Reactivar un conjunto de datos archivado o en desuso.

Nota:

Este método está en desuso y ya no se admitirá.

Para obtener más información, consulte https://aka.ms/dataset-deprecation.

reactivate()

Devoluciones

Tipo	Description
None	Ninguno.

register

Registre el conjunto de datos en el área de trabajo, lo que hace que esté disponible para otros usuarios del área de trabajo.

Nota:

Este método está en desuso y ya no se admitirá.

Se recomienda usar register en su lugar. Para obtener más información, consulte https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Parámetros

Nombre	Description
workspace Requerido	Workspace Área de trabajo de AzureML en la que se va a registrar el conjunto de datos.
name Requerido	str Nombre del conjunto de datos en el área de trabajo.
description Requerido	str Descripción del conjunto de datos.
tags Requerido	dict[str, str] Etiquetas que se van a asociar al conjunto de datos.
visible Requerido	bool Indica si el conjunto de datos está visible en la interfaz de usuario. Si es False, el conjunto de datos se oculta en la interfaz de usuario y está disponible a través del SDK.
exist_ok Requerido	bool Si es True, el método devuelve el conjunto de datos si ya existe en el área de trabajo especificada; de lo contrario, se producirá un error.
update_if_exist Requerido	bool Si `exist_ok` es True y `update_if_exist` es True, este método actualizará la definición y devolverá el conjunto de datos actualizado.

Devoluciones

Tipo	Description
Dataset	Objeto Dataset registrado en el área de trabajo.

sample

Genere un nuevo ejemplo a partir del conjunto de datos de origen mediante la estrategia de muestreo y los parámetros proporcionados.

Nota:

Este método está en desuso y ya no se admitirá.

Cree un mediante una TabularDataset llamada a los métodos estáticos en Dataset.Tabular y use el take_sample método allí. Para obtener más información, consulte https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Parámetros

Nombre	Description
sample_strategy Requerido	str Estrategia de ejemplo que se va a usar. Los valores aceptados son "top_n", "simple_random" o "estratificado".
arguments Requerido	dict[str, object] Diccionario con claves del "Argumento opcional" de la lista mostrada anteriormente y valores de la columna "Type". Solo se pueden usar argumentos del método de muestreo correspondiente. Por ejemplo, para un tipo de ejemplo "simple_random", solo puede especificar un diccionario con claves de "probabilidad" y "inicialización".

Devoluciones

Tipo	Description
Dataset	Objeto dataset como ejemplo del conjunto de datos original.

Comentarios

Los ejemplos se generan mediante la ejecución de la canalización de transformación definida por este conjunto de datos y, a continuación, la aplicación de la estrategia de muestreo y los parámetros a los datos de salida. Cada método de muestreo admite los siguientes argumentos opcionales:

top_n
- Argumentos opcionales
  - n, escriba entero. Seleccione las N primeras filas como ejemplo.
simple_random
- Argumentos opcionales
  - probabilidad, escriba float. Muestreo aleatorio simple en el que cada fila tiene la misma probabilidad de seleccionarse. La probabilidad debe ser un número comprendido entre 0 y 1.
  - inicialización, escriba float. Usado por el generador de números aleatorios. Se usa para la repetibilidad.
estratificado
- Argumentos opcionales
  - columns, type list[str]. Lista de columnas de estrato en los datos.
  - inicialización, escriba float. Usado por el generador de números aleatorios. Se usa para la repetibilidad.
  - fracciones, tipo dict[tupla, float]. Tupla: los valores de columna que definen un estrato deben estar en el mismo orden que los nombres de columna. Float: peso asociado a un estrato durante el muestreo.

Los fragmentos de código siguientes son patrones de diseño de ejemplo para diferentes métodos de ejemplo.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Cree un dataframe de Pandas ejecutando la canalización de transformación definida por esta definición de conjunto de datos.

Nota:

Este método está en desuso y ya no se admitirá.

Cree un mediante una TabularDataset llamada a los métodos estáticos en Dataset.Tabular y use el to_pandas_dataframe método allí. Para obtener más información, consulte https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Devoluciones

Tipo	Description
DataFrame	Un DataFrame de Pandas.

Comentarios

Devuelve un DataFrame de Pandas totalmente materializado en la memoria.

to_spark_dataframe

Cree un DataFrame de Spark que pueda ejecutar la canalización de transformación definida por esta definición de conjunto de datos.

Nota:

Este método está en desuso y ya no se admitirá.

Cree un mediante una TabularDataset llamada a los métodos estáticos en Dataset.Tabular y use el to_spark_dataframe método allí. Para obtener más información, consulte https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Devoluciones

Tipo	Description
DataFrame	Un dataframe de Spark.

Comentarios

La trama de datos de Spark devuelta es solo un plan de ejecución y no contiene realmente ningún dato, ya que los dataframes de Spark se evalúan de forma diferida.

update

Actualice los atributos mutables del conjunto de datos en el área de trabajo y devuelva el conjunto de datos actualizado del área de trabajo.

Nota:

Este método está en desuso y ya no se admitirá.

Para obtener más información, consulte https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Parámetros

Nombre	Description
name Requerido	str Nombre del conjunto de datos en el área de trabajo.
description Requerido	str Descripción de los datos.
tags Requerido	dict[str, str] Etiquetas a las que se va a asociar el conjunto de datos.
visible Requerido	bool Indica si el conjunto de datos está visible en la interfaz de usuario.

Devoluciones

Tipo	Description
Dataset	Objeto Dataset actualizado desde el área de trabajo.

update_definition

Actualice la definición del conjunto de datos.

Nota:

Este método está en desuso y ya no se admitirá.

Para obtener más información, consulte https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Parámetros

Nombre	Description
definition Requerido	DatasetDefinition Nueva definición de este conjunto de datos.
definition_update_message Requerido	str Mensaje de actualización de definición.

Devoluciones

Tipo	Description
Dataset	Objeto Dataset actualizado desde el área de trabajo.

Comentarios

Para consumir el conjunto de datos actualizado, use el objeto devuelto por este método.

Atributos

definition

Devuelve la definición actual del conjunto de datos.

Nota:

Este método está en desuso y ya no se admitirá.

Para obtener más información, consulte https://aka.ms/dataset-deprecation.

Devoluciones

Tipo	Description
DatasetDefinition	Definición del conjunto de datos.

Comentarios

Una definición de conjunto de datos es una serie de pasos que especifican cómo leer y transformar datos.

Un conjunto de datos registrado en un área de trabajo de AzureML puede tener varias definiciones, cada una creada mediante una llamada a update_definition. Cada definición tiene un identificador único. Tener varias definiciones le permite realizar cambios en los conjuntos de datos existentes sin interrumpir modelos y canalizaciones que dependen de la definición anterior.

Para conjuntos de datos no registrados, solo existe una definición.

definition_version

Devuelve la versión de la definición actual del conjunto de datos.

Nota:

Este método está en desuso y ya no se admitirá.

Para obtener más información, consulte https://aka.ms/dataset-deprecation.

Devoluciones

Tipo	Description
str	Versión de definición del conjunto de datos.

Comentarios

Una definición de conjunto de datos es una serie de pasos que especifican cómo leer y transformar datos.

Un conjunto de datos registrado en un área de trabajo de AzureML puede tener varias definiciones, cada una creada mediante una llamada a update_definition. Cada definición tiene un identificador único. La definición actual es la más reciente creada, cuyo identificador lo devuelve.

Para conjuntos de datos no registrados, solo existe una definición.

description

Devuelve la descripción del conjunto de datos.

Devoluciones

Tipo	Description
str	Descripción del conjunto de datos.

Comentarios

Especificar una descripción de los datos del conjunto de datos permite a los usuarios del área de trabajo comprender lo que representan los datos y cómo pueden usarlos.

id

Si el conjunto de datos se registró en un área de trabajo, devuelva el identificador del conjunto de datos. De lo contrario, devuelve None.

Devoluciones

Tipo	Description
str	Identificador del conjunto de datos.

is_visible

Controlar la visibilidad de un conjunto de datos registrado en la interfaz de usuario del área de trabajo de Azure ML.

Nota:

Este método está en desuso y ya no se admitirá.

Para obtener más información, consulte https://aka.ms/dataset-deprecation.

Devoluciones

Tipo	Description
bool	Visibilidad del conjunto de datos.

Comentarios

Valores devueltos:

True: el conjunto de datos está visible en la interfaz de usuario del área de trabajo. Predeterminado.
False: el conjunto de datos está oculto en la interfaz de usuario del área de trabajo.

No tiene ningún efecto en los conjuntos de datos no registrados.

name

Devuelve el nombre del conjunto de datos.

Devoluciones

Tipo	Description
str	Nombre del conjunto de datos.

state

Devuelve el estado del conjunto de datos.

Nota:

Este método está en desuso y ya no se admitirá.

Para obtener más información, consulte https://aka.ms/dataset-deprecation.

Devoluciones

Tipo	Description
str	Estado del conjunto de datos.

Comentarios

El significado y el efecto de los estados son los siguientes:

Activo. Las definiciones activas son exactamente lo que suenan, todas las acciones se pueden realizar en definiciones activas.
Obsolescente. se puede usar la definición en desuso, pero provocará que se registre una advertencia en los registros cada vez que se acceda a los datos subyacentes.
Archivados. No se puede usar una definición archivada para realizar ninguna acción. Para realizar acciones en una definición archivada, debe reactivarse.

workspace

Si el conjunto de datos se registró en un área de trabajo, devuelva eso. De lo contrario, devuelve None.

Devoluciones

Tipo	Description
Workspace	Área de trabajo.

Tabular

Generador para crear FileDataset

alias de TabularDatasetFactory

Compartir a través de

Dataset Clase

Constructor

Parámetros

Comentarios

Variables

Métodos

archive

Devoluciones

Comentarios

auto_read_files

Parámetros

Devoluciones

Comentarios

compare_profiles

Parámetros

Devoluciones

Comentarios

create_snapshot

Parámetros

Devoluciones

Comentarios

delete_snapshot

Parámetros

Devoluciones

Comentarios

deprecate

Parámetros

Devoluciones

Comentarios

diff

Parámetros

Devoluciones

from_binary_files

Parámetros

Devoluciones

Comentarios

from_delimited_files

Parámetros

Devoluciones

Comentarios

from_excel_files

Parámetros

Devoluciones

Comentarios

from_json_files

Parámetros

Devoluciones

from_pandas_dataframe

Parámetros

Devoluciones

Comentarios

from_parquet_files

Parámetros

Devoluciones

Comentarios

from_sql_query

Parámetros

Devoluciones

generate_profile

Parámetros

Devoluciones

Comentarios

get

Parámetros

Devoluciones

Comentarios

get_all

Parámetros

Devoluciones

get_all_snapshots

Devoluciones

get_by_id

Parámetros

Devoluciones

get_by_name

Parámetros

Devoluciones

get_definition

Parámetros