Datos en Azure Machine Learning v1

2025-05-06

SE APLICA A:Extensión de ML de la CLI de Azure v1

SE APLICA A:SDK de Azure Machine Learning v1 para Python

Importante

En este artículo se proporciona información sobre el uso del SDK de Azure Machine Learning v1. EL SDK v1 está en desuso a partir del 31 de marzo de 2025. El soporte técnico finalizará el 30 de junio de 2026. Puede instalar y usar SDK v1 hasta esa fecha.

Se recomienda realizar la transición al SDK v2 antes del 30 de junio de 2026. Para más información sobre SDK v2, consulte ¿Qué es la CLI de Azure Machine Learning y el SDK de Python v2? y la referencia del SDK v2.

Azure Machine Learning facilita la conexión con los datos en la nube. Proporciona una capa de abstracción en el servicio de almacenamiento subyacente, por lo que puede acceder de forma segura a los datos y trabajar con ellos sin tener que escribir código específico para su tipo de almacenamiento. Azure Machine Learning también ofrece estas funcionalidades de datos:

Interoperabilidad con DataFrames de Pandas y Spark
Control de versiones y seguimiento del linaje de datos
Etiquetado de datos
Supervisión del desfase de datos

Flujo de trabajo de datos

Para usar los datos de la solución de almacenamiento basada en la nube, se recomienda este flujo de trabajo de entrega de datos. En este flujo de trabajo se supone que tiene una cuenta de almacenamiento de Azure y datos en un servicio de almacenamiento basado en la nube de Azure.

Cree un almacén de datos de Azure Machine Learning para almacenar la información de conexión en el almacenamiento de Azure.
En ese almacén de datos, cree un conjunto de datos de Azure Machine Learning para que apunte a un archivo o archivos específicos del almacenamiento subyacente.
Para usar ese conjunto de datos en el experimento de aprendizaje automático; puede:
- Montar el conjunto de datos en el destino de proceso del experimento, para el entrenamiento del modelo.
  
  OR
- Consumir el conjunto de datos directamente en soluciones de Azure Machine Learning; por ejemplo, las ejecuciones de experimentos de aprendizaje automático automatizado (ML automatizado), las canalizaciones de aprendizaje automático o el diseñador de Azure Machine Learning.
Crear monitores de conjuntos de datos para el conjunto de datos de salida del modelo con el fin de detectar desfases de datos.
Si se detecta un desfase de datos, actualice el conjunto de datos de entrada y vuelva a entrenar el modelo en consecuencia.

En este recorte de pantalla se muestra el flujo de trabajo recomendado:

Conexión al almacenamiento con almacenes de datos

Los almacenes de datos de Azure Machine Learning hospedan la información de conexión del almacenamiento de datos en Azure, por lo que no tendrá que colocarla en los scripts. Para obtener más información sobre cómo conectarse a una cuenta de almacenamiento y acceso a datos en el servicio de almacenamiento subyacente, visite Registro y creación de un almacén de datos.

Estos servicios de almacenamiento admitidos basados en la nube de Azure pueden registrarse como almacenes de datos:

Contenedor de blobs de Azure
Recurso compartido de archivos de Azure
Azure Data Lake
Azure Data Lake Gen2
Azure SQL Database
Base de Datos de Azure para PostgreSQL
Sistema de archivos de Databricks
Base de Datos Azure para MySQL

Sugerencia

Puede crear almacenes de datos con autenticación basada en credenciales para acceder a los servicios de almacenamiento; por ejemplo, un token de entidad de servicio o de firma de acceso compartido (SAS). Los usuarios con acceso de lectura al área de trabajo pueden acceder a las credenciales.

Si esto supone un problema, visite crear un almacén de datos que use el acceso a datos basado en identidad para obtener más información sobre las conexiones a servicios de almacenamiento.

Datos de referencia en el almacenamiento con conjuntos de datos

Los conjuntos de datos de Azure Machine Learning no son copias de los datos. La creación del conjunto de datos crea una referencia a los datos de su servicio de almacenamiento, junto con una copia de sus metadatos.

Dado que los conjuntos de datos se evalúan de forma diferida y los datos permanecen en su ubicación existente, usted:

No generar ningún coste de almacenamiento adicional.
No se arriesgará de forma no intencionada cambiando sus orígenes de datos originales.
Mejorará las velocidades de rendimiento del flujo de trabajo de ML.

Para interactuar con los datos del almacenamiento, cree un conjunto de datos para empaquetar los datos en un objeto consumible para las tareas de aprendizaje automático. Registre el conjunto de datos en el área de trabajo para compartirlo y reutilizarlo en distintos experimentos sin las complejidades de la ingesta de datos.

Puede crear conjuntos de datos a partir de archivos locales, direcciones URL públicas, instancias de Azure Open Datasets o servicios de almacenamiento de Azure mediante almacenes de datos.

Hay dos tipos de conjuntos de datos:

Un FileDataset hace referencia a uno o varios archivos en los almacenes de datos o direcciones URL públicas. Si los datos ya están limpios y listos para los experimentos de entrenamiento, puede descargar o montar archivos a los que hacen referencia los objetos FileDatasets en el destino de proceso
Un TabularDataset representa los datos en un formato tabular mediante el análisis del archivo o la lista de archivos proporcionados. Puede cargar un objeto TabularDataset en un DataFrame de Pandas o Spark para su posterior manipulación y limpieza. Para obtener una lista completa de formatos de datos a partir de los cuales se pueden crear objetos TabularDatasets, consulte la clase TabularDatasetFactory.

Estos recursos ofrecen más información sobre las funcionalidades del conjunto de datos:

Versión y seguimiento del linaje del conjunto de datos.
Supervisión del conjunto de datos para ayudar con la detección de desfases de datos.

Trabajar con los datos

Con los conjuntos de datos puede realizar tareas de aprendizaje automático gracias a la perfecta integración con las características de Azure Machine Learning.

Creación de un proyecto de etiquetado de datos
Entrenamiento de modelos de Machine Learning:
Acceder a los conjuntos de datos para la puntuación con la inferencia por lotes en canalizaciones de aprendizaje automático
Configurar un monitor de conjunto de datos para la detección de desfases de datos

Etiquetado de datos con proyectos de etiquetado de datos

Etiquetar grandes volúmenes de datos en proyectos de aprendizaje automático puede ser una tarea compleja. Los proyectos con un componente de visión artificial (como la clasificación de imágenes o la detección de objetos) suelen requerir miles de imágenes y sus etiquetas correspondientes.

Azure Machine Learning le proporciona una ubicación central para crear, administrar y supervisar proyectos de etiquetado. Los proyectos de etiquetado ayudan a coordinar los datos, las etiquetas y los miembros del equipo, de modo que pueda administrar de forma más eficaz las tareas de etiquetado. Actualmente, las tareas admitidas implican la clasificación de imágenes (de varias etiquetas y de varias clases) y la identificación de objetos mediante rectángulos de selección.

Cree un proyecto de etiquetado de imágenes o un proyecto de etiquetado de texto y genere un conjunto de datos que puede usar en experimentos de aprendizaje automático.

Supervisión del rendimiento del modelo con desfase de datos

En el contexto de aprendizaje automático, el desfase de datos es el cambio en los datos de entrada del modelo que conduce a la degradación del rendimiento del modelo. Es uno de los principales motivos por los que la precisión del modelo se degrada con el tiempo, por lo que la supervisión del desfase de datos ayuda a detectar problemas de rendimiento del modelo.

Consulte Creación de monitores de conjunto de datos para obtener información sobre cómo detectar y alertar sobre el desfase de datos en los nuevos datos de un conjunto de datos.

Pasos siguientes

Creación de un conjunto de datos en Estudio de Azure Machine Learning o con el SDK de Python
Probar los ejemplos de entrenamiento del conjunto de datos con nuestros cuadernos de ejemplo