Compartir a través de


Conexión a los datos con Azure Machine Learning Studio

Importante

En este artículo se proporciona información sobre el uso del SDK de Azure Machine Learning v1. El SDK v1 está en desuso a partir del 31 de marzo de 2025 y la compatibilidad con él finalizará el 30 de junio de 2026. Puede instalar y usar el SDK v1 hasta esa fecha.

Se recomienda realizar la transición al SDK v2 antes del 30 de junio de 2026. Para más información sobre el SDK v2, consulte ¿Qué es el SDK de Python de Azure Machine Learning v2 y la referencia del SDK v2?

En este artículo se muestra cómo acceder a los datos con Estudio de Azure Machine Learning. Conéctese a los datos en los servicios de almacenamiento de Azure con almacenes de datos de Azure Machine Learning. Después, empaquete esos datos para las tareas de flujo de trabajo de Machine Learning con conjuntos de datos de Azure Machine Learning.

En esta tabla se definen y resumen las ventajas de los almacenes de datos y los conjuntos de datos.

Objeto Descripción Ventajas
Almacenes de datos Para conectarse de forma segura al servicio de almacenamiento en Azure, almacene la información de la conexión (id. de suscripción, autorización de token, etc.) en la instancia de Key Vault asociada al área de trabajo Como la información se almacena de forma segura, no pone en riesgo las credenciales de autenticación ni los orígenes de datos originales, y ya no necesita codificar estos valores en los scripts
Conjuntos de datos La creación de conjuntos de datos también crea una referencia a la ubicación del origen de datos, junto con una copia de sus metadatos. Con los conjuntos de datos puede acceder a los datos durante el entrenamiento del modelo, compartir datos, colaborar con otros usuarios y usar bibliotecas de código abierto, como pandas, para la exploración de datos. Como los conjuntos de datos se evalúan de forma diferida y los datos permanecen en su ubicación existente, se mantiene una única copia de los datos en el almacenamiento. Además, no se incurre en ningún costo adicional de almacenamiento, se evitan cambios accidentales en los orígenes de datos originales y se mejoran las velocidades de rendimiento del flujo de trabajo de ML.

Para más información sobre dónde encajan los almacenes de datos y los conjuntos de datos en el flujo de trabajo general de acceso a datos de Azure Machine Learning, visite Acceso seguro a los datos.

Para más información sobre el SDK de Python de Azure Machine Learning y una experiencia centrada en el código, visite.

Requisitos previos

  • Suscripción a Azure. Si no tiene una suscripción a Azure, cree una cuenta gratuita antes de empezar. Pruebe la versión gratuita o de pago de Azure Machine Learning.

  • Acceso a Estudio de Azure Machine Learning

  • Un área de trabajo de Azure Machine Learning. Creación de recursos de área de trabajo

    • Al crear un área de trabajo, se registran automáticamente un contenedor de blobs de Azure y un recurso compartido de archivos de Azure en el área de trabajo como almacenes de datos. Se denominan workspaceblobstore y workspacefilestore, respectivamente. Para que los recursos de Blob Storage sean suficientes, workspaceblobstore se establece como almacén de datos predeterminado ya configurado para su uso. Para más recursos de Blob Storage, necesita una cuenta de Azure Storage con un tipo de almacenamiento compatible.

Creación de almacenes de datos

Puede crear almacenes de datos a partir de estas soluciones de Azure Storage. En el caso de las soluciones de almacenamiento no compatibles, y para ahorrar el costo de salida durante los experimentos de ML, debe mover los datos a una solución de Azure Storage compatible. Para más información sobre los almacenes de datos, visite este recurso.

Puede crear almacenes de datos con acceso basado en credenciales o acceso basado en identidades.

Cree un almacén de datos con Estudio de Azure Machine Learning.

Importante

Si la cuenta de almacenamiento de datos se encuentra en una red virtual, se requieren pasos de configuración adicionales para asegurarse de que Studio pueda acceder a los datos. Visite Aislamiento de red y privacidad para más información sobre los pasos de configuración adecuados.

  1. Inicie sesión en Azure Machine Learning Studio.
  2. Seleccione Datos en el panel izquierdo en Activos.
  3. En la parte superior, seleccione Almacenes de datos.
  4. Seleccione +Crear.
  5. Rellene el formulario para crear y registrar un nuevo almacén de datos. El formulario se actualiza de forma inteligente según las selecciones de tipo de Azure Storage y de autenticación. Para obtener más información sobre dónde encontrar las credenciales de autenticación necesarias para rellenar este formulario, visite la sección acceso y permisos de almacenamiento de este documento.

En la captura de pantalla siguiente se muestra el panel de creación del almacén de datos de blobs de Azure :

Recorte de pantalla en el que se muestra el panel de creación del almacén de datos de blobs de Azure.

Creación de recursos de datos

Después de crear un almacén de datos, cree un conjunto de datos para interactuar con los datos. Los conjuntos de datos empaquetan los datos en un objeto consumible que se evalúa de forma diferida para tareas de aprendizaje automático, como las de entrenamiento. Visite Creación de conjuntos de datos de Azure Machine Learning para más información sobre los conjuntos de datos.

Los conjuntos de datos tienen dos tipos: FileDataset y TabularDataset. Los objetos FileDataset crean referencias a uno o varios archivos, o direcciones URL públicas. Los objetos TabularDataset representan los datos en formato tabular. Puede crear instancias de TabularDataset a partir de

  • .csv
  • .tsv
  • .parquet
  • archivos .json y de resultados de consultas SQL.

Los siguientes pasos describen cómo crear un conjunto de datos en el estudio de Azure Machine Learning.

Nota

Los conjuntos de datos creados mediante Azure Machine Learning Studio se registran automáticamente en el área de trabajo.

  1. Vaya a Estudio de Azure Machine Learning

  2. En Recursos en el panel de navegación izquierdo, seleccione Datos. En la pestaña Recursos de datos, seleccione Crear, como se muestra en la captura de pantalla siguiente:

Captura de pantalla que muestra Crear en la pestaña Recursos de datos.

  1. Asigne un nombre al recurso de datos y una descripción opcional. A continuación, en Tipo, seleccione un tipo de conjunto de datos, archivo o tabular, como se muestra en la captura de pantalla siguiente:

Recorte de pantalla en el que se muestra cómo establecer el nombre, la descripción y el tipo del recurso de datos.

  1. El panel Origen de datos se abre a continuación, como se muestra en la captura de pantalla siguiente:

En este recorte de pantalla se muestra el panel de selección del origen de datos.

Tiene otras opciones para el origen de datos. Para los datos ya almacenados en Azure, elija "Desde Azure Storage". Para cargar datos desde la unidad local, elija "Desde archivos locales". Para los datos almacenados en una ubicación web pública, elija "Desde archivos web". También puede crear un recurso de datos desde una base de datos SQL o desde Azure Open Datasets.

  1. En el paso de selección de archivos, seleccione la ubicación donde Azure debe almacenar los datos y los archivos de datos que quiere usar.

    1. Habilite la omisión de la validación si los datos están en una red virtual. Para obtener más información sobre el aislamiento y la privacidad de la red virtual, visite este recurso.
  2. Siga los pasos para establecer la configuración y el esquema de análisis de datos para el recurso de datos. Los valores se rellenan previamente en función del tipo de archivo y puede configurar aún más los valores antes de crear el recurso de datos.

  3. Una vez que llegue al paso Revisar, seleccione Crear en la última página

Versión preliminar y perfil de los datos

Después de crear el conjunto de datos, compruebe que puede ver la vista previa y el perfil en Estudio:

  1. Inicie sesión en Azure Machine Learning Studio.
  2. Como se muestra en la siguiente captura de pantalla, en Recursos en el panel de navegación izquierdo, seleccione Datos:

Captura de pantalla destaca Crear en la pestaña Activos de datos.

  1. Seleccione el nombre del conjunto de datos que quiere ver.
  2. Seleccione la pestaña Explore (Explorar).
  3. Seleccione la pestaña Vista previa , como se muestra en la captura de pantalla siguiente:

Captura de pantalla que muestra una vista previa de un conjunto de datos.

  1. Seleccione la pestaña Perfil , como se muestra en la captura de pantalla siguiente:

Captura de pantalla que muestra los metadatos de columna del conjunto de datos en la pestaña Perfil.

Para comprobar si el conjunto de datos está listo para el aprendizaje automático, puede usar estadísticas de resumen sobre el conjunto de datos. En el caso de las columnas no numéricas, estas estadísticas solo incluyen medidas estadísticas básicas( por ejemplo, min, max y error count). Las columnas numéricas, también ofrecen momentos estadísticos y cuantiles estimados.

El perfil de datos del conjunto de datos de Azure Machine Learning incluye lo siguiente:

Nota

Aparecen entradas en blanco para las características con tipos irrelevantes.

Estadísticas Descripción
Característica Nombre de columna resumido
Perfil Visualización en línea según el tipo inferido. Las cadenas, los valores booleanos y las fechas tienen recuentos de valores. Los decimales (numéricos) tienen histogramas aproximados. Estas visualizaciones ofrecen una comprensión rápida de la distribución de los datos
Distribución de tipo Recuento de valor en línea de los tipos dentro de una columna. Los valores null son su propio tipo, por lo que esta visualización puede detectar los valores impares o que faltan
Tipo Tipo de columna inferido. Los valores posibles incluyen: cadenas, valores booleanos, fechas y decimales
Min Valor mínimo de la columna. Aparecen entradas en blanco para características cuyo tipo no tiene una ordenación inherente (por ejemplo, los valores booleanos)
Máx. Valor máximo de la columna.
Contar Número total de entradas que faltan y que no faltan en la columna
No falta el recuento Número de entradas de la columna que no faltan. Las cadenas vacías y los errores se tratan como valores, por lo que no contribuirán a la lista de "recuento de entradas que no faltan".
Cuantiles Valores aproximados en cada cuantil para proporcionar una idea de la distribución de los datos
Promedio Media aritmética o promedio de la columna
Desviación estándar Medida de la cantidad de dispersión o variación de los datos de esta columna
Desviación Medida de la diferencia de los datos de esta columna con respecto a su valor medio
Asimetría Mide la diferencia entre los datos de esta columna y una distribución normal
Curtosis Mide el grado de "final" de los datos de esta columna, en comparación con una distribución normal

Permisos y acceso a Storage

Para garantizar una conexión segura al servicio Azure Storage, Azure Machine Learning exige que tenga permiso para acceder al almacenamiento de datos correspondiente. Este acceso depende de las credenciales de autenticación usadas para registrar el almacén de datos.

Red de área virtual

Si la cuenta de almacenamiento de datos se encuentra en una red virtual, se necesitan pasos de configuración adicionales para garantizar que Azure Machine Learning tenga acceso a los datos. Visite Uso de Azure Machine Learning Studio en una red virtual para asegurarse de que se aplican los pasos de configuración adecuados al crear y registrar el almacén de datos.

Validación de acceso

Advertencia

No se admite el acceso entre inquilinos a las cuentas de almacenamiento. Si su escenario necesita acceso entre inquilinos/residentes, póngase en contacto con el equipo de soporte técnico de datos de Azure Machine Learning para obtener ayuda con una solución personalizada de código.

Como parte del proceso de creación y registro del almacén de datos inicial, Azure Machine Learning valida automáticamente que el servicio de almacenamiento subyacente exista y que la entidad de seguridad proporcionada por el usuario (nombre de usuario, entidad de servicio o token de SAS) tenga acceso al almacenamiento especificado.

Después de crear el almacén de datos, esta validación solo se realiza para los métodos que necesitan acceso al contenedor de almacenamiento subyacente. La validación no se realiza cada vez que se recuperan los objetos de almacén de datos. Por ejemplo, la validación se produce cuando descarga archivos del almacén de datos. Pero si solo quiere cambiar el almacén de datos predeterminado, no se produce la validación.

Para autenticar el acceso al servicio de almacenamiento subyacente, proporcione la clave de cuenta, tokens de firmas de acceso compartido (SAS) o una entidad de servicio, en función del tipo de almacén de datos que quiere crear. La matriz de tipo de almacenamiento muestra los tipos de autenticación admitidos que corresponden a cada tipo de almacén de datos.

Puede encontrar la clave de cuenta, el token de SAS y la información de la entidad de servicio en Azure Portal.

  • A fin de obtener una clave de cuenta para la autenticación, seleccione Cuentas de almacenamiento en el panel de la izquierda y elija la cuenta de almacenamiento que quiera registrar

    • La página Información general proporciona información como el nombre de la cuenta, el contenedor y el nombre del recurso compartido de archivos.
    • Expanda el nodo Seguridad y redes en el panel de navegación de la izquierda
    • Seleccione Claves de acceso.
    • Los valores de clave disponibles sirven como valores de clave de cuenta
  • A fin de obtener un token de SAS para la autenticación, seleccione Cuentas de almacenamiento en el panel de la izquierda y elija la cuenta de almacenamiento que quiera

    • Para obtener un valor de clave de acceso, expanda el nodo Seguridad y redes en el panel de navegación de la izquierda
    • Seleccione Firma de acceso compartido
    • Complete el proceso para generar el valor de SAS
  • Para usar un principal de servicio para la autenticación, vaya a Registros de aplicaciones y seleccione la aplicación que desea usar.

    • Su página de información general correspondiente contiene información necesaria, como el identificador de inquilino y el identificador de cliente.

Importante

  • Para cambiar las claves de acceso de una cuenta de Azure Storage (clave de cuenta o token de SAS), asegúrese de sincronizar las credenciales nuevas con el área de trabajo y los almacenes de datos conectados a ella. Para obtener más información, visite Sincronización de las credenciales actualizadas.
  • Si anula el registro y vuelve a registrar un almacén de datos con el mismo nombre y se produce un error en el nuevo registro, es posible que la instancia de Azure Key Vault del área de trabajo no tenga habilitada la eliminación temporal. De manera predeterminada, la eliminación temporal está habilitada para la instancia del almacén de claves creada por el área de trabajo. Sin embargo, es posible que no esté habilitado si ha usado un almacén de claves existente o tiene un área de trabajo creada antes de octubre de 2020. Para más información sobre cómo habilitar la eliminación temporal, visite Activación de la eliminación temporal para un almacén de claves existente.

Permisos

En el caso del contenedor de blobs de Azure y el almacenamiento de Azure Data Lake Gen 2, asegúrese de que las credenciales de autenticación tengan acceso de Lector de datos de Storage Blob. Obtenga más información sobre el Lector de datos de Storage Blob. De manera predeterminada, un token de SAS de cuenta no tiene ningún permiso.

  • Para el acceso de lectura de datos, las credenciales de autenticación deben tener un número mínimo de permisos de enumeración y lectura para contenedores y objetos.

  • Para el acceso de escritura de datos, también se necesitan los permisos de escritura y agregación.

Entrenamiento con conjuntos de datos

Use sus conjuntos de datos en los experimentos de aprendizaje automático para entrenar modelos de aprendizaje automático. Obtenga más información sobre cómo entrenar con conjuntos de datos.

Pasos siguientes