Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Importante
En este artículo se proporciona información sobre el uso del SDK de Azure Machine Learning v1. El SDK v1 está en desuso a partir del 31 de marzo de 2025 y la compatibilidad con él finalizará el 30 de junio de 2026. Puede instalar y usar el SDK v1 hasta esa fecha.
Se recomienda realizar la transición al SDK v2 antes del 30 de junio de 2026. Para más información sobre el SDK v2, consulte ¿Qué es el SDK de Python de Azure Machine Learning v2 y la referencia del SDK v2?
En este artículo se muestra cómo acceder a los datos con Estudio de Azure Machine Learning. Conéctese a los datos en los servicios de almacenamiento de Azure con almacenes de datos de Azure Machine Learning. Después, empaquete esos datos para las tareas de flujo de trabajo de Machine Learning con conjuntos de datos de Azure Machine Learning.
En esta tabla se definen y resumen las ventajas de los almacenes de datos y los conjuntos de datos.
Objeto | Descripción | Ventajas |
---|---|---|
Almacenes de datos | Para conectarse de forma segura al servicio de almacenamiento en Azure, almacene la información de la conexión (id. de suscripción, autorización de token, etc.) en la instancia de Key Vault asociada al área de trabajo | Como la información se almacena de forma segura, no pone en riesgo las credenciales de autenticación ni los orígenes de datos originales, y ya no necesita codificar estos valores en los scripts |
Conjuntos de datos | La creación de conjuntos de datos también crea una referencia a la ubicación del origen de datos, junto con una copia de sus metadatos. Con los conjuntos de datos puede acceder a los datos durante el entrenamiento del modelo, compartir datos, colaborar con otros usuarios y usar bibliotecas de código abierto, como pandas, para la exploración de datos. | Como los conjuntos de datos se evalúan de forma diferida y los datos permanecen en su ubicación existente, se mantiene una única copia de los datos en el almacenamiento. Además, no se incurre en ningún costo adicional de almacenamiento, se evitan cambios accidentales en los orígenes de datos originales y se mejoran las velocidades de rendimiento del flujo de trabajo de ML. |
Para más información sobre dónde encajan los almacenes de datos y los conjuntos de datos en el flujo de trabajo general de acceso a datos de Azure Machine Learning, visite Acceso seguro a los datos.
Para más información sobre el SDK de Python de Azure Machine Learning y una experiencia centrada en el código, visite.
- Conexión a servicios de almacenamiento de Azure con almacenes de datos
- Creación de conjuntos de datos de Azure Machine Learning
Requisitos previos
Suscripción a Azure. Si no tiene una suscripción a Azure, cree una cuenta gratuita antes de empezar. Pruebe la versión gratuita o de pago de Azure Machine Learning.
Acceso a Estudio de Azure Machine Learning
Un área de trabajo de Azure Machine Learning. Creación de recursos de área de trabajo
- Al crear un área de trabajo, se registran automáticamente un contenedor de blobs de Azure y un recurso compartido de archivos de Azure en el área de trabajo como almacenes de datos. Se denominan
workspaceblobstore
yworkspacefilestore
, respectivamente. Para que los recursos de Blob Storage sean suficientes,workspaceblobstore
se establece como almacén de datos predeterminado ya configurado para su uso. Para más recursos de Blob Storage, necesita una cuenta de Azure Storage con un tipo de almacenamiento compatible.
- Al crear un área de trabajo, se registran automáticamente un contenedor de blobs de Azure y un recurso compartido de archivos de Azure en el área de trabajo como almacenes de datos. Se denominan
Creación de almacenes de datos
Puede crear almacenes de datos a partir de estas soluciones de Azure Storage. En el caso de las soluciones de almacenamiento no compatibles, y para ahorrar el costo de salida durante los experimentos de ML, debe mover los datos a una solución de Azure Storage compatible. Para más información sobre los almacenes de datos, visite este recurso.
Puede crear almacenes de datos con acceso basado en credenciales o acceso basado en identidades.
Cree un almacén de datos con Estudio de Azure Machine Learning.
Importante
Si la cuenta de almacenamiento de datos se encuentra en una red virtual, se requieren pasos de configuración adicionales para asegurarse de que Studio pueda acceder a los datos. Visite Aislamiento de red y privacidad para más información sobre los pasos de configuración adecuados.
- Inicie sesión en Azure Machine Learning Studio.
- Seleccione Datos en el panel izquierdo en Activos.
- En la parte superior, seleccione Almacenes de datos.
- Seleccione +Crear.
- Rellene el formulario para crear y registrar un nuevo almacén de datos. El formulario se actualiza de forma inteligente según las selecciones de tipo de Azure Storage y de autenticación. Para obtener más información sobre dónde encontrar las credenciales de autenticación necesarias para rellenar este formulario, visite la sección acceso y permisos de almacenamiento de este documento.
En la captura de pantalla siguiente se muestra el panel de creación del almacén de datos de blobs de Azure :
Creación de recursos de datos
Después de crear un almacén de datos, cree un conjunto de datos para interactuar con los datos. Los conjuntos de datos empaquetan los datos en un objeto consumible que se evalúa de forma diferida para tareas de aprendizaje automático, como las de entrenamiento. Visite Creación de conjuntos de datos de Azure Machine Learning para más información sobre los conjuntos de datos.
Los conjuntos de datos tienen dos tipos: FileDataset y TabularDataset. Los objetos FileDataset crean referencias a uno o varios archivos, o direcciones URL públicas. Los objetos TabularDataset representan los datos en formato tabular. Puede crear instancias de TabularDataset a partir de
- .csv
- .tsv
- .parquet
- archivos .json y de resultados de consultas SQL.
Los siguientes pasos describen cómo crear un conjunto de datos en el estudio de Azure Machine Learning.
Nota
Los conjuntos de datos creados mediante Azure Machine Learning Studio se registran automáticamente en el área de trabajo.
En Recursos en el panel de navegación izquierdo, seleccione Datos. En la pestaña Recursos de datos, seleccione Crear, como se muestra en la captura de pantalla siguiente:
- Asigne un nombre al recurso de datos y una descripción opcional. A continuación, en Tipo, seleccione un tipo de conjunto de datos, archivo o tabular, como se muestra en la captura de pantalla siguiente:
- El panel Origen de datos se abre a continuación, como se muestra en la captura de pantalla siguiente:
Tiene otras opciones para el origen de datos. Para los datos ya almacenados en Azure, elija "Desde Azure Storage". Para cargar datos desde la unidad local, elija "Desde archivos locales". Para los datos almacenados en una ubicación web pública, elija "Desde archivos web". También puede crear un recurso de datos desde una base de datos SQL o desde Azure Open Datasets.
En el paso de selección de archivos, seleccione la ubicación donde Azure debe almacenar los datos y los archivos de datos que quiere usar.
- Habilite la omisión de la validación si los datos están en una red virtual. Para obtener más información sobre el aislamiento y la privacidad de la red virtual, visite este recurso.
Siga los pasos para establecer la configuración y el esquema de análisis de datos para el recurso de datos. Los valores se rellenan previamente en función del tipo de archivo y puede configurar aún más los valores antes de crear el recurso de datos.
Una vez que llegue al paso Revisar, seleccione Crear en la última página
Versión preliminar y perfil de los datos
Después de crear el conjunto de datos, compruebe que puede ver la vista previa y el perfil en Estudio:
- Inicie sesión en Azure Machine Learning Studio.
- Como se muestra en la siguiente captura de pantalla, en Recursos en el panel de navegación izquierdo, seleccione Datos:
- Seleccione el nombre del conjunto de datos que quiere ver.
- Seleccione la pestaña Explore (Explorar).
- Seleccione la pestaña Vista previa , como se muestra en la captura de pantalla siguiente:
- Seleccione la pestaña Perfil , como se muestra en la captura de pantalla siguiente:
Para comprobar si el conjunto de datos está listo para el aprendizaje automático, puede usar estadísticas de resumen sobre el conjunto de datos. En el caso de las columnas no numéricas, estas estadísticas solo incluyen medidas estadísticas básicas( por ejemplo, min, max y error count). Las columnas numéricas, también ofrecen momentos estadísticos y cuantiles estimados.
El perfil de datos del conjunto de datos de Azure Machine Learning incluye lo siguiente:
Nota
Aparecen entradas en blanco para las características con tipos irrelevantes.
Estadísticas | Descripción |
---|---|
Característica | Nombre de columna resumido |
Perfil | Visualización en línea según el tipo inferido. Las cadenas, los valores booleanos y las fechas tienen recuentos de valores. Los decimales (numéricos) tienen histogramas aproximados. Estas visualizaciones ofrecen una comprensión rápida de la distribución de los datos |
Distribución de tipo | Recuento de valor en línea de los tipos dentro de una columna. Los valores null son su propio tipo, por lo que esta visualización puede detectar los valores impares o que faltan |
Tipo | Tipo de columna inferido. Los valores posibles incluyen: cadenas, valores booleanos, fechas y decimales |
Min | Valor mínimo de la columna. Aparecen entradas en blanco para características cuyo tipo no tiene una ordenación inherente (por ejemplo, los valores booleanos) |
Máx. | Valor máximo de la columna. |
Contar | Número total de entradas que faltan y que no faltan en la columna |
No falta el recuento | Número de entradas de la columna que no faltan. Las cadenas vacías y los errores se tratan como valores, por lo que no contribuirán a la lista de "recuento de entradas que no faltan". |
Cuantiles | Valores aproximados en cada cuantil para proporcionar una idea de la distribución de los datos |
Promedio | Media aritmética o promedio de la columna |
Desviación estándar | Medida de la cantidad de dispersión o variación de los datos de esta columna |
Desviación | Medida de la diferencia de los datos de esta columna con respecto a su valor medio |
Asimetría | Mide la diferencia entre los datos de esta columna y una distribución normal |
Curtosis | Mide el grado de "final" de los datos de esta columna, en comparación con una distribución normal |
Permisos y acceso a Storage
Para garantizar una conexión segura al servicio Azure Storage, Azure Machine Learning exige que tenga permiso para acceder al almacenamiento de datos correspondiente. Este acceso depende de las credenciales de autenticación usadas para registrar el almacén de datos.
Red de área virtual
Si la cuenta de almacenamiento de datos se encuentra en una red virtual, se necesitan pasos de configuración adicionales para garantizar que Azure Machine Learning tenga acceso a los datos. Visite Uso de Azure Machine Learning Studio en una red virtual para asegurarse de que se aplican los pasos de configuración adecuados al crear y registrar el almacén de datos.
Validación de acceso
Advertencia
No se admite el acceso entre inquilinos a las cuentas de almacenamiento. Si su escenario necesita acceso entre inquilinos/residentes, póngase en contacto con el equipo de soporte técnico de datos de Azure Machine Learning para obtener ayuda con una solución personalizada de código.
Como parte del proceso de creación y registro del almacén de datos inicial, Azure Machine Learning valida automáticamente que el servicio de almacenamiento subyacente exista y que la entidad de seguridad proporcionada por el usuario (nombre de usuario, entidad de servicio o token de SAS) tenga acceso al almacenamiento especificado.
Después de crear el almacén de datos, esta validación solo se realiza para los métodos que necesitan acceso al contenedor de almacenamiento subyacente. La validación no se realiza cada vez que se recuperan los objetos de almacén de datos. Por ejemplo, la validación se produce cuando descarga archivos del almacén de datos. Pero si solo quiere cambiar el almacén de datos predeterminado, no se produce la validación.
Para autenticar el acceso al servicio de almacenamiento subyacente, proporcione la clave de cuenta, tokens de firmas de acceso compartido (SAS) o una entidad de servicio, en función del tipo de almacén de datos que quiere crear. La matriz de tipo de almacenamiento muestra los tipos de autenticación admitidos que corresponden a cada tipo de almacén de datos.
Puede encontrar la clave de cuenta, el token de SAS y la información de la entidad de servicio en Azure Portal.
A fin de obtener una clave de cuenta para la autenticación, seleccione Cuentas de almacenamiento en el panel de la izquierda y elija la cuenta de almacenamiento que quiera registrar
- La página Información general proporciona información como el nombre de la cuenta, el contenedor y el nombre del recurso compartido de archivos.
- Expanda el nodo Seguridad y redes en el panel de navegación de la izquierda
- Seleccione Claves de acceso.
- Los valores de clave disponibles sirven como valores de clave de cuenta
A fin de obtener un token de SAS para la autenticación, seleccione Cuentas de almacenamiento en el panel de la izquierda y elija la cuenta de almacenamiento que quiera
- Para obtener un valor de clave de acceso, expanda el nodo Seguridad y redes en el panel de navegación de la izquierda
- Seleccione Firma de acceso compartido
- Complete el proceso para generar el valor de SAS
Para usar un principal de servicio para la autenticación, vaya a Registros de aplicaciones y seleccione la aplicación que desea usar.
- Su página de información general correspondiente contiene información necesaria, como el identificador de inquilino y el identificador de cliente.
Importante
- Para cambiar las claves de acceso de una cuenta de Azure Storage (clave de cuenta o token de SAS), asegúrese de sincronizar las credenciales nuevas con el área de trabajo y los almacenes de datos conectados a ella. Para obtener más información, visite Sincronización de las credenciales actualizadas.
- Si anula el registro y vuelve a registrar un almacén de datos con el mismo nombre y se produce un error en el nuevo registro, es posible que la instancia de Azure Key Vault del área de trabajo no tenga habilitada la eliminación temporal. De manera predeterminada, la eliminación temporal está habilitada para la instancia del almacén de claves creada por el área de trabajo. Sin embargo, es posible que no esté habilitado si ha usado un almacén de claves existente o tiene un área de trabajo creada antes de octubre de 2020. Para más información sobre cómo habilitar la eliminación temporal, visite Activación de la eliminación temporal para un almacén de claves existente.
Permisos
En el caso del contenedor de blobs de Azure y el almacenamiento de Azure Data Lake Gen 2, asegúrese de que las credenciales de autenticación tengan acceso de Lector de datos de Storage Blob. Obtenga más información sobre el Lector de datos de Storage Blob. De manera predeterminada, un token de SAS de cuenta no tiene ningún permiso.
Para el acceso de lectura de datos, las credenciales de autenticación deben tener un número mínimo de permisos de enumeración y lectura para contenedores y objetos.
Para el acceso de escritura de datos, también se necesitan los permisos de escritura y agregación.
Entrenamiento con conjuntos de datos
Use sus conjuntos de datos en los experimentos de aprendizaje automático para entrenar modelos de aprendizaje automático. Obtenga más información sobre cómo entrenar con conjuntos de datos.
Pasos siguientes
- Ejemplo de entrenamiento paso a paso con instancias de TabularDataset y aprendizaje automático automatizado
- Entrenamiento de un modelo
- Para obtener más ejemplos de entrenamiento de conjuntos de datos, consulte los cuadernos de ejemplo.