Datastore Clase

Representa una abstracción de almacenamiento a través de una cuenta de almacenamiento de Azure Machine Learning.

Los almacenes de datos se adjuntan a áreas de trabajo y se usan para almacenar información de conexión a los servicios de almacenamiento de Azure para que pueda hacer referencia a ellos por nombre y no es necesario recordar la información de conexión y el secreto usados para conectarse a los servicios de almacenamiento.

Algunos ejemplos de servicios de Almacenamiento de Azure admitidos que se pueden registrar como almacenes de datos son:

Contenedor de blobs de Azure
Recurso compartido de archivos de Azure
Azure Data Lake
Azure Data Lake Gen2
Azure SQL Database
Base de Datos de Azure para PostgreSQL
Sistema de archivos de Databricks
Base de Datos Azure para MySQL

Use esta clase para realizar operaciones de administración, como registrar, enumerar, obtener y quitar almacenes de datos. Los almacenes de datos de cada servicio se crean con los register* métodos de esta clase. Al usar un almacén de datos para acceder a los datos, debe tener permiso para acceder a esos datos, que depende de las credenciales registradas en el almacén de datos.

Para obtener más información sobre los almacenes de datos y cómo se pueden usar en el aprendizaje automático, consulte los artículos siguientes:

Obtenga un almacén de datos por nombre. Esta llamada realizará una solicitud al servicio de almacén de datos.

Constructor

Datastore(workspace, name=None)

Parámetros

Nombre	Description
workspace Requerido	Workspace Área de trabajo.
name	str, <xref:optional> El nombre del almacén de datos, el valor predeterminado es None, que obtiene el almacén de datos predeterminado. Valor predeterminado: None

Comentarios

Para interactuar con los datos de los almacenes de datos de las tareas de aprendizaje automático, como el entrenamiento, cree un conjunto de datos de Azure Machine Learning. Los conjuntos de datos proporcionan funciones que cargan datos tabulares en un dataframe de Pandas o Spark. Los conjuntos de datos también proporcionan la capacidad de descargar o montar archivos de cualquier formato de Azure Blob Storage, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database y Azure Database for PostgreSQL. Obtenga más información sobre cómo entrenar con conjuntos de datos.

En el ejemplo siguiente se muestra cómo crear un almacén de datos conectado a Un contenedor de blobs de Azure.


   # from azureml.exceptions import UserErrorException
   #
   # blob_datastore_name='MyBlobDatastore'
   # account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
   # container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
   # account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key
   #
   # try:
   #     blob_datastore = Datastore.get(ws, blob_datastore_name)
   #     print("Found Blob Datastore with name: %s" % blob_datastore_name)
   # except UserErrorException:
   #     blob_datastore = Datastore.register_azure_blob_container(
   #         workspace=ws,
   #         datastore_name=blob_datastore_name,
   #         account_name=account_name, # Storage account name
   #         container_name=container_name, # Name of Azure blob container
   #         account_key=account_key) # Storage account key
   #     print("Registered blob datastore with name: %s" % blob_datastore_name)
   #
   # blob_data_ref = DataReference(
   #     datastore=blob_datastore,
   #     data_reference_name="blob_test_data",
   #     path_on_datastore="testdata")

El ejemplo completo está disponible en https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb

Métodos

get	Obtenga un almacén de datos por nombre. Esto es lo mismo que llamar al constructor .
get_default	Obtenga el almacén de datos predeterminado para el área de trabajo.
register_azure_blob_container	Registre un contenedor de blobs de Azure en el almacén de datos. Se admite el acceso a datos basado en credenciales (GA) y basado en identidades (versión preliminar), puede optar por usar el token de SAS o la clave de cuenta de almacenamiento. Si no se guarda ninguna credencial con el almacén de datos, el token de AAD de los usuarios se usará en el cuaderno o en el programa de Python local si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación de acceso a datos. Obtenga más información aquí.
register_azure_data_lake	Inicialice un nuevo almacén de datos de Azure Data Lake. Se admite el acceso a datos basado en credenciales (GA) y basado en identidades (versión preliminar), puede registrar un almacén de datos con la entidad de servicio para el acceso a datos basado en credenciales. Si no se guarda ninguna credencial con el almacén de datos, el token de AAD de los usuarios se usará en el cuaderno o en el programa de Python local si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación de acceso a datos. Obtenga más información aquí. Consulte a continuación un ejemplo de cómo registrar una instancia de Azure Data Lake Gen1 como almacén de datos. adlsgen1_datastore_name='adlsgen1datastore' store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal adls_datastore = Datastore.register_azure_data_lake( workspace=ws, datastore_name=aslsgen1_datastore_name, subscription_id=subscription_id, # subscription id of ADLS account resource_group=resource_group, # resource group of ADLS account store_name=store_name, # ADLS account name tenant_id=tenant_id, # tenant id of service principal client_id=client_id, # client id of service principal client_secret=client_secret) # the secret of service principal
register_azure_data_lake_gen2	Inicialice un nuevo almacén de datos de Azure Data Lake Gen2. Se admite el acceso a datos basado en credenciales (GA) y basado en identidades (versión preliminar), puede registrar un almacén de datos con la entidad de servicio para el acceso a datos basado en credenciales. Si no se guarda ninguna credencial con el almacén de datos, el token de AAD de los usuarios se usará en el cuaderno o en el programa de Python local si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación de acceso a datos. Obtenga más información aquí.
register_azure_file_share	Registre un recurso compartido de archivos de Azure en el almacén de datos. Puede optar por usar el token de SAS o la clave de cuenta de almacenamiento.
register_azure_my_sql	Inicialice un nuevo almacén de datos de Azure MySQL. El almacén de datos MySQL solo se puede usar para crear DataReference como entrada y salida en DataTransferStep en canalizaciones de Azure Machine Learning. Puede encontrar más detalles aquí. Consulte a continuación un ejemplo de cómo registrar una base de datos de Azure MySQL como almacén de datos.
register_azure_postgre_sql	Inicialice un nuevo almacén de datos de Azure PostgreSQL. Consulte a continuación un ejemplo de cómo registrar una base de datos de Azure PostgreSQL como almacén de datos.
register_azure_sql_database	Inicialice un nuevo almacén de datos de Azure SQL Database. Se admite el acceso a datos basado en credenciales (GA) y basado en identidades (versión preliminar), puede elegir usar la entidad de servicio o el nombre de usuario + contraseña. Si no se guarda ninguna credencial con el almacén de datos, el token de AAD de los usuarios se usará en el cuaderno o en el programa de Python local si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación de acceso a datos. Obtenga más información aquí. Consulte a continuación un ejemplo de cómo registrar una base de datos de Azure SQL como almacén de datos.
register_dbfs	Inicialice un nuevo almacén de datos del sistema de archivos de Databricks (DBFS). El almacén de datos DBFS solo se puede usar para crear DataReference como entrada y PipelineData como salida a DatabricksStep en canalizaciones de Azure Machine Learning. Puede encontrar más detalles aquí.
register_hdfs	Nota: Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información. Inicialice un nuevo almacén de datos de HDFS.
set_as_default	Establezca el almacén de datos predeterminado.
unregister	Anula el registro del almacén de datos. el servicio de almacenamiento subyacente no se eliminará.

get

Obtenga un almacén de datos por nombre. Esto es lo mismo que llamar al constructor .

static get(workspace, datastore_name)

Parámetros

Nombre	Description
workspace Requerido	Workspace Área de trabajo.
datastore_name Requerido	str, <xref:optional> El nombre del almacén de datos, el valor predeterminado es None, que obtiene el almacén de datos predeterminado.

Devoluciones

Tipo	Description
AzureFileDatastore, AzureBlobDatastore, AzureDataLakeDatastore, AzureDataLakeGen2Datastore, AzureSqlDatabaseDatastore, AzurePostgreSqlDatastore, AzureMySqlDatastore, DBFSDatastore	El almacén de datos correspondiente para ese nombre.

get_default

Obtenga el almacén de datos predeterminado para el área de trabajo.

static get_default(workspace)

Parámetros

Nombre	Description
workspace Requerido	Workspace Área de trabajo.

Devoluciones

Tipo	Description
AzureFileDatastore, AzureBlobDatastore	Almacén de datos predeterminado para el área de trabajo

register_azure_blob_container

Registre un contenedor de blobs de Azure en el almacén de datos.

Se admite el acceso a datos basado en credenciales (GA) y basado en identidades (versión preliminar), puede optar por usar el token de SAS o la clave de cuenta de almacenamiento. Si no se guarda ninguna credencial con el almacén de datos, el token de AAD de los usuarios se usará en el cuaderno o en el programa de Python local si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación de acceso a datos. Obtenga más información aquí.

static register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)

Parámetros

Nombre	Description
workspace Requerido	Workspace Área de trabajo.
datastore_name Requerido	str El nombre del almacén de datos, sin distinción entre mayúsculas y minúsculas, solo puede contener caracteres alfanuméricos y _.
container_name Requerido	str Nombre del contenedor de blobs de Azure.
account_name Requerido	str Nombre de la cuenta de almacenamiento.
sas_token	str, <xref:optional> Un token de SAS de cuenta, el valor predeterminado es Ninguno. Para la lectura de datos, necesitamos un mínimo de permisos de lista y lectura para contenedores y objetos y para la escritura de datos, además necesitamos permisos de escritura y adición. Valor predeterminado: None
account_key	str, <xref:optional> Las claves de acceso de la cuenta de almacenamiento tienen como valor predeterminado Ninguno. Valor predeterminado: None
protocol	str, <xref:optional> Protocolo que se va a usar para conectarse al contenedor de blobs. Si No, el valor predeterminado es https. Valor predeterminado: None
endpoint	str, <xref:optional> Punto de conexión de la cuenta de almacenamiento. Si No, el valor predeterminado es core.windows.net. Valor predeterminado: None
overwrite	bool, <xref:optional> sobrescribe un almacén de datos existente. Si el almacén de datos no existe, se creará uno, el valor predeterminado es False. Valor predeterminado: False
create_if_not_exists	bool, <xref:optional> cree el contenedor de blobs si no existe, el valor predeterminado es False. Valor predeterminado: False
skip_validation	bool, <xref:optional> omite la validación de claves de almacenamiento, el valor predeterminado es False. Valor predeterminado: False
blob_cache_timeout	int, <xref:optional> Cuando se monta este blob, establezca el tiempo de espera de caché en estos muchos segundos. Si Ninguno, el valor predeterminado no es tiempo de espera (es decir, los blobs se almacenarán en caché durante la duración del trabajo cuando se lea). Valor predeterminado: None
grant_workspace_access	bool, <xref:optional> El valor predeterminado es False. Establézcalo en True para acceder a los datos detrás de la red virtual desde Machine Learning Studio. Esto hace que el acceso a los datos desde Machine Learning Studio use la identidad administrada del área de trabajo para la autenticación y agregue la identidad administrada del área de trabajo como Lector del almacenamiento. Debe ser propietario o administrador de acceso de usuario del almacenamiento para participar. Pida al administrador que lo configure si no tiene el permiso necesario. Más información 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network' Valor predeterminado: False
subscription_id	str, <xref:optional> El identificador de suscripción de la cuenta de almacenamiento, el valor predeterminado es Ninguno. Valor predeterminado: None
resource_group	str, <xref:optional> El grupo de recursos de la cuenta de almacenamiento, el valor predeterminado es Ninguno. Valor predeterminado: None

Devoluciones

Tipo	Description
AzureBlobDatastore	Almacén de datos de blobs.

Comentarios

Si va a conectar el almacenamiento de una región diferente a la región del área de trabajo, puede dar lugar a una mayor latencia y a costos de uso de red adicionales.

register_azure_data_lake

Inicialice un nuevo almacén de datos de Azure Data Lake.

Se admite el acceso a datos basado en credenciales (GA) y basado en identidades (versión preliminar), puede registrar un almacén de datos con la entidad de servicio para el acceso a datos basado en credenciales. Si no se guarda ninguna credencial con el almacén de datos, el token de AAD de los usuarios se usará en el cuaderno o en el programa de Python local si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación de acceso a datos. Obtenga más información aquí.

Consulte a continuación un ejemplo de cómo registrar una instancia de Azure Data Lake Gen1 como almacén de datos.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal

static register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)

Parámetros

Nombre	Description
workspace Requerido	Workspace Área de trabajo a la que pertenece este almacén de datos.
datastore_name Requerido	str Nombre del almacén de datos.
store_name Requerido	str Nombre del almacén de ADLS.
tenant_id	str, <xref:optional> Identificador de directorio o identificador de inquilino de la entidad de servicio que se usa para acceder a los datos. Valor predeterminado: None
client_id	str, <xref:optional> Identificador de cliente o id. de aplicación de la entidad de servicio que se usa para acceder a los datos. Valor predeterminado: None
client_secret	str, <xref:optional> Secreto de cliente de la entidad de servicio que se usa para acceder a los datos. Valor predeterminado: None
resource_url	str, <xref:optional> La dirección URL del recurso, que determina qué operaciones se realizarán en el almacén de Data Lake, si None, tiene `https://datalake.azure.net/` como valor predeterminado que nos permite realizar operaciones del sistema de archivos. Valor predeterminado: None
authority_url	str, <xref:optional> La dirección URL de autoridad que se usa para autenticar al usuario, tiene `https://login.microsoftonline.com`como valor predeterminado . Valor predeterminado: None
subscription_id	str, <xref:optional> Identificador de la suscripción a la que pertenece el almacén de ADLS. Valor predeterminado: None
resource_group	str, <xref:optional> El grupo de recursos al que pertenece el almacén de ADLS. Valor predeterminado: None
overwrite	bool, <xref:optional> Si se va a sobrescribir un almacén de datos existente. Si el almacén de datos no existe, se creará uno. El valor predeterminado es False. Valor predeterminado: False
grant_workspace_access	bool, <xref:optional> El valor predeterminado es False. Establézcalo en True para acceder a los datos detrás de la red virtual desde Machine Learning Studio. Esto hace que el acceso a los datos desde Machine Learning Studio use la identidad administrada del área de trabajo para la autenticación y agregue la identidad administrada del área de trabajo como Lector del almacenamiento. Debe ser Propietario o Administrador de acceso de usuario del almacenamiento para participar. Pida al administrador que lo configure si no tiene el permiso necesario. Más información 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network' Valor predeterminado: False

Devoluciones

Tipo	Description
AzureDataLakeDatastore	Devuelve el almacén de datos de Azure Data Lake.

Comentarios

Si va a conectar el almacenamiento de una región diferente a la región del área de trabajo, puede dar lugar a una mayor latencia y a costos de uso de red adicionales.

Nota:

El almacén de datos de Azure Data Lake admite la transferencia de datos y la ejecución de trabajos de U-Sql mediante canalizaciones de Azure Machine Learning.

También puede usarlo como origen de datos para el conjunto de datos de Azure Machine Learning que se puede descargar o montar en cualquier proceso compatible.

register_azure_data_lake_gen2

Inicialice un nuevo almacén de datos de Azure Data Lake Gen2.

static register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)

Parámetros

Nombre	Description
workspace Requerido	Workspace Área de trabajo a la que pertenece este almacén de datos.
datastore_name Requerido	str Nombre del almacén de datos.
filesystem Requerido	str Nombre del sistema de archivos de Data Lake Gen2.
account_name Requerido	str Nombre de la cuenta de almacenamiento.
tenant_id	str, <xref:optional> Identificador de directorio o identificador de inquilino de la entidad de servicio. Valor predeterminado: None
client_id	str, <xref:optional> Identificador de cliente o id. de aplicación de la entidad de servicio. Valor predeterminado: None
client_secret	str, <xref:optional> Secreto de la entidad de servicio. Valor predeterminado: None
resource_url	str, <xref:optional> La dirección URL del recurso, que determina qué operaciones se realizarán en el almacén de Data Lake, los valores predeterminados a `https://storage.azure.com/` los que nos permite realizar operaciones del sistema de archivos. Valor predeterminado: None
authority_url	str, <xref:optional> La dirección URL de autoridad que se usa para autenticar al usuario, tiene `https://login.microsoftonline.com`como valor predeterminado . Valor predeterminado: None
protocol	str, <xref:optional> Protocolo que se va a usar para conectarse al contenedor de blobs. Si No, el valor predeterminado es https. Valor predeterminado: None
endpoint	str, <xref:optional> Punto de conexión de la cuenta de almacenamiento. Si No, el valor predeterminado es core.windows.net. Valor predeterminado: None
overwrite	bool, <xref:optional> Si se va a sobrescribir un almacén de datos existente. Si el almacén de datos no existe, se creará uno. El valor predeterminado es False. Valor predeterminado: False
subscription_id	str, <xref:optional> Identificador de la suscripción a la que pertenece el almacén de ADLS. Valor predeterminado: None
resource_group	str, <xref:optional> El grupo de recursos al que pertenece el almacén de ADLS. Valor predeterminado: None
grant_workspace_access	bool, <xref:optional> El valor predeterminado es False. Establézcalo en True para acceder a los datos detrás de la red virtual desde Machine Learning Studio. Esto hace que el acceso a los datos desde Machine Learning Studio use la identidad administrada del área de trabajo para la autenticación y agregue la identidad administrada del área de trabajo como Lector del almacenamiento. Debe ser propietario o administrador de acceso de usuario del almacenamiento para participar. Pida al administrador que lo configure si no tiene el permiso necesario. Más información 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network' Valor predeterminado: False

Devoluciones

Tipo	Description
AzureDataLakeGen2Datastore	Devuelve el almacén de datos de Azure Data Lake Gen2.

Comentarios

Si va a conectar el almacenamiento de una región diferente a la región del área de trabajo, puede dar lugar a una mayor latencia y a costos de uso de red adicionales.

Registre un recurso compartido de archivos de Azure en el almacén de datos.

Puede optar por usar el token de SAS o la clave de cuenta de almacenamiento.

static register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)

Parámetros

Nombre	Description
workspace Requerido	Workspace Área de trabajo a la que pertenece este almacén de datos.
datastore_name Requerido	str El nombre del almacén de datos, sin distinción entre mayúsculas y minúsculas, solo puede contener caracteres alfanuméricos y _.
file_share_name Requerido	str Nombre del contenedor de archivos de Azure.
account_name Requerido	str Nombre de la cuenta de almacenamiento.
sas_token	str, <xref:optional> Un token de SAS de cuenta, el valor predeterminado es Ninguno. Para la lectura de datos, necesitamos un mínimo de permisos de lista y lectura para contenedores y objetos y para la escritura de datos, además necesitamos permisos de escritura y adición. Valor predeterminado: None
account_key	str, <xref:optional> Las claves de acceso de la cuenta de almacenamiento tienen como valor predeterminado Ninguno. Valor predeterminado: None
protocol	str, <xref:optional> Protocolo que se va a usar para conectarse al recurso compartido de archivos. Si No, el valor predeterminado es https. Valor predeterminado: None
endpoint	str, <xref:optional> Punto de conexión del recurso compartido de archivos. Si No, el valor predeterminado es core.windows.net. Valor predeterminado: None
overwrite	bool, <xref:optional> Si se va a sobrescribir un almacén de datos existente. Si el almacén de datos no existe, se creará uno. El valor predeterminado es False. Valor predeterminado: False
create_if_not_exists	bool, <xref:optional> Si desea crear el recurso compartido de archivos si no existe. El valor predeterminado es False. Valor predeterminado: False
skip_validation	bool, <xref:optional> Si se omitirá la validación de las claves de almacenamiento. El valor predeterminado es False. Valor predeterminado: False

Devoluciones

Tipo	Description
AzureFileDatastore	Almacén de datos del archivo.

Comentarios

Si va a conectar el almacenamiento de una región diferente a la región del área de trabajo, puede dar lugar a una mayor latencia y a costos de uso de red adicionales.

register_azure_my_sql

Inicialice un nuevo almacén de datos de Azure MySQL.

El almacén de datos MySQL solo se puede usar para crear DataReference como entrada y salida en DataTransferStep en canalizaciones de Azure Machine Learning. Puede encontrar más detalles aquí.

Consulte a continuación un ejemplo de cómo registrar una base de datos de Azure MySQL como almacén de datos.

static register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)

Parámetros

Nombre	Description
workspace Requerido	Workspace Área de trabajo a la que pertenece este almacén de datos.
datastore_name Requerido	str Nombre del almacén de datos.
server_name Requerido	str Nombre del servidor MySQL.
database_name Requerido	str Nombre de la base de datos MySQL.
user_id Requerido	str Identificador de usuario del servidor MySQL.
user_password Requerido	str Contraseña de usuario del servidor MySQL.
port_number	str Número de puerto del servidor MySQL. Valor predeterminado: None
endpoint	str, <xref:optional> Punto de conexión del servidor MySQL. Si No, el valor predeterminado es mysql.database.azure.com. Valor predeterminado: None
overwrite	bool, <xref:optional> Si se va a sobrescribir un almacén de datos existente. Si el almacén de datos no existe, se creará uno. El valor predeterminado es False. Valor predeterminado: False

Devoluciones

Tipo	Description
AzureMySqlDatastore	Devuelve el almacén de datos de la base de datos MySQL.

Comentarios

Si va a conectar el almacenamiento de una región diferente a la región del área de trabajo, puede dar lugar a una mayor latencia y a costos de uso de red adicionales.


   mysql_datastore_name="mysqldatastore"
   server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
   database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
   user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
   user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.

   mysql_datastore = Datastore.register_azure_my_sql(
       workspace=ws,
       datastore_name=mysql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_postgre_sql

Inicialice un nuevo almacén de datos de Azure PostgreSQL.

Consulte a continuación un ejemplo de cómo registrar una base de datos de Azure PostgreSQL como almacén de datos.

static register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)

Parámetros

Nombre	Description
workspace Requerido	Workspace Área de trabajo a la que pertenece este almacén de datos.
datastore_name Requerido	str Nombre del almacén de datos.
server_name Requerido	str Nombre del servidor postgreSQL.
database_name Requerido	str Nombre de la base de datos PostgreSQL.
user_id Requerido	str Identificador de usuario del servidor postgreSQL.
user_password Requerido	str Contraseña de usuario del servidor postgreSQL.
port_number	str Número de puerto del servidor postgreSQL Valor predeterminado: None
endpoint	str, <xref:optional> Punto de conexión del servidor postgreSQL. Si no, el valor predeterminado es postgres.database.azure.com. Valor predeterminado: None
overwrite	bool, <xref:optional> Si se va a sobrescribir un almacén de datos existente. Si el almacén de datos no existe, se creará uno. El valor predeterminado es False. Valor predeterminado: False
enforce_ssl	bool Indica el requisito SSL del servidor PostgreSQL. El valor predeterminado es True. Valor predeterminado: True

Devoluciones

Tipo	Description
AzurePostgreSqlDatastore	Devuelve el almacén de datos de base de datos postgreSQL.

Comentarios

Si va a conectar el almacenamiento de una región diferente a la región del área de trabajo, puede dar lugar a una mayor latencia y a costos de uso de red adicionales.


   psql_datastore_name="postgresqldatastore"
   server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
   database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
   user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
   user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password

   psql_datastore = Datastore.register_azure_postgre_sql(
       workspace=ws,
       datastore_name=psql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_sql_database

Inicialice un nuevo almacén de datos de Azure SQL Database.

Se admite el acceso a datos basado en credenciales (GA) y basado en identidades (versión preliminar), puede elegir usar la entidad de servicio o el nombre de usuario + contraseña. Si no se guarda ninguna credencial con el almacén de datos, el token de AAD de los usuarios se usará en el cuaderno o en el programa de Python local si llama directamente a una de estas funciones: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files la identidad del destino de proceso se usará en los trabajos enviados por Experiment.submit para la autenticación de acceso a datos. Obtenga más información aquí.

Consulte a continuación un ejemplo de cómo registrar una base de datos de Azure SQL como almacén de datos.

static register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)

Parámetros

Nombre	Description
workspace Requerido	Workspace Área de trabajo a la que pertenece este almacén de datos.
datastore_name Requerido	str Nombre del almacén de datos.
server_name Requerido	str Nombre del servidor SQL. Para el nombre de dominio completo como "sample.database.windows.net", el valor de server_name debe ser "sample" y el valor del punto de conexión debe ser "database.windows.net".
database_name Requerido	str Nombre de la base de datos SQL.
tenant_id	str Identificador de directorio o identificador de inquilino de la entidad de servicio. Valor predeterminado: None
client_id	str Identificador de cliente o id. de aplicación de la entidad de servicio. Valor predeterminado: None
client_secret	str Secreto de la entidad de servicio. Valor predeterminado: None
resource_url	str, <xref:optional> La dirección URL del recurso, que determina qué operaciones se realizarán en el almacén de base de datos SQL, si None, tiene https://database.windows.net/como valor predeterminado . Valor predeterminado: None
authority_url	str, <xref:optional> La dirección URL de autoridad que se usa para autenticar al usuario, tiene https://login.microsoftonline.comcomo valor predeterminado . Valor predeterminado: None
endpoint	str, <xref:optional> Punto de conexión del servidor SQL Server. Si No, el valor predeterminado es database.windows.net. Valor predeterminado: None
overwrite	bool, <xref:optional> Si se va a sobrescribir un almacén de datos existente. Si el almacén de datos no existe, se creará uno. El valor predeterminado es False. Valor predeterminado: False
username	str Nombre de usuario de la base de datos para acceder a la base de datos. Valor predeterminado: None
password	str Contraseña del usuario de la base de datos para acceder a la base de datos. Valor predeterminado: None
skip_validation Requerido	bool, <xref:optional> Si se omite la validación de la conexión a la base de datos SQL. El valor predeterminado es False.
subscription_id	str, <xref:optional> Identificador de la suscripción a la que pertenece el almacén de ADLS. Valor predeterminado: None
resource_group	str, <xref:optional> El grupo de recursos al que pertenece el almacén de ADLS. Valor predeterminado: None
grant_workspace_access	bool, <xref:optional> El valor predeterminado es False. Establézcalo en True para acceder a los datos detrás de la red virtual desde Machine Learning Studio. Esto hace que el acceso a los datos desde Machine Learning Studio use la identidad administrada del área de trabajo para la autenticación y agregue la identidad administrada del área de trabajo como Lector del almacenamiento. Debe ser propietario o administrador de acceso de usuario del almacenamiento para participar. Pida al administrador que lo configure si no tiene el permiso necesario. Más información 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network' Valor predeterminado: False

Devoluciones

Tipo	Description
AzureSqlDatabaseDatastore	Devuelve el almacén de datos de SQL Database.

Comentarios

Si va a conectar el almacenamiento de una región diferente a la región del área de trabajo, puede dar lugar a una mayor latencia y a costos de uso de red adicionales.


   sql_datastore_name="azuresqldatastore"
   server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
   database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
   username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
   password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.

   sql_datastore = Datastore.register_azure_sql_database(
       workspace=ws,
       datastore_name=sql_datastore_name,
       server_name=server_name,  # name should not contain fully qualified ___domain endpoint
       database_name=database_name,
       username=username,
       password=password,
       endpoint='database.windows.net')

register_dbfs

Inicialice un nuevo almacén de datos del sistema de archivos de Databricks (DBFS).

El almacén de datos DBFS solo se puede usar para crear DataReference como entrada y PipelineData como salida a DatabricksStep en canalizaciones de Azure Machine Learning. Puede encontrar más detalles aquí.

static register_dbfs(workspace, datastore_name)

Parámetros

Nombre	Description
workspace Requerido	Workspace Área de trabajo a la que pertenece este almacén de datos.
datastore_name Requerido	str Nombre del almacén de datos.

Devoluciones

Tipo	Description
DBFSDatastore	Devuelve el almacén de datos de DBFS.

Comentarios

Si va a conectar el almacenamiento de una región diferente a la región del área de trabajo, puede dar lugar a una mayor latencia y a costos de uso de red adicionales.

register_hdfs

Nota:

Se trata de un método experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para obtener más información.

Inicialice un nuevo almacén de datos de HDFS.

static register_hdfs(workspace, datastore_name, protocol, namenode_address, hdfs_server_certificate, kerberos_realm, kerberos_kdc_address, kerberos_principal, kerberos_keytab=None, kerberos_password=None, overwrite=False)

Parámetros

Nombre	Description
workspace Requerido	Workspace área de trabajo a la que pertenece este almacén de datos
datastore_name Requerido	str el nombre del almacén de datos
protocol Requerido	str o <xref:_restclient.models.enum> Protocolo que se va a usar al comunicarse con el clúster de HDFS. http o https. Entre los valores posibles se incluyen: 'http', 'https'
namenode_address Requerido	str La dirección IP o el nombre de host DNS del nodo de nombres de HDFS. Opcionalmente, incluye un puerto.
hdfs_server_certificate Requerido	str, <xref:optional> Ruta de acceso al certificado de firma TLS del nodo de nombres de HDFS, si usa TLS con un certificado autofirmado.
kerberos_realm Requerido	str Dominio kerberos.
kerberos_kdc_address Requerido	str La dirección IP o el nombre de host DNS del KDC de Kerberos.
kerberos_principal Requerido	str Entidad de seguridad kerberos que se va a usar para la autenticación y autorización.
kerberos_keytab Requerido	str, <xref:optional> Ruta de acceso al archivo keytab que contiene las claves correspondientes a la entidad de seguridad kerberos. Proporcione esto o una contraseña.
kerberos_password Requerido	str, <xref:optional> Contraseña correspondiente a la entidad de seguridad kerberos. Proporcione esto o la ruta de acceso a un archivo keytab.
overwrite Requerido	bool, <xref:optional> sobrescribe un almacén de datos existente. Si el almacén de datos no existe, se creará uno. El valor predeterminado es False.

set_as_default

Establezca el almacén de datos predeterminado.

set_as_default()

Parámetros

Nombre	Description
datastore_name Requerido	str Nombre del almacén de datos.

unregister

Anula el registro del almacén de datos. el servicio de almacenamiento subyacente no se eliminará.

unregister()

Compartir a través de

Datastore Clase

Constructor

Parámetros

Comentarios

Métodos

get

Parámetros

Devoluciones

get_default

Parámetros

Devoluciones

register_azure_blob_container

Parámetros

Devoluciones

Comentarios

register_azure_data_lake

Parámetros

Devoluciones

Comentarios

register_azure_data_lake_gen2

Parámetros

Devoluciones

Comentarios

register_azure_file_share

Parámetros

Devoluciones

Comentarios

register_azure_my_sql

Parámetros

Devoluciones

Comentarios

register_azure_postgre_sql

Parámetros

Devoluciones

Comentarios

register_azure_sql_database

Parámetros

Devoluciones

Comentarios

register_dbfs

Parámetros

Devoluciones

Comentarios

register_hdfs

Parámetros

set_as_default

Parámetros

unregister

Comentarios