Datastore クラス
Azure Machine Learning ストレージ アカウントに対するストレージの抽象化を表します。
データストアはワークスペースにアタッチされ、Azure Storage サービスへの接続情報を格納するために使用されるため、名前で参照でき、ストレージ サービスへの接続に使用される接続情報とシークレットを覚える必要はありません。
データストアとして登録できるサポートされている Azure ストレージ サービスの例を次に示します。
Azure BLOB コンテナー
Azure ファイル共有
Azure Data Lake
Azure Data Lake Gen2
Azure SQL データベース
PostgreSQL 用 Azure データベース
Databricks ファイル システム
Azure MySQL用データベース
このクラスを使用して、データストアの登録、一覧表示、取得、削除などの管理操作を実行します。
各サービスのデータストアは、このクラスの register*
メソッドを使用して作成されます。 データストアを使用してデータにアクセスする場合は、データストアに登録されている資格情報に依存する、そのデータにアクセスするためのアクセス許可が必要です。
データストアの詳細と、データストアを機械学習で使用する方法については、次の記事を参照してください。
名前でデータストアを取得します。 この呼び出しにより、データストア サービスに要求が行われます。
コンストラクター
Datastore(workspace, name=None)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
ワークスペース。 |
name
|
str, <xref:optional>
データストアの名前の既定値は None で、既定のデータストアを取得します。 規定値: None
|
注釈
トレーニングなどの機械学習タスクのためにデータストア内のデータを操作するには、 Azure Machine Learning データセットを作成します。 データセットは、Pandas または Spark DataFrame に表形式データを読み込む関数を提供します。 データセットでは、Azure Blob Storage、Azure Files、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、Azure Database for PostgreSQL から任意の形式のファイルをダウンロードまたはマウントすることもできます。 データセットを使ってトレーニングする方法の詳細をご覧ください。
次の例は、Azure BLOB コンテナーに接続されたデータストアを作成する方法を示しています。
# from azureml.exceptions import UserErrorException
#
# blob_datastore_name='MyBlobDatastore'
# account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
# container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
# account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key
#
# try:
# blob_datastore = Datastore.get(ws, blob_datastore_name)
# print("Found Blob Datastore with name: %s" % blob_datastore_name)
# except UserErrorException:
# blob_datastore = Datastore.register_azure_blob_container(
# workspace=ws,
# datastore_name=blob_datastore_name,
# account_name=account_name, # Storage account name
# container_name=container_name, # Name of Azure blob container
# account_key=account_key) # Storage account key
# print("Registered blob datastore with name: %s" % blob_datastore_name)
#
# blob_data_ref = DataReference(
# datastore=blob_datastore,
# data_reference_name="blob_test_data",
# path_on_datastore="testdata")
完全なサンプルは次から入手できます https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb
メソッド
get |
名前でデータストアを取得します。 これは、コンストラクターの呼び出しと同じです。 |
get_default |
ワークスペースの既定のデータストアを取得します。 |
register_azure_blob_container |
Azure BLOB コンテナーをデータストアに登録します。 資格情報ベース (GA) と ID ベース (プレビュー) のデータ アクセスがサポートされており、SAS トークンまたはストレージ アカウント キーの使用を選択できます。 データストアと共に資格情報が保存されていない場合、ユーザーの AAD トークンは、次のいずれかの関数を直接呼び出す場合、ノートブックまたはローカル Python プログラムで使用されます。FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_filesコンピューティング ターゲットの ID は、Experiment.submit によってデータ アクセス認証のために送信されたジョブで使用されます。 こちらをご覧ください。 |
register_azure_data_lake |
新しい Azure Data Lake データストアを初期化します。 資格情報ベース (GA) と ID ベース (プレビュー) のデータ アクセスがサポートされています。資格情報ベースのデータ アクセスのために、サービス プリンシパルにデータストアを登録できます。 データストアと共に資格情報が保存されていない場合、ユーザーの AAD トークンは、次のいずれかの関数を直接呼び出す場合、ノートブックまたはローカル Python プログラムで使用されます。FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_filesコンピューティング ターゲットの ID は、Experiment.submit によってデータ アクセス認証のために送信されたジョブで使用されます。 こちらをご覧ください。 Azure Data Lake Gen1 をデータストアとして登録する方法の例については、以下を参照してください。
|
register_azure_data_lake_gen2 |
新しい Azure Data Lake Gen2 データストアを初期化します。 資格情報ベース (GA) と ID ベース (プレビュー) のデータ アクセスがサポートされています。資格情報ベースのデータ アクセスのために、サービス プリンシパルにデータストアを登録できます。 データストアと共に資格情報が保存されていない場合、ユーザーの AAD トークンは、次のいずれかの関数を直接呼び出す場合、ノートブックまたはローカル Python プログラムで使用されます。FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_filesコンピューティング ターゲットの ID は、Experiment.submit によってデータ アクセス認証のために送信されたジョブで使用されます。 こちらをご覧ください。 |
register_azure_file_share |
Azure ファイル共有をデータストアに登録します。 SAS トークンまたはストレージ アカウント キーの使用を選択できます |
register_azure_my_sql |
新しい Azure MySQL データストアを初期化します。 MySQL データストアは、Azure Machine Learning パイプラインの DataTransferStep への入力および出力として DataReference を作成する場合にのみ使用できます。 詳細については、こちらをご覧ください。 Azure MySQL データベースをデータストアとして登録する方法の例については、以下を参照してください。 |
register_azure_postgre_sql |
新しい Azure PostgreSQL データストアを初期化します。 Azure PostgreSQL データベースをデータストアとして登録する方法の例については、以下を参照してください。 |
register_azure_sql_database |
新しい Azure SQL データベース データストアを初期化します。 資格情報ベース (GA) と ID ベース (プレビュー) データ アクセスがサポートされており、サービス プリンシパルまたはユーザー名とパスワードを使用できます。 データストアと共に資格情報が保存されていない場合、ユーザーの AAD トークンは、次のいずれかの関数を直接呼び出す場合、ノートブックまたはローカル Python プログラムで使用されます。FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_filesコンピューティング ターゲットの ID は、Experiment.submit によってデータ アクセス認証のために送信されたジョブで使用されます。 こちらをご覧ください。 Azure SQL データベースをデータストアとして登録する方法の例については、以下を参照してください。 |
register_dbfs |
新しい Databricks ファイル システム (DBFS) データストアを初期化します。 DBFS データストアは、DataReference を入力として作成し、PipelineData を Azure Machine Learning パイプラインの DatabricksStep への出力として作成する場合にのみ使用できます。 詳細については、こちらをご覧ください。 |
register_hdfs |
注 これは実験的な方法であり、いつでも変更される可能性があります。 詳細については、https://aka.ms/azuremlexperimental を参照してください。 新しい HDFS データストアを初期化します。 |
set_as_default |
既定のデータストアを設定します。 |
unregister |
データストアの登録を解除します。 基になるストレージ サービスは削除されません。 |
get
名前でデータストアを取得します。 これは、コンストラクターの呼び出しと同じです。
static get(workspace, datastore_name)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
ワークスペース。 |
datastore_name
必須
|
str, <xref:optional>
データストアの名前の既定値は None で、既定のデータストアを取得します。 |
戻り値
型 | 説明 |
---|---|
その名前の対応するデータストア。 |
get_default
ワークスペースの既定のデータストアを取得します。
static get_default(workspace)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
ワークスペース。 |
戻り値
型 | 説明 |
---|---|
ワークスペースの既定のデータストア |
register_azure_blob_container
Azure BLOB コンテナーをデータストアに登録します。
資格情報ベース (GA) と ID ベース (プレビュー) のデータ アクセスがサポートされており、SAS トークンまたはストレージ アカウント キーの使用を選択できます。 データストアと共に資格情報が保存されていない場合、ユーザーの AAD トークンは、次のいずれかの関数を直接呼び出す場合、ノートブックまたはローカル Python プログラムで使用されます。FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_filesコンピューティング ターゲットの ID は、Experiment.submit によってデータ アクセス認証のために送信されたジョブで使用されます。 こちらをご覧ください。
static register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
ワークスペース。 |
datastore_name
必須
|
データストアの名前は大文字と小文字を区別せず、英数字と _のみを含めることができます。 |
container_name
必須
|
Azure BLOB コンテナーの名前。 |
account_name
必須
|
ストレージ アカウント名。 |
sas_token
|
str, <xref:optional>
アカウント SAS トークン。既定値は None です。 データの読み取りには、コンテナーとオブジェクトのリストと読み取りアクセス許可の最小値が必要です。また、データ書き込みには、書き込みアクセス許可と追加アクセス許可が必要です。 規定値: None
|
account_key
|
str, <xref:optional>
ストレージ アカウントのアクセス キー。既定値は None です。 規定値: None
|
protocol
|
str, <xref:optional>
BLOB コンテナーへの接続に使用するプロトコル。 None の場合、既定値は https です。 規定値: None
|
endpoint
|
str, <xref:optional>
ストレージ アカウントのエンドポイント。 [なし] の場合、既定値は core.windows.net です。 規定値: None
|
overwrite
|
bool, <xref:optional>
は既存のデータストアを上書きします。 データストアが存在しない場合は、データストアが作成され、既定値は False になります 規定値: False
|
create_if_not_exists
|
bool, <xref:optional>
BLOB コンテナーが存在しない場合は作成します。既定値は False です 規定値: False
|
skip_validation
|
bool, <xref:optional>
ストレージ キーの検証をスキップします。既定値は False です 規定値: False
|
blob_cache_timeout
|
int, <xref:optional>
この BLOB がマウントされたら、キャッシュ タイムアウトをこの秒数に設定します。 None の場合、既定値はタイムアウトなし (つまり、読み取り時にジョブの期間中 BLOB がキャッシュされます)。 規定値: None
|
grant_workspace_access
|
bool, <xref:optional>
既定値は False です。 Machine Learning Studio から仮想ネットワークの背後にあるデータにアクセスするには True に設定します。これにより、Machine Learning Studio からのデータ アクセスで認証にワークスペースマネージド ID が使用され、ワークスペースマネージド ID がストレージの閲覧者として追加されます。 オプトインするには、ストレージの所有者またはユーザー アクセス管理者である必要があります。 必要なアクセス許可がない場合は、管理者に構成するよう依頼してください。 詳細については、「https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network」を参照してください 規定値: False
|
subscription_id
|
str, <xref:optional>
ストレージ アカウントのサブスクリプション ID。既定値は None です。 規定値: None
|
resource_group
|
str, <xref:optional>
ストレージ アカウントのリソース グループ。既定値は None です。 規定値: None
|
戻り値
型 | 説明 |
---|---|
BLOB データストア。 |
注釈
ワークスペース リージョンとは異なるリージョンからストレージをアタッチすると、待機時間が長く、ネットワークの使用コストが増加する可能性があります。
register_azure_data_lake
新しい Azure Data Lake データストアを初期化します。
資格情報ベース (GA) と ID ベース (プレビュー) のデータ アクセスがサポートされています。資格情報ベースのデータ アクセスのために、サービス プリンシパルにデータストアを登録できます。 データストアと共に資格情報が保存されていない場合、ユーザーの AAD トークンは、次のいずれかの関数を直接呼び出す場合、ノートブックまたはローカル Python プログラムで使用されます。FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_filesコンピューティング ターゲットの ID は、Experiment.submit によってデータ アクセス認証のために送信されたジョブで使用されます。 こちらをご覧ください。
Azure Data Lake Gen1 をデータストアとして登録する方法の例については、以下を参照してください。
adlsgen1_datastore_name='adlsgen1datastore'
store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal
adls_datastore = Datastore.register_azure_data_lake(
workspace=ws,
datastore_name=aslsgen1_datastore_name,
subscription_id=subscription_id, # subscription id of ADLS account
resource_group=resource_group, # resource group of ADLS account
store_name=store_name, # ADLS account name
tenant_id=tenant_id, # tenant id of service principal
client_id=client_id, # client id of service principal
client_secret=client_secret) # the secret of service principal
static register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
このデータストアが属するワークスペース。 |
datastore_name
必須
|
データストア名。 |
store_name
必須
|
ADLS ストア名。 |
tenant_id
|
str, <xref:optional>
データへのアクセスに使用されるサービス プリンシパルのディレクトリ ID/テナント ID。 規定値: None
|
client_id
|
str, <xref:optional>
データへのアクセスに使用されるサービス プリンシパルのクライアント ID/アプリケーション ID。 規定値: None
|
client_secret
|
str, <xref:optional>
データへのアクセスに使用されるサービス プリンシパルのクライアント シークレット。 規定値: None
|
resource_url
|
str, <xref:optional>
リソース URL。Data Lake ストアで実行される操作を決定します (None の場合)、既定値は 規定値: None
|
authority_url
|
str, <xref:optional>
ユーザーの認証に使用される機関 URL。既定では 規定値: None
|
subscription_id
|
str, <xref:optional>
ADLS ストアが属しているサブスクリプションの ID。 規定値: None
|
resource_group
|
str, <xref:optional>
ADLS ストアが属するリソース グループ。 規定値: None
|
overwrite
|
bool, <xref:optional>
既存のデータストアを上書きするかどうか。 データストアが存在しない場合は、データストアが作成されます。 既定値は False です。 規定値: False
|
grant_workspace_access
|
bool, <xref:optional>
既定値は False です。 Machine Learning Studio から仮想ネットワークの背後にあるデータにアクセスするには True に設定します。これにより、Machine Learning Studio からのデータ アクセスで認証にワークスペースマネージド ID が使用され、ワークスペースマネージド ID がストレージの閲覧者として追加されます。 オプトインするには、ストレージの所有者またはユーザー アクセス管理者である必要があります。 必要なアクセス許可がない場合は、管理者に構成するよう依頼してください。 詳細については、「https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network」を参照してください 規定値: False
|
戻り値
型 | 説明 |
---|---|
Azure Data Lake データストアを返します。 |
注釈
ワークスペース リージョンとは異なるリージョンからストレージをアタッチすると、待機時間が長く、ネットワークの使用コストが増加する可能性があります。
注
Azure Data Lake Datastore では、Azure Machine Learning パイプラインを使用した U-Sql ジョブのデータ転送と実行がサポートされています。
また、Azure Machine Learning データセットのデータ ソースとして使用することもできます。これは、サポートされている任意のコンピューティングでダウンロードまたはマウントできます。
register_azure_data_lake_gen2
新しい Azure Data Lake Gen2 データストアを初期化します。
資格情報ベース (GA) と ID ベース (プレビュー) のデータ アクセスがサポートされています。資格情報ベースのデータ アクセスのために、サービス プリンシパルにデータストアを登録できます。 データストアと共に資格情報が保存されていない場合、ユーザーの AAD トークンは、次のいずれかの関数を直接呼び出す場合、ノートブックまたはローカル Python プログラムで使用されます。FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_filesコンピューティング ターゲットの ID は、Experiment.submit によってデータ アクセス認証のために送信されたジョブで使用されます。 こちらをご覧ください。
static register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
このデータストアが属するワークスペース。 |
datastore_name
必須
|
データストア名。 |
filesystem
必須
|
Data Lake Gen2 ファイルシステムの名前。 |
account_name
必須
|
ストレージ アカウント名。 |
tenant_id
|
str, <xref:optional>
サービス プリンシパルのディレクトリ ID/テナント ID。 規定値: None
|
client_id
|
str, <xref:optional>
サービス プリンシパルのクライアント ID/アプリケーション ID。 規定値: None
|
client_secret
|
str, <xref:optional>
サービス プリンシパルのシークレット。 規定値: None
|
resource_url
|
str, <xref:optional>
データ レイク ストアで実行される操作を決定するリソース URL は、既定で 規定値: None
|
authority_url
|
str, <xref:optional>
ユーザーの認証に使用される機関 URL。既定では 規定値: None
|
protocol
|
str, <xref:optional>
BLOB コンテナーへの接続に使用するプロトコル。 None の場合、既定値は https です。 規定値: None
|
endpoint
|
str, <xref:optional>
ストレージ アカウントのエンドポイント。 [なし] の場合、既定値は core.windows.net です。 規定値: None
|
overwrite
|
bool, <xref:optional>
既存のデータストアを上書きするかどうか。 データストアが存在しない場合は、データストアが作成されます。 既定値は False です。 規定値: False
|
subscription_id
|
str, <xref:optional>
ADLS ストアが属しているサブスクリプションの ID。 規定値: None
|
resource_group
|
str, <xref:optional>
ADLS ストアが属するリソース グループ。 規定値: None
|
grant_workspace_access
|
bool, <xref:optional>
既定値は False です。 Machine Learning Studio から仮想ネットワークの背後にあるデータにアクセスするには True に設定します。これにより、Machine Learning Studio からのデータ アクセスで認証にワークスペースマネージド ID が使用され、ワークスペースマネージド ID がストレージの閲覧者として追加されます。 オプトインするには、ストレージの所有者またはユーザー アクセス管理者である必要があります。 必要なアクセス許可がない場合は、管理者に構成するよう依頼してください。 詳細については、「https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network」を参照してください 規定値: False
|
戻り値
型 | 説明 |
---|---|
Azure Data Lake Gen2 データストアを返します。 |
注釈
ワークスペース リージョンとは異なるリージョンからストレージをアタッチすると、待機時間が長く、ネットワークの使用コストが増加する可能性があります。
register_azure_file_share
Azure ファイル共有をデータストアに登録します。
SAS トークンまたはストレージ アカウント キーの使用を選択できます
static register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
このデータストアが属するワークスペース。 |
datastore_name
必須
|
データストアの名前は大文字と小文字を区別せず、英数字と _のみを含めることができます。 |
file_share_name
必須
|
Azure ファイル コンテナーの名前。 |
account_name
必須
|
ストレージ アカウント名。 |
sas_token
|
str, <xref:optional>
アカウント SAS トークン。既定値は None です。 データの読み取りには、コンテナーとオブジェクトのリストと読み取りアクセス許可の最小値が必要です。また、データ書き込みには、書き込みアクセス許可と追加アクセス許可が必要です。 規定値: None
|
account_key
|
str, <xref:optional>
ストレージ アカウントのアクセス キー。既定値は None です。 規定値: None
|
protocol
|
str, <xref:optional>
ファイル共有への接続に使用するプロトコル。 None の場合、既定値は https です。 規定値: None
|
endpoint
|
str, <xref:optional>
ファイル共有のエンドポイント。 [なし] の場合、既定値は core.windows.net です。 規定値: None
|
overwrite
|
bool, <xref:optional>
既存のデータストアを上書きするかどうか。 データストアが存在しない場合は、データストアが作成されます。 既定値は False です。 規定値: False
|
create_if_not_exists
|
bool, <xref:optional>
ファイル共有が存在しない場合に作成するかどうか。 既定値は False です。 規定値: False
|
skip_validation
|
bool, <xref:optional>
ストレージ キーの検証をスキップするかどうか。 既定値は False です。 規定値: False
|
戻り値
型 | 説明 |
---|---|
ファイル データストア。 |
注釈
ワークスペース リージョンとは異なるリージョンからストレージをアタッチすると、待機時間が長く、ネットワークの使用コストが増加する可能性があります。
register_azure_my_sql
新しい Azure MySQL データストアを初期化します。
MySQL データストアは、Azure Machine Learning パイプラインの DataTransferStep への入力および出力として DataReference を作成する場合にのみ使用できます。 詳細については、こちらをご覧ください。
Azure MySQL データベースをデータストアとして登録する方法の例については、以下を参照してください。
static register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
このデータストアが属するワークスペース。 |
datastore_name
必須
|
データストア名。 |
server_name
必須
|
MySQL サーバー名。 |
database_name
必須
|
MySQL データベース名。 |
user_id
必須
|
MySQL サーバーのユーザー ID。 |
user_password
必須
|
MySQL サーバーのユーザー パスワード。 |
port_number
|
MySQL サーバーのポート番号。 規定値: None
|
endpoint
|
str, <xref:optional>
MySQL サーバーのエンドポイント。 [なし] の場合、既定値は mysql.database.azure.com。 規定値: None
|
overwrite
|
bool, <xref:optional>
既存のデータストアを上書きするかどうか。 データストアが存在しない場合は、データストアが作成されます。 既定値は False です。 規定値: False
|
戻り値
型 | 説明 |
---|---|
MySQL データベース データストアを返します。 |
注釈
ワークスペース リージョンとは異なるリージョンからストレージをアタッチすると、待機時間が長く、ネットワークの使用コストが増加する可能性があります。
mysql_datastore_name="mysqldatastore"
server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.
mysql_datastore = Datastore.register_azure_my_sql(
workspace=ws,
datastore_name=mysql_datastore_name,
server_name=server_name,
database_name=database_name,
user_id=user_id,
user_password=user_password)
register_azure_postgre_sql
新しい Azure PostgreSQL データストアを初期化します。
Azure PostgreSQL データベースをデータストアとして登録する方法の例については、以下を参照してください。
static register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
このデータストアが属するワークスペース。 |
datastore_name
必須
|
データストア名。 |
server_name
必須
|
PostgreSQL サーバー名。 |
database_name
必須
|
PostgreSQL データベース名。 |
user_id
必須
|
PostgreSQL サーバーのユーザー ID。 |
user_password
必須
|
PostgreSQL サーバーのユーザー パスワード。 |
port_number
|
PostgreSQL サーバーのポート番号 規定値: None
|
endpoint
|
str, <xref:optional>
PostgreSQL サーバーのエンドポイント。 [なし] の場合、既定値は postgres.database.azure.com。 規定値: None
|
overwrite
|
bool, <xref:optional>
既存のデータストアを上書きするかどうか。 データストアが存在しない場合は、データストアが作成されます。 既定値は False です。 規定値: False
|
enforce_ssl
|
PostgreSQL サーバーの SSL 要件を示します。 既定値は True です。 規定値: True
|
戻り値
型 | 説明 |
---|---|
PostgreSQL データベース データストアを返します。 |
注釈
ワークスペース リージョンとは異なるリージョンからストレージをアタッチすると、待機時間が長く、ネットワークの使用コストが増加する可能性があります。
psql_datastore_name="postgresqldatastore"
server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password
psql_datastore = Datastore.register_azure_postgre_sql(
workspace=ws,
datastore_name=psql_datastore_name,
server_name=server_name,
database_name=database_name,
user_id=user_id,
user_password=user_password)
register_azure_sql_database
新しい Azure SQL データベース データストアを初期化します。
資格情報ベース (GA) と ID ベース (プレビュー) データ アクセスがサポートされており、サービス プリンシパルまたはユーザー名とパスワードを使用できます。 データストアと共に資格情報が保存されていない場合、ユーザーの AAD トークンは、次のいずれかの関数を直接呼び出す場合、ノートブックまたはローカル Python プログラムで使用されます。FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_filesコンピューティング ターゲットの ID は、Experiment.submit によってデータ アクセス認証のために送信されたジョブで使用されます。 こちらをご覧ください。
Azure SQL データベースをデータストアとして登録する方法の例については、以下を参照してください。
static register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
このデータストアが属するワークスペース。 |
datastore_name
必須
|
データストア名。 |
server_name
必須
|
SQL サーバー名。 "sample.database.windows.net" のような完全修飾ドメイン名の場合、server_name値は "sample" で、エンドポイント値は "database.windows.net" にする必要があります。 |
database_name
必須
|
SQL データベース名。 |
tenant_id
|
サービス プリンシパルのディレクトリ ID/テナント ID。 規定値: None
|
client_id
|
サービス プリンシパルのクライアント ID/アプリケーション ID。 規定値: None
|
client_secret
|
サービス プリンシパルのシークレット。 規定値: None
|
resource_url
|
str, <xref:optional>
リソース URL。SQL データベース ストアで実行される操作を決定します (None の場合)、既定値は https://database.windows.net/。 規定値: None
|
authority_url
|
str, <xref:optional>
ユーザーの認証に使用される機関 URL。既定では https://login.microsoftonline.com。 規定値: None
|
endpoint
|
str, <xref:optional>
SQL サーバーのエンドポイント。 [なし] の場合、既定値は database.windows.net。 規定値: None
|
overwrite
|
bool, <xref:optional>
既存のデータストアを上書きするかどうか。 データストアが存在しない場合は、データストアが作成されます。 既定値は False です。 規定値: False
|
username
|
データベースにアクセスするデータベース ユーザーのユーザー名。 規定値: None
|
password
|
データベースにアクセスするデータベース ユーザーのパスワード。 規定値: None
|
skip_validation
必須
|
bool, <xref:optional>
SQL データベースへの接続の検証をスキップするかどうか。 既定値は False です。 |
subscription_id
|
str, <xref:optional>
ADLS ストアが属しているサブスクリプションの ID。 規定値: None
|
resource_group
|
str, <xref:optional>
ADLS ストアが属するリソース グループ。 規定値: None
|
grant_workspace_access
|
bool, <xref:optional>
既定値は False です。 Machine Learning Studio から仮想ネットワークの背後にあるデータにアクセスするには True に設定します。これにより、Machine Learning Studio からのデータ アクセスで認証にワークスペースマネージド ID が使用され、ワークスペースマネージド ID がストレージの閲覧者として追加されます。 オプトインするには、ストレージの所有者またはユーザー アクセス管理者である必要があります。 必要なアクセス許可がない場合は、管理者に構成するよう依頼してください。 詳細については、「https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network」を参照してください 規定値: False
|
戻り値
型 | 説明 |
---|---|
SQL データベース データストアを返します。 |
注釈
ワークスペース リージョンとは異なるリージョンからストレージをアタッチすると、待機時間が長く、ネットワークの使用コストが増加する可能性があります。
sql_datastore_name="azuresqldatastore"
server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.
sql_datastore = Datastore.register_azure_sql_database(
workspace=ws,
datastore_name=sql_datastore_name,
server_name=server_name, # name should not contain fully qualified ___domain endpoint
database_name=database_name,
username=username,
password=password,
endpoint='database.windows.net')
register_dbfs
新しい Databricks ファイル システム (DBFS) データストアを初期化します。
DBFS データストアは、DataReference を入力として作成し、PipelineData を Azure Machine Learning パイプラインの DatabricksStep への出力として作成する場合にのみ使用できます。 詳細については、こちらをご覧ください。
static register_dbfs(workspace, datastore_name)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
このデータストアが属するワークスペース。 |
datastore_name
必須
|
データストア名。 |
戻り値
型 | 説明 |
---|---|
DBFS データストアを返します。 |
注釈
ワークスペース リージョンとは異なるリージョンからストレージをアタッチすると、待機時間が長く、ネットワークの使用コストが増加する可能性があります。
register_hdfs
注
これは実験的な方法であり、いつでも変更される可能性があります。 詳細については、https://aka.ms/azuremlexperimental を参照してください。
新しい HDFS データストアを初期化します。
static register_hdfs(workspace, datastore_name, protocol, namenode_address, hdfs_server_certificate, kerberos_realm, kerberos_kdc_address, kerberos_principal, kerberos_keytab=None, kerberos_password=None, overwrite=False)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
このデータストアが属するワークスペース |
datastore_name
必須
|
データストア名 |
protocol
必須
|
str または
<xref:_restclient.models.enum>
HDFS クラスターと通信するときに使用するプロトコル。 http または https。 使用可能な値は、'http'、'https' です。 |
namenode_address
必須
|
HDFS namenode の IP アドレスまたは DNS ホスト名。 必要に応じて、ポートを含みます。 |
hdfs_server_certificate
必須
|
str, <xref:optional>
自己署名証明書で TLS を使用する場合は、HDFS namenode の TLS 署名証明書へのパス。 |
kerberos_realm
必須
|
Kerberos 領域。 |
kerberos_kdc_address
必須
|
Kerberos KDC の IP アドレスまたは DNS ホスト名。 |
kerberos_principal
必須
|
認証と承認に使用する Kerberos プリンシパル。 |
kerberos_keytab
必須
|
str, <xref:optional>
Kerberos プリンシパルに対応するキーを含む keytab ファイルへのパス。 これを指定するか、パスワードを指定します。 |
kerberos_password
必須
|
str, <xref:optional>
Kerberos プリンシパルに対応するパスワード。 これを指定するか、キータブ ファイルへのパスを指定します。 |
overwrite
必須
|
bool, <xref:optional>
は既存のデータストアを上書きします。 データストアが存在しない場合は、データストアが作成されます。 既定値は False です。 |
set_as_default
unregister
データストアの登録を解除します。 基になるストレージ サービスは削除されません。
unregister()