data パッケージ

Azure Machine Learning のデータストアとデータセットのデータ表現をサポートするモジュールが含まれています。

このパッケージには、Datastore パッケージ内のDatasetクラスとcore クラスをサポートするコア機能が含まれています。データストアオブジェクトには、名前で簡単に参照できる Azure Storage サービスへの接続情報が含まれています。スクリプトで直接操作したり、ハードコード接続情報を使用したりする必要はありません。データストアは、 AzureBlobDatastore、 AzureFileDatastore、 AzureDataLakeDatastoreなど、このパッケージ内のクラスによって表されるさまざまなサービスをサポートしています。サポートされているストレージサービスの完全な一覧については、 Datastore クラスを参照してください。

データストアはデータファイルのコンテナーとして機能しますが、データセットはデータストア内の特定のデータへの参照またはポインターと考えることができます。次のデータセットの種類がサポートされています。

TabularDataset は、指定されたファイルまたはファイルの一覧を解析して作成された表形式のデータを表します。
FileDataset は、データストアまたはパブリック URL 内の単一または複数のファイルを参照します。

詳細については、データセットの追加と登録に関する記事を参照してください。データセットの操作を開始するには、「 https://aka.ms/tabulardataset-samplenotebook と https://aka.ms/filedataset-samplenotebook」を参照してください。

モジュール

abstract_dataset	Azure Machine Learning のデータセットの抽象基本クラスが含まれています。
abstract_datastore	Azure ストレージサービスに接続情報を保存するデータストアの基本機能が含まれています。
azure_data_lake_datastore	Azure Data Lake Storage に接続情報を保存するデータストアの基本機能が含まれています。
azure_my_sql_datastore	Azure Database for MySQL への接続情報を保存するデータストアの基本機能が含まれています。
azure_postgre_sql_datastore	Azure Database for PostgreSQL への接続情報を保存するデータストアの基本機能が含まれています。
azure_sql_database_datastore	Azure SQL データベースに接続情報を保存するデータストアの基本機能が含まれています。
azure_storage_datastore	Azure BLOB と Azure File Storage に接続情報を保存するデータストアの機能が含まれています。
constants	azureml.data パッケージで使用される定数。内部のみで使用します。
context_managers	データストアとデータセットのデータコンテキストを管理する機能が含まれています。内部のみで使用します。
data_reference	データストア内のデータへの参照を作成する方法を定義する機能が含まれています。
datacache	Azure Machine Learning で DatacacheStore と Datacache を管理するための機能が含まれています。
datacache_client	内部のみで使用します。
datacache_consumption_config	DataCache の使用構成の機能が含まれています。
datacache_singularity_settings	Datacache の特異点設定の表現に必要なオブジェクトが含まれています。
datapath	データストア内のデータへの参照を作成する機能が含まれています。このモジュールには、データの場所を表す DataPath クラスと、コンピューティング先でデータを使用できるようにする方法を表す DataPathComputeBinding クラスが含まれています。
dataset_action_run	データセットアクションの実行を管理する機能が含まれています。このモジュールでは、データセットアクションを作成し、完了後にその結果を取得するための便利なメソッドを提供します。
dataset_consumption_config	データセットの使用構成の機能が含まれています。
dataset_definition	データセット定義とその操作を管理する機能が含まれています。注このモジュールは非推奨です。詳細については、https://aka.ms/dataset-deprecationを参照してください。
dataset_error_handling	Azure Machine Learning でのデータセットエラー処理の例外が含まれています。
dataset_factory	Azure Machine Learning 用のデータセットを作成する機能が含まれています。
dataset_profile	データフローによって生成されたデータに関する概要統計を収集するためのクラス。このモジュールの機能には、プロファイルが古いかどうかにかかわらず、プロファイルを生成した実行に関する情報の収集が含まれます。
dataset_profile_run	Azure Machine Learning で実行されるデータセットプロファイルを監視するための構成が含まれています。このモジュールの機能には、実験オブジェクトと個々の実行 ID に関連付けられたデータセットプロファイル実行の処理と監視が含まれます。
dataset_profile_run_config	Azure Machine Learning でデータセットの統計情報の概要を生成するための構成が含まれています。このモジュールの機能には、ローカルまたはリモートのプロファイル実行を送信し、送信されたプロファイル実行の結果を視覚化するためのメソッドが含まれています。
dataset_snapshot	データセットスナップショット操作を管理する機能が含まれています。注このモジュールは非推奨です。詳細については、https://aka.ms/dataset-deprecationを参照してください。
dataset_type_definitions	Datasetで使用される列挙値が含まれています。
datastore_client	内部のみで使用します。
dbfs_datastore	Databricks File Sytem (DBFS) への接続情報を保存するデータストアの機能が含まれています。
file_dataset	データストアまたはパブリック URL 内の 1 つまたは複数のファイルを参照するための機能が含まれています。詳細については、データセットの追加と登録に関する記事を参照してください。ファイルデータセットの操作を開始するには、 https://aka.ms/filedataset-samplenotebookを参照してください。
hdfs_datastore	HDFS クラスターに接続情報を保存するデータストアの基本機能が含まれています。
output_dataset_config	ジョブの出力をアップロードしてデータセットに昇格させる方法を指定する構成が含まれています。詳細については、出力を指定する方法に関する記事を参照してください。
sql_data_reference	SQL データベースへの接続情報を保存するデータストア内のデータへの参照を作成するための機能が含まれています。
stored_procedure_parameter	SQL ストアドプロシージャに渡すパラメーターを作成するための機能が含まれています。
tabular_dataset	指定されたファイルまたはファイルの一覧を解析して、データを表形式で表す機能が含まれています。詳細については、データセットの追加と登録に関する記事を参照してください。表形式データセットの操作を開始するには、 https://aka.ms/tabulardataset-samplenotebookを参照してください。

クラス

DataType	Azure Machine Learning で作成されたデータセットの列データ型を構成します。 DataType メソッドは、 TabularDatasetFactory クラス `from_*` メソッドで使用され、新しい TabularDataset オブジェクトを作成するために使用されます。
DatacacheStore	注これは試験的なクラスであり、いつでも変更される可能性があります。詳細については、https://aka.ms/azuremlexperimental を参照してください。 Azure Machine Learning ストレージアカウントに対するストレージの抽象化を表します。 DatacacheStore はワークスペースにアタッチされ、基になるデータキャッシュソリューションに関連する情報を格納するために使用されます。現時点では、パーティション分割された BLOB ソリューションのみがサポートされています。データストアは、キャッシュに使用できるさまざまな BLOB データストアを定義します。このクラスを使用して、データストアの登録、一覧表示、取得、更新などの管理操作を実行します。各サービスの DatacacheStore は、このクラスの `register*` メソッドを使用して作成されます。名前でデータストアを取得します。この呼び出しは、データキャッシュサービスに対して要求を行います。
FileDataset	Azure Machine Learning で使用するデータストアまたはパブリック URL 内のファイル参照のコレクションを表します。 FileDataset は、データソースからファイルストリームにデータを読み込む一連の遅延評価された不変操作を定義します。 FileDataset がデータの配信を求められるまで、データはソースから読み込まれません。 FileDataset は、FileDatasetFactory クラスの from_files メソッドを使用して作成されます。詳細については、データセットの追加と登録に関する記事を参照してください。ファイルデータセットの操作を開始するには、 https://aka.ms/filedataset-samplenotebookを参照してください。 FileDataset オブジェクトを初期化します。このコンストラクターは、直接呼び出すことはできません。データセットは、 FileDatasetFactory クラスを使用して作成することを目的としています。
HDFSOutputDatasetConfig	HDFS パスに出力し、FileDataset として昇格する方法を表します。 HDFSOutputDatasetConfig を初期化します。
LinkFileOutputDatasetConfig	注これは試験的なクラスであり、いつでも変更される可能性があります。詳細については、https://aka.ms/azuremlexperimental を参照してください。実行の出力をリンクし、FileDataset として昇格する方法を表します。 LinkFileOutputDatasetConfig を使用すると、ファイルデータセットを出力データセットとしてリンクできます。 workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = LinkFileOutputDatasetConfig('link_output') script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output]) # within link.py # from azureml.core import Run, Dataset # run = Run.get_context() # workspace = run.experiment.workspace # dataset = Dataset.get_by_name(workspace, name='dataset_to_link') # run.output_datasets['link_output'].link(dataset) run = experiment.submit(script_run_config) print(run) LinkFileOutputDatasetConfig を初期化します。
LinkTabularOutputDatasetConfig	注これは試験的なクラスであり、いつでも変更される可能性があります。詳細については、https://aka.ms/azuremlexperimental を参照してください。実行の出力をリンクし、TabularDataset として昇格させる方法を表します。 LinkTabularOutputDatasetConfig を使用すると、テーブル形式のファイルを出力データセットとしてリンクできます。 workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = LinkTabularOutputDatasetConfig('link_output') script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output]) # within link.py # from azureml.core import Run, Dataset # run = Run.get_context() # workspace = run.experiment.workspace # dataset = Dataset.get_by_name(workspace, name='dataset_to_link') # run.output_datasets['link_output'].link(dataset) run = experiment.submit(script_run_config) print(run) LinkTabularOutputDatasetConfig を初期化します。
OutputFileDatasetConfig	実行の出力をコピーし、FileDataset として昇格させる方法を表します。 OutputFileDatasetConfig を使用すると、コンピューティング先の特定のローカルパスを指定した宛先にアップロードする方法を指定できます。コンストラクターに引数が渡されない場合は、名前、宛先、およびローカルパスが自動的に生成されます。引数を渡さない例を次に示します。 `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = OutputFileDatasetConfig() script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` 出力を作成し、出力を表形式のデータセットに昇格させ、foo という名前で登録する例: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') datastore = Datastore(workspace, 'example_adls_gen2_datastore') # for more information on the parameters and methods, please look for the corresponding documentation. output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo') script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` OutputFileDatasetConfig を初期化します。 OutputFileDatasetConfig を使用すると、コンピューティング先の特定のローカルパスを指定した宛先にアップロードする方法を指定できます。コンストラクターに引数が渡されない場合は、名前、宛先、およびローカルパスが自動的に生成されます。引数を渡さない例を次に示します。 `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = OutputFileDatasetConfig() script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` 出力を作成し、出力を表形式のデータセットに昇格させ、foo という名前で登録する例: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') datastore = Datastore(workspace, 'example_adls_gen2_datastore') # for more information on the parameters and methods, please look for the corresponding documentation. output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo') script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)`
TabularDataset	Azure Machine Learning で使用する表形式データセットを表します。 TabularDataset は、データソースから表形式にデータを読み込む一連の遅延評価された不変操作を定義します。 TabularDataset がデータの配信を求められるまで、データはソースから読み込まれません。 TabularDataset は、from_delimited_files クラスのTabularDatasetFactoryなどのメソッドを使用して作成されます。詳細については、データセットの追加と登録に関する記事を参照してください。表形式データセットの操作を開始するには、 https://aka.ms/tabulardataset-samplenotebookを参照してください。 TabularDataset オブジェクトを初期化します。このコンストラクターは、直接呼び出すことはできません。データセットは、 TabularDatasetFactory クラスを使用して作成することを目的としています。

次の方法で共有

data パッケージ

モジュール

クラス

フィードバック