次の方法で共有


Dataset クラス

Azure Machine Learning でデータを探索、変換、および管理するためのリソースを表します。

データセットは、 Datastore またはパブリック Web URL の背後にあるデータへの参照です。

このクラスで非推奨となったメソッドについては、改善された API AbstractDataset クラスを確認してください。

次のデータセットの種類がサポートされています。

  • TabularDataset は、指定されたファイルまたはファイルの一覧を解析して作成された表形式のデータを表します。

  • FileDataset データストア内の単一または複数のファイル、またはパブリック URL から参照します。

データセットの使用を開始するには、「 データセットの追加と登録」の記事を参照するか、ノートブックの https://aka.ms/tabulardataset-samplenotebookhttps://aka.ms/filedataset-samplenotebookを参照してください。

Dataset オブジェクトを初期化します。

ワークスペースに既に登録されているデータセットを取得するには、get メソッドを使用します。

コンストラクター

Dataset(definition, workspace=None, name=None, id=None)

パラメーター

名前 説明
definition
必須
<xref:azureml.data.DatasetDefinition>

データセットの定義。

workspace
必須

データセットが存在するワークスペース。

name
必須
str

データセットの名前。

id
必須
str

データセットの一意識別子。

注釈

Dataset クラスには、対応するファクトリ メソッドを操作せずにデータセットを作成するために使用できる便利な 2 つのクラス属性 (FileTabular) が公開されています。 たとえば、次の属性を使用してデータセットを作成するには、次のようにします。

  • Dataset.Tabular.from_delimited_files()

  • Dataset.File.from_files()

TabularDatasetFactoryおよびFileDatasetFactoryで定義されているクラスの対応するファクトリ メソッドを直接呼び出すことによって、新しい TabularDataset または FileDataset を作成することもできます。

次の例は、データストア内の 1 つのパスを指す TabularDataset を作成する方法を示しています。


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

完全なサンプルは次から入手できます https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

変数

名前 説明
azureml.core.Dataset.File

新しい FileDataset オブジェクトを作成するための FileDatasetFactory メソッドへのアクセスを提供するクラス属性。 使用法: Dataset.File.from_files()。

azureml.core.Dataset.Tabular

新しい TabularDataset オブジェクトを作成するための TabularDatasetFactory メソッドへのアクセスを提供するクラス属性。 使用法: Dataset.Tabular.from_delimited_files()。

メソッド

archive

アクティブまたは非推奨のデータセットをアーカイブします。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

auto_read_files

指定したパスにあるファイルを分析し、新しいデータセットを返します。

このメソッドは非推奨となり、サポートされなくなります。

Dataset.Tabular.from_* メソッドを使用してファイルを読み取うことをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

compare_profiles

現在のデータセットのプロファイルを別のデータセット プロファイルと比較します。

これは、2 つのデータセット間の概要統計の違いを示しています。 パラメーター 'rhs_dataset' は "右側" を表し、単に 2 番目のデータセットです。 最初のデータセット (現在のデータセット オブジェクト) は、"左側" と見なされます。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

create_snapshot

登録済みのデータセットのスナップショットを作成します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

delete_snapshot

名前でデータセットのスナップショットを削除します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

deprecate

別のデータセットによってワークスペース内のアクティブなデータセットを非推奨にします。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

diff

現在のデータセットとrhs_datasetを比較します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

from_binary_files

バイナリ ファイルから未登録のメモリ内データセットを作成します。

このメソッドは非推奨となり、サポートされなくなります。

代わりにDataset.File.from_filesを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

from_delimited_files

区切りファイルから、未登録のメモリ内データセットを作成します。

このメソッドは非推奨となり、サポートされなくなります。

代わりにDataset.Tabular.from_delimited_filesを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
from_excel_files

Excel ファイルから、未登録のメモリ内データセットを作成します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

from_json_files

JSON ファイルから未登録のメモリ内データセットを作成します。

このメソッドは非推奨となり、サポートされなくなります。

JSON 行ファイルから読み取る代わりに、Dataset.Tabular.from_json_lines_filesを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

from_pandas_dataframe

pandas データフレームから、未登録のメモリ内データセットを作成します。

このメソッドは非推奨となり、サポートされなくなります。

代わりにDataset.Tabular.register_pandas_dataframeを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

from_parquet_files

Parquet ファイルから、未登録のメモリ内データセットを作成します。

このメソッドは非推奨となり、サポートされなくなります。

代わりにDataset.Tabular.from_parquet_filesを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

from_sql_query

SQL クエリから、未登録のメモリ内データセットを作成します。

このメソッドは非推奨となり、サポートされなくなります。

代わりにDataset.Tabular.from_sql_queryを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

generate_profile

データセットの新しいプロファイルを生成します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

get

ワークスペースに既に存在するデータセットを取得するには、その名前または ID を指定します。

このメソッドは非推奨となり、サポートされなくなります。

代わりに get_by_nameget_by_id を使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

get_all

ワークスペースに登録されているすべてのデータセットを取得します。

get_all_snapshots

データセットのすべてのスナップショットを取得します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

get_by_id

ワークスペースに保存されているデータセットを取得します。

get_by_name

登録名でワークスペースから登録済みデータセットを取得します。

get_definition

データセットの特定の定義を取得します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

get_definitions

データセットのすべての定義を取得します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

get_profile

前に計算したデータセットの概要統計を取得します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

get_snapshot

名前でデータセットのスナップショットを取得します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

head

このデータセットから指定された数のレコードをプルし、DataFrame として返します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

list

ワークスペース内のすべてのデータセット ( is_visible プロパティが False のデータセットを含む) を一覧表示します。

このメソッドは非推奨となり、サポートされなくなります。

代わりに get_all を使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

reactivate

アーカイブされたデータセットまたは非推奨のデータセットを再アクティブ化します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

register

ワークスペースにデータセットを登録し、ワークスペースの他のユーザーが使用できるようにします。

このメソッドは非推奨となり、サポートされなくなります。

代わりに register を使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

sample

指定されたサンプリング戦略とパラメーターを使用して、ソース データセットから新しいサンプルを生成します。

このメソッドは非推奨となり、サポートされなくなります。

Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで take_sample メソッドを使用します。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

to_pandas_dataframe

このデータセット定義で定義された変換パイプラインを実行して、Pandas データフレームを作成します。

このメソッドは非推奨となり、サポートされなくなります。

Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで to_pandas_dataframe メソッドを使用します。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

to_spark_dataframe

このデータセット定義で定義された変換パイプラインを実行できる Spark DataFrame を作成します。

このメソッドは非推奨となり、サポートされなくなります。

Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで to_spark_dataframe メソッドを使用します。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

update

ワークスペース内のデータセット変更可能な属性を更新し、ワークスペースから更新されたデータセットを返します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

update_definition

データセット定義を更新します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

archive

アクティブまたは非推奨のデータセットをアーカイブします。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

archive()

戻り値

説明

なし。

注釈

アーカイブ後、データセットを使用しようとするとエラーが発生します。 誤ってアーカイブされた場合は、再アクティブ化によってアクティブ化されます。

auto_read_files

指定したパスにあるファイルを分析し、新しいデータセットを返します。

このメソッドは非推奨となり、サポートされなくなります。

Dataset.Tabular.from_* メソッドを使用してファイルを読み取うことをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

static auto_read_files(path, include_path=False, partition_format=None)

パラメーター

名前 説明
path
必須
DataReference または str

登録済みのデータストア内のデータ パス、ローカル パス、または HTTP URL (CSV/TSV)。

include_path
必須

データの読み取り元のファイルのパスを含む列を含めるかどうか。 複数のファイルを読み取り、特定のレコードが生成されたファイルを知りたい場合に便利です。 また、ファイル パスまたは列に必要な名前に情報がある場合にも便利です。

partition_format
必須
str

パスでパーティション形式を指定し、形式 '{x:yy/MM/dd/HH/mm/ss}' から形式 '{x:yyyy/MM/dd/HH/mm/ss}' から文字列列を作成します。ここで、'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' は、datetime 型の年、月、日、時、分、秒をエクストラトするために使用されます。 形式は、最初のパーティション キーの位置からファイル パスの末尾まで開始する必要があります。 たとえば、ファイル パス '../Accounts/2019/01/01/data.csv' では、データが部門名と時刻によってパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' を定義して、文字列型の列 'Department' と datetime 型の 'PartitionDate' を作成できます。

戻り値

説明

データセット オブジェクト。

注釈

ファイル形式と区切り記号を自動的に検出する場合は、このメソッドを使用します。

データセットを作成したら、 get_profile を使用して、検出された列の種類と各列の概要統計を一覧表示する必要があります。

返されたデータセットはワークスペースに登録されていません。

compare_profiles

現在のデータセットのプロファイルを別のデータセット プロファイルと比較します。

これは、2 つのデータセット間の概要統計の違いを示しています。 パラメーター 'rhs_dataset' は "右側" を表し、単に 2 番目のデータセットです。 最初のデータセット (現在のデータセット オブジェクト) は、"左側" と見なされます。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

パラメーター

名前 説明
rhs_dataset
必須

2 つ目のデータセット。比較のための "右側" データセットとも呼ばれます。

profile_arguments
必須

特定のプロファイルを再取得する引数。

include_columns
必須

比較に含める列名の一覧。

exclude_columns
必須

比較で除外する列名の一覧。

histogram_compare_method
必須

比較方法を記述する列挙型 (例: Wasserstein または Energy)

戻り値

説明
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

2 つのデータセット プロファイルの違い。

注釈

これは、登録済みのデータセット専用です。 現在のデータセットのプロファイルが存在しない場合は、例外を発生させます。 登録されていないデータセットの場合は、profile.compare メソッドを使用します。

create_snapshot

登録済みのデータセットのスナップショットを作成します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

パラメーター

名前 説明
snapshot_name
必須
str

スナップショット名。 スナップショット名は、データセット内で一意である必要があります。

compute_target
必須

スナップショット プロファイルの作成を実行する省略可能なコンピューティング 先。 省略すると、ローカル コンピューティングが使用されます。

create_data_snapshot
必須

True の場合、データの具体化されたコピーが作成されます。

target_datastore
必須

スナップショットを保存するターゲット データストア。 省略すると、ワークスペースの既定のストレージにスナップショットが作成されます。

戻り値

説明

データセット スナップショット オブジェクト。

注釈

スナップショットは、基になるデータのポイントインタイム サマリー統計と、データ自体のオプションのコピーをキャプチャします。 スナップショットの作成の詳細については、「 https://aka.ms/azureml/howto/createsnapshots」を参照してください。

delete_snapshot

名前でデータセットのスナップショットを削除します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

delete_snapshot(snapshot_name)

パラメーター

名前 説明
snapshot_name
必須
str

スナップショット名。

戻り値

説明

なし。

注釈

これを使用して、不要になったスナップショットに保存されたデータによって消費されるストレージを解放します。

deprecate

別のデータセットによってワークスペース内のアクティブなデータセットを非推奨にします。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

deprecate(deprecate_by_dataset_id)

パラメーター

名前 説明
deprecate_by_dataset_id
必須
str

このデータセットの代わりに使用するデータセット ID。

戻り値

説明

なし。

注釈

非推奨のデータセットでは、警告が使用されるとログに記録されます。 データセットを非推奨にすると、そのすべての定義が非推奨になります。

非推奨のデータセットは引き続き使用できます。 データセットの使用を完全にブロックするには、それをアーカイブします。

誤って非推奨になった場合は、再アクティブ化によってアクティブ化されます。

diff

現在のデータセットとrhs_datasetを比較します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

diff(rhs_dataset, compute_target=None, columns=None)

パラメーター

名前 説明
rhs_dataset
必須

比較のために右側のデータセットとも呼ばれる別のデータセット

compute_target
必須

計算ターゲットを使用して差分を実行します。 省略すると、ローカル コンピューティングが使用されます。

columns
必須

diff に含める列名の一覧。

戻り値

説明

データセット アクション実行オブジェクト。

from_binary_files

バイナリ ファイルから未登録のメモリ内データセットを作成します。

このメソッドは非推奨となり、サポートされなくなります。

代わりにDataset.File.from_filesを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

static from_binary_files(path)

パラメーター

名前 説明
path
必須
DataReference または str

登録済みのデータストアまたはローカル パス内のデータ パス。

戻り値

説明

Dataset オブジェクト。

注釈

バイナリ データのストリームとしてファイルを読み取る場合は、このメソッドを使用します。 読み取られたファイルごとに 1 つのファイル ストリーム オブジェクトを返します。 画像、ビデオ、オーディオ、またはその他のバイナリ データを読み取る場合は、このメソッドを使用します。

get_profilecreate_snapshot は、このメソッドによって作成されたデータセットに対して想定どおりに機能しません。

返されたデータセットはワークスペースに登録されていません。

from_delimited_files

区切りファイルから、未登録のメモリ内データセットを作成します。

このメソッドは非推奨となり、サポートされなくなります。

代わりにDataset.Tabular.from_delimited_filesを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

パラメーター

名前 説明
path
必須
DataReference または str

登録済みのデータストア内のデータ パス、ローカル パス、または HTTP URL。

separator
必須
str

列を分割するために使用される区切り記号。

header
必須

ファイルから読み取るときに列ヘッダーを昇格させる方法を制御します。

encoding
必須

読み取られるファイルのエンコード。

quoting
必須

引用符内の改行文字を処理する方法を指定します。 既定値 (False) は、改行文字が引用符内にあるかどうかに関係なく、改行文字を新しい行の開始と解釈することです。 True に設定すると、引用符内の改行文字は新しい行にならず、ファイルの読み取り速度が低下します。

infer_column_types
必須

列データ型が推論されるかどうかを示します。

skip_rows
必須
int

読み取るファイルでスキップする行の数。

skip_mode
必須

ファイルから読み取るときに行をスキップする方法を制御します。

comment
必須
str

読み取るファイル内のコメント行を示すために使用される文字。 この文字列で始まる行はスキップされます。

include_path
必須

データの読み取り元のファイルのパスを含む列を含めるかどうか。 これは、複数のファイルを読み取り、特定のレコードが生成されたファイルを知りたい場合や、ファイル パスに有用な情報を保持する場合に便利です。

archive_options
必須
<xref:azureml.dataprep.ArchiveOptions>

アーカイブの種類やエントリ glob パターンなど、アーカイブ ファイルのオプション。 現時点では、アーカイブの種類として ZIP のみがサポートされています。 たとえば、次のように指定します。


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

は、名前が "10-20.csv" で終わるすべてのファイルを ZIP で読み取ります。

partition_format
必須
str

パスでパーティション形式を指定し、形式 '{x:yy/MM/dd/HH/mm/ss}' から形式 '{x:yyyy/MM/dd/HH/mm/ss}' から文字列列を作成します。ここで、'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' は、datetime 型の年、月、日、時、分、秒をエクストラトするために使用されます。 形式は、最初のパーティション キーの位置からファイル パスの末尾まで開始する必要があります。 たとえば、ファイル パス '../Accounts/2019/01/01/data.csv' では、データが部門名と時刻によってパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' を定義して、文字列型の列 'Department' と datetime 型の 'PartitionDate' を作成できます。

戻り値

説明

データセット オブジェクト。

注釈

使用するオプションを制御する場合は、このメソッドを使用して区切りテキスト ファイルを読み取る必要があります。

データセットを作成したら、 get_profile を使用して、検出された列の種類と各列の概要統計を一覧表示する必要があります。

返されたデータセットはワークスペースに登録されていません。

from_excel_files

Excel ファイルから、未登録のメモリ内データセットを作成します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

パラメーター

名前 説明
path
必須
DataReference または str

登録済みのデータストアまたはローカル パス内のデータ パス。

sheet_name
必須
str

読み込む Excel シートの名前。 既定では、各 Excel ファイルから最初のシートが読み取られます。

use_column_headers
必須

最初の行を列ヘッダーとして使用するかどうかを制御します。

skip_rows
必須
int

読み取るファイルでスキップする行の数。

include_path
必須

データの読み取り元のファイルのパスを含む列を含めるかどうか。 これは、複数のファイルを読み取り、特定のレコードが生成されたファイルを知りたい場合や、ファイル パスに有用な情報を保持する場合に便利です。

infer_column_types
必須

true の場合、列データ型が推論されます。

partition_format
必須
str

パスでパーティション形式を指定し、形式 '{x:yy/MM/dd/HH/mm/ss}' から形式 '{x:yyyy/MM/dd/HH/mm/ss}' から文字列列を作成します。ここで、'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' は、datetime 型の年、月、日、時、分、秒をエクストラトするために使用されます。 形式は、最初のパーティション キーの位置からファイル パスの末尾まで開始する必要があります。 たとえば、ファイル パス '../Accounts/2019/01/01/data.xlsx' では、データが部門名と時刻によってパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx' を定義して、文字列型の列 'Department' と datetime 型の 'PartitionDate' を作成できます。

戻り値

説明

データセット オブジェクト。

注釈

このメソッドを使用して、Excel ファイルを .xlsx 形式で読み取ります。 各 Excel ファイルの 1 つのシートからデータを読み取ることができます。 データセットを作成したら、 get_profile を使用して、検出された列の種類と各列の概要統計を一覧表示する必要があります。 返されたデータセットはワークスペースに登録されていません。

from_json_files

JSON ファイルから未登録のメモリ内データセットを作成します。

このメソッドは非推奨となり、サポートされなくなります。

JSON 行ファイルから読み取る代わりに、Dataset.Tabular.from_json_lines_filesを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

パラメーター

名前 説明
path
必須
DataReference または str

読み込んで解析するファイルまたはフォルダーへのパス。 ローカル パスまたは Azure BLOB URL を指定できます。 Globbing がサポートされています。 たとえば、path = "./data*" を使用して、名前が "data" で始まるすべてのファイルを読み取ることができます。

encoding
必須

読み取られるファイルのエンコード。

flatten_nested_arrays
必須

入れ子になった配列のプログラムの処理を制御するプロパティ。 入れ子になった JSON 配列をフラット化することを選択すると、行数が大幅に増える可能性があります。

include_path
必須

データの読み取り元のパスを含む列を含めるかどうか。 これは、複数のファイルを読み取り、特定のレコードが生成されたファイルを知りたい場合や、ファイル パスに有用な情報を保持したい場合に便利です。

partition_format
必須
str

パスでパーティション形式を指定し、形式 '{x:yy/MM/dd/HH/mm/ss}' から形式 '{x:yyyy/MM/dd/HH/mm/ss}' から文字列列を作成します。ここで、'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' は、datetime 型の年、月、日、時、分、秒をエクストラトするために使用されます。 形式は、最初のパーティション キーの位置からファイル パスの末尾まで開始する必要があります。 たとえば、ファイル パス '../Accounts/2019/01/01/data.json' とデータは部門名と時刻でパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.json' を定義して、文字列型の 'Department' 列と datetime 型の 'PartitionDate' 列を作成できます。

戻り値

説明

ローカル データセット オブジェクト。

from_pandas_dataframe

pandas データフレームから、未登録のメモリ内データセットを作成します。

このメソッドは非推奨となり、サポートされなくなります。

代わりにDataset.Tabular.register_pandas_dataframeを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

パラメーター

名前 説明
dataframe
必須

Pandas DataFrame。

path
必須

登録済みのデータストアまたはローカル フォルダー パス内のデータ パス。

in_memory
必須

ディスクに永続化するのではなく、メモリから DataFrame を読み取るかどうか。

戻り値

説明

データセット オブジェクト。

注釈

Pandas データフレームを Dataset オブジェクトに変換するには、このメソッドを使用します。 データはメモリからのデータであるため、このメソッドによって作成されたデータセットを登録できません。

in_memoryが False の場合、Pandas DataFrame はローカルで CSV ファイルに変換されます。 patが DataReference 型の場合、Pandas フレームはデータ ストアにアップロードされ、データセットは DataReference に基づいて作成されます。 ''path' がローカル フォルダーの場合、削除できないローカル ファイルからデータセットが作成されます。

現在の DataReference がフォルダー パスでない場合は例外を発生させます。

from_parquet_files

Parquet ファイルから、未登録のメモリ内データセットを作成します。

このメソッドは非推奨となり、サポートされなくなります。

代わりにDataset.Tabular.from_parquet_filesを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

static from_parquet_files(path, include_path=False, partition_format=None)

パラメーター

名前 説明
path
必須
DataReference または str

登録済みのデータストアまたはローカル パス内のデータ パス。

include_path
必須

データの読み取り元のファイルのパスを含む列を含めるかどうか。 これは、複数のファイルを読み取り、特定のレコードが生成されたファイルを知りたい場合や、ファイル パスに有用な情報を保持する場合に便利です。

partition_format
必須
str

パスでパーティション形式を指定し、形式 '{x:yy/MM/dd/HH/mm/ss}' から形式 '{x:yyyy/MM/dd/HH/mm/ss}' から文字列列を作成します。ここで、'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' は、datetime 型の年、月、日、時、分、秒をエクストラトするために使用されます。 形式は、最初のパーティション キーの位置からファイル パスの末尾まで開始する必要があります。 たとえば、ファイル パス '../Accounts/2019/01/01/data.parquet' では、データが部門名と時刻によってパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' を定義して、文字列型の列 'Department' と datetime 型の 'PartitionDate' を作成できます。

戻り値

説明

データセット オブジェクト。

注釈

Parquet ファイルを読み取る場合は、このメソッドを使用します。

データセットを作成したら、 get_profile を使用して、検出された列の種類と各列の概要統計を一覧表示する必要があります。

返されたデータセットはワークスペースに登録されていません。

from_sql_query

SQL クエリから、未登録のメモリ内データセットを作成します。

このメソッドは非推奨となり、サポートされなくなります。

代わりにDataset.Tabular.from_sql_queryを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

static from_sql_query(data_source, query)

パラメーター

名前 説明
data_source
必須

Azure SQL データストアの詳細。

query
必須
str

データを読み取るために実行するクエリ。

戻り値

説明

ローカル データセット オブジェクト。

generate_profile

データセットの新しいプロファイルを生成します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

generate_profile(compute_target=None, workspace=None, arguments=None)

パラメーター

名前 説明
compute_target
必須

スナップショット プロファイルの作成を実行する省略可能なコンピューティング 先。 省略すると、ローカル コンピューティングが使用されます。

workspace
必須

ワークスペース。一時的な (未登録の) データセットに必要です。

arguments
必須

プロファイル引数。 有効な引数は次のとおりです。

  • ブール型の 'include_stype_counts' です。 電子メール アドレス、IP アドレス (V4/V6)、米国の電話番号、米国の郵便番号、緯度/経度など、既知のセマンティックの種類の値が表示されるかどうかを確認します。 これを有効にすると、パフォーマンスに影響します。

  • int 型の 'number_of_histogram_bins' です。数値データに使用するヒストグラム ビンの数を表します。 既定値は 10 です。

戻り値

説明

データセット アクション実行オブジェクト。

注釈

同期呼び出しは、完了するまでブロックされます。 get_resultを呼び出して、アクションの結果を取得します。

get

ワークスペースに既に存在するデータセットを取得するには、その名前または ID を指定します。

このメソッドは非推奨となり、サポートされなくなります。

代わりに get_by_nameget_by_id を使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

static get(workspace, name=None, id=None)

パラメーター

名前 説明
workspace
必須

データセットが作成された既存の AzureML ワークスペース。

name
必須
str

取得するデータセットの名前。

id
必須
str

ワークスペース内のデータセットの一意識別子。

戻り値

説明

指定した名前または ID を持つデータセット。

注釈

nameまたはidを指定できます。 次の場合は例外が発生します。

  • nameidの両方が指定されていますが、一致しません。

  • 指定した name または id を持つデータセットがワークスペースに見つかりません。

get_all

ワークスペースに登録されているすべてのデータセットを取得します。

get_all()

パラメーター

名前 説明
workspace
必須

データセットが登録された既存の AzureML ワークスペース。

戻り値

説明

登録名でキー指定された TabularDataset オブジェクトと FileDataset オブジェクトのディクショナリ。

get_all_snapshots

データセットのすべてのスナップショットを取得します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

get_all_snapshots()

戻り値

説明

データセット スナップショットの一覧。

get_by_id

ワークスペースに保存されているデータセットを取得します。

get_by_id(id, **kwargs)

パラメーター

名前 説明
workspace
必須

データセットが保存されている既存の AzureML ワークスペース。

id
必須
str

データセットの ID。

戻り値

説明

データセット オブジェクト。 データセットが登録されている場合、その登録名とバージョンも返されます。

get_by_name

登録名でワークスペースから登録済みデータセットを取得します。

get_by_name(name, version='latest', **kwargs)

パラメーター

名前 説明
workspace
必須

データセットが登録された既存の AzureML ワークスペース。

name
必須
str

登録名。

version
必須
int

登録バージョン。 既定値は 'latest' です。

戻り値

説明

登録済みのデータセット オブジェクト。

get_definition

データセットの特定の定義を取得します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

get_definition(version_id=None)

パラメーター

名前 説明
version_id
必須
str

データセット定義のバージョン ID

戻り値

説明

データセットの定義。

注釈

version_idが指定されている場合、Azure Machine Learning はそのバージョンに対応する定義の取得を試みます。 そのバージョンが存在しない場合は、例外がスローされます。 version_idを省略すると、最新バージョンが取得されます。

get_definitions

データセットのすべての定義を取得します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

get_definitions()

戻り値

説明

データセット定義のディクショナリ。

注釈

AzureML ワークスペースに登録されたデータセットには複数の定義を含めることができます。各定義は、 update_definitionを呼び出すことによって作成されます。 各定義には一意の識別子があります。 現在の定義は、作成された最新の定義です。

未登録のデータセットの場合、定義は 1 つだけ存在します。

get_profile

前に計算したデータセットの概要統計を取得します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

パラメーター

名前 説明
arguments
必須

プロファイル引数。

generate_if_not_exist
必須

プロファイルが存在しない場合に生成するかどうかを示します。

workspace
必須

ワークスペース。一時的な (未登録の) データセットに必要です。

compute_target
必須

プロファイル アクションを実行するコンピューティング 先。

戻り値

説明
<xref:azureml.dataprep.DataProfile>

データセットの DataProfile。

注釈

Azure Machine Learning ワークスペースに登録されているデータセットの場合、このメソッドは、まだ有効な場合は get_profile を呼び出すことによって、以前に作成された既存のプロファイルを取得します。 データセットで変更されたデータが検出された場合、または get_profile する引数がプロファイルの生成時に使用されたものと異なる場合、プロファイルは無効になります。 プロファイルが存在しないか無効になっている場合、 generate_if_not_exist は新しいプロファイルが生成されるかどうかを判断します。

Azure Machine Learning ワークスペースに登録されていないデータセットの場合、このメソッドは常に generate_profile 実行され、結果が返されます。

get_snapshot

名前でデータセットのスナップショットを取得します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

get_snapshot(snapshot_name)

パラメーター

名前 説明
snapshot_name
必須
str

スナップショット名。

戻り値

説明

データセット スナップショット オブジェクト。

head

このデータセットから指定された数のレコードをプルし、DataFrame として返します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

head(count)

パラメーター

名前 説明
count
必須
int

プルするレコードの数。

戻り値

説明

Pandas DataFrame。

list

ワークスペース内のすべてのデータセット ( is_visible プロパティが False のデータセットを含む) を一覧表示します。

このメソッドは非推奨となり、サポートされなくなります。

代わりに get_all を使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

static list(workspace)

パラメーター

名前 説明
workspace
必須

データセットの一覧を取得するワークスペース。

戻り値

説明

データセット オブジェクトの一覧。

reactivate

アーカイブされたデータセットまたは非推奨のデータセットを再アクティブ化します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

reactivate()

戻り値

説明

なし。

register

ワークスペースにデータセットを登録し、ワークスペースの他のユーザーが使用できるようにします。

このメソッドは非推奨となり、サポートされなくなります。

代わりに register を使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

パラメーター

名前 説明
workspace
必須

データセットが登録される AzureML ワークスペース。

name
必須
str

ワークスペース内のデータセットの名前。

description
必須
str

データセットの説明。

tags
必須

データセットに関連付けるタグ。

visible
必須

データセットが UI に表示されるかどうかを示します。 False の場合、データセットは UI で非表示になり、SDK 経由で使用できます。

exist_ok
必須

True の場合、指定されたワークスペースに既に存在する場合、このメソッドは Dataset を返します。それ以外の場合はエラーです。

update_if_exist
必須

exist_okが True で、update_if_existが True の場合、このメソッドは定義を更新し、更新されたデータセットを返します。

戻り値

説明

ワークスペースに登録されている Dataset オブジェクト。

sample

指定されたサンプリング戦略とパラメーターを使用して、ソース データセットから新しいサンプルを生成します。

このメソッドは非推奨となり、サポートされなくなります。

Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで take_sample メソッドを使用します。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

sample(sample_strategy, arguments)

パラメーター

名前 説明
sample_strategy
必須
str

使用するサンプル戦略。 指定できる値は、"top_n"、"simple_random"、または "階層化" です。

arguments
必須

上記のリストの "省略可能な引数" のキーと、tye "Type" 列の値を含むディクショナリ。 対応するサンプリング メソッドの引数のみを使用できます。 たとえば、"simple_random" サンプル型の場合、"確率" キーと "シード" キーを持つディクショナリのみを指定できます。

戻り値

説明

元のデータセットのサンプルとしてのデータセット オブジェクト。

注釈

サンプルは、このデータセットによって定義された変換パイプラインを実行し、サンプリング戦略とパラメーターを出力データに適用することによって生成されます。 各サンプリング メソッドでは、次の省略可能な引数がサポートされています。

  • top_n

    • 省略可能な引数。

      • n、整数型。 サンプルとして上位 N 行を選択します。
  • simple_random

    • 省略可能な引数。

      • 確率を float と入力します。 各行が選択される確率が等しい単純なランダム サンプリング。 確率は 0 ~ 1 の数値にする必要があります。

      • seed、float と入力します。 乱数ジェネレーターによって使用されます。 再現性を高める場合に使用します。

  • 成層

    • 省略可能な引数。

      • columns, list[str]. と入力します。 データ内の strata 列の一覧。

      • seed、float と入力します。 乱数ジェネレーターによって使用されます。 再現性を高める場合に使用します。

      • fractions,type dict[tuple, float]. タプル: 階層を定義する列値は、列名と同じ順序にする必要があります。 Float: サンプリング中に階層にアタッチされる重み。

次のコード スニペットは、さまざまなサンプル メソッドの設計パターンの例です。


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

このデータセット定義で定義された変換パイプラインを実行して、Pandas データフレームを作成します。

このメソッドは非推奨となり、サポートされなくなります。

Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで to_pandas_dataframe メソッドを使用します。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

to_pandas_dataframe()

戻り値

説明

Pandas DataFrame。

注釈

メモリ内で完全に具体化された Pandas DataFrame を返します。

to_spark_dataframe

このデータセット定義で定義された変換パイプラインを実行できる Spark DataFrame を作成します。

このメソッドは非推奨となり、サポートされなくなります。

Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで to_spark_dataframe メソッドを使用します。 詳細については、https://aka.ms/dataset-deprecationを参照してください。

to_spark_dataframe()

戻り値

説明

Spark DataFrame。

注釈

返される Spark データフレームは実行プランに過ぎず、Spark データフレームは遅延評価されるため、実際にはデータは含まれません。

update

ワークスペース内のデータセット変更可能な属性を更新し、ワークスペースから更新されたデータセットを返します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

update(name=None, description=None, tags=None, visible=None)

パラメーター

名前 説明
name
必須
str

ワークスペース内のデータセットの名前。

description
必須
str

データの説明。

tags
必須

データセットを関連付けるタグ。

visible
必須

データセットが UI に表示されるかどうかを示します。

戻り値

説明

ワークスペースから更新された Dataset オブジェクト。

update_definition

データセット定義を更新します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

update_definition(definition, definition_update_message)

パラメーター

名前 説明
definition
必須

このデータセットの新しい定義。

definition_update_message
必須
str

定義の更新メッセージ。

戻り値

説明

ワークスペースから更新された Dataset オブジェクト。

注釈

更新されたデータセットを使用するには、このメソッドによって返されるオブジェクトを使用します。

属性

definition

現在のデータセット定義を返します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

戻り値

説明

データセットの定義。

注釈

データセット定義は、データの読み取りと変換の方法を指定する一連の手順です。

AzureML ワークスペースに登録されたデータセットには複数の定義を含めることができます。各定義は、 update_definitionを呼び出すことによって作成されます。 各定義には一意の識別子があります。 複数の定義を使用すると、以前の定義に依存するモデルやパイプラインを中断することなく、既存のデータセットを変更できます。

未登録のデータセットの場合、定義は 1 つだけ存在します。

definition_version

データセットの現在の定義のバージョンを返します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

戻り値

説明
str

データセット定義のバージョン。

注釈

データセット定義は、データの読み取りと変換の方法を指定する一連の手順です。

AzureML ワークスペースに登録されたデータセットには複数の定義を含めることができます。各定義は、 update_definitionを呼び出すことによって作成されます。 各定義には一意の識別子があります。 現在の定義は、作成された最新の定義であり、その ID はこれで返されます。

未登録のデータセットの場合、定義は 1 つだけ存在します。

description

データセットの説明を返します。

戻り値

説明
str

データセットの説明。

注釈

データセット内のデータの説明を指定すると、ワークスペースのユーザーは、データが何を表し、どのように使用できるかを理解できます。

id

データセットがワークスペースに登録されている場合は、データセットの ID を返します。 それ以外の場合は、None を返します。

戻り値

説明
str

データセット ID。

is_visible

Azure ML ワークスペース UI で登録済みのデータセットの可視性を制御します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

戻り値

説明

データセットの可視性。

注釈

返される値:

  • True: データセットはワークスペース UI に表示されます。 既定値。

  • False: ワークスペース UI ではデータセットが非表示になります。

未登録のデータセットには影響しません。

name

データセット名を返します。

戻り値

説明
str

データセット名。

state

データセットの状態を返します。

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

戻り値

説明
str

データセットの状態。

注釈

状態の意味と効果は次のとおりです。

  • アクティブ。 アクティブな定義は、まったく同じように聞こえるもので、すべてのアクションをアクティブな定義に対して実行できます。

  • 非推奨になりました。 非推奨の定義は使用できますが、基になるデータにアクセスするたびに警告がログに記録されます。

  • アーカイブ。 アーカイブされた定義を使用してアクションを実行することはできません。 アーカイブされた定義に対してアクションを実行するには、再アクティブ化する必要があります。

tags

データセットに関連付けられているタグを返します。

戻り値

説明

データセット タグ。

workspace

データセットがワークスペースに登録されている場合は、そのデータセットを返します。 それ以外の場合は、None を返します。

戻り値

説明

ワークスペース。

Tabular

作成用ファクトリ FileDataset

のエイリアス TabularDatasetFactory