Dataset クラス
Azure Machine Learning でデータを探索、変換、および管理するためのリソースを表します。
データセットは、 Datastore またはパブリック Web URL の背後にあるデータへの参照です。
このクラスで非推奨となったメソッドについては、改善された API AbstractDataset クラスを確認してください。
次のデータセットの種類がサポートされています。
TabularDataset は、指定されたファイルまたはファイルの一覧を解析して作成された表形式のデータを表します。
FileDataset データストア内の単一または複数のファイル、またはパブリック URL から参照します。
データセットの使用を開始するには、「 データセットの追加と登録」の記事を参照するか、ノートブックの https://aka.ms/tabulardataset-samplenotebook と https://aka.ms/filedataset-samplenotebookを参照してください。
Dataset オブジェクトを初期化します。
ワークスペースに既に登録されているデータセットを取得するには、get メソッドを使用します。
コンストラクター
Dataset(definition, workspace=None, name=None, id=None)
パラメーター
名前 | 説明 |
---|---|
definition
必須
|
<xref:azureml.data.DatasetDefinition>
データセットの定義。 |
workspace
必須
|
データセットが存在するワークスペース。 |
name
必須
|
データセットの名前。 |
id
必須
|
データセットの一意識別子。 |
注釈
Dataset クラスには、対応するファクトリ メソッドを操作せずにデータセットを作成するために使用できる便利な 2 つのクラス属性 (File
と Tabular
) が公開されています。 たとえば、次の属性を使用してデータセットを作成するには、次のようにします。
Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()
TabularDatasetFactoryおよびFileDatasetFactoryで定義されているクラスの対応するファクトリ メソッドを直接呼び出すことによって、新しい TabularDataset または FileDataset を作成することもできます。
次の例は、データストア内の 1 つのパスを指す TabularDataset を作成する方法を示しています。
from azureml.core import Dataset
dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])
# preview the first 3 rows of the dataset
dataset.take(3).to_pandas_dataframe()
完全なサンプルは次から入手できます https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb
変数
名前 | 説明 |
---|---|
azureml.core.Dataset.File
|
新しい FileDataset オブジェクトを作成するための FileDatasetFactory メソッドへのアクセスを提供するクラス属性。 使用法: Dataset.File.from_files()。 |
azureml.core.Dataset.Tabular
|
新しい TabularDataset オブジェクトを作成するための TabularDatasetFactory メソッドへのアクセスを提供するクラス属性。 使用法: Dataset.Tabular.from_delimited_files()。 |
メソッド
archive |
アクティブまたは非推奨のデータセットをアーカイブします。 |
auto_read_files |
指定したパスにあるファイルを分析し、新しいデータセットを返します。 注 このメソッドは非推奨となり、サポートされなくなります。 Dataset.Tabular.from_* メソッドを使用してファイルを読み取うことをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。 |
compare_profiles |
現在のデータセットのプロファイルを別のデータセット プロファイルと比較します。 これは、2 つのデータセット間の概要統計の違いを示しています。 パラメーター 'rhs_dataset' は "右側" を表し、単に 2 番目のデータセットです。 最初のデータセット (現在のデータセット オブジェクト) は、"左側" と見なされます。 |
create_snapshot |
登録済みのデータセットのスナップショットを作成します。 |
delete_snapshot |
名前でデータセットのスナップショットを削除します。 |
deprecate |
別のデータセットによってワークスペース内のアクティブなデータセットを非推奨にします。 |
diff |
現在のデータセットとrhs_datasetを比較します。 |
from_binary_files |
バイナリ ファイルから未登録のメモリ内データセットを作成します。 注 このメソッドは非推奨となり、サポートされなくなります。 代わりにDataset.File.from_filesを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。 |
from_delimited_files |
区切りファイルから、未登録のメモリ内データセットを作成します。 注 このメソッドは非推奨となり、サポートされなくなります。 代わりにDataset.Tabular.from_delimited_filesを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。
|
from_excel_files |
Excel ファイルから、未登録のメモリ内データセットを作成します。 |
from_json_files |
JSON ファイルから未登録のメモリ内データセットを作成します。 注 このメソッドは非推奨となり、サポートされなくなります。 JSON 行ファイルから読み取る代わりに、Dataset.Tabular.from_json_lines_filesを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。 |
from_pandas_dataframe |
pandas データフレームから、未登録のメモリ内データセットを作成します。 注 このメソッドは非推奨となり、サポートされなくなります。 代わりにDataset.Tabular.register_pandas_dataframeを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。 |
from_parquet_files |
Parquet ファイルから、未登録のメモリ内データセットを作成します。 注 このメソッドは非推奨となり、サポートされなくなります。 代わりにDataset.Tabular.from_parquet_filesを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。 |
from_sql_query |
SQL クエリから、未登録のメモリ内データセットを作成します。 注 このメソッドは非推奨となり、サポートされなくなります。 代わりにDataset.Tabular.from_sql_queryを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。 |
generate_profile |
データセットの新しいプロファイルを生成します。 |
get |
ワークスペースに既に存在するデータセットを取得するには、その名前または ID を指定します。 注 このメソッドは非推奨となり、サポートされなくなります。 代わりに get_by_name と get_by_id を使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。 |
get_all |
ワークスペースに登録されているすべてのデータセットを取得します。 |
get_all_snapshots |
データセットのすべてのスナップショットを取得します。 |
get_by_id |
ワークスペースに保存されているデータセットを取得します。 |
get_by_name |
登録名でワークスペースから登録済みデータセットを取得します。 |
get_definition |
データセットの特定の定義を取得します。 |
get_definitions |
データセットのすべての定義を取得します。 |
get_profile |
前に計算したデータセットの概要統計を取得します。 |
get_snapshot |
名前でデータセットのスナップショットを取得します。 |
head |
このデータセットから指定された数のレコードをプルし、DataFrame として返します。 |
list |
ワークスペース内のすべてのデータセット ( 注 このメソッドは非推奨となり、サポートされなくなります。 代わりに get_all を使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。 |
reactivate |
アーカイブされたデータセットまたは非推奨のデータセットを再アクティブ化します。 |
register |
ワークスペースにデータセットを登録し、ワークスペースの他のユーザーが使用できるようにします。 注 このメソッドは非推奨となり、サポートされなくなります。 代わりに register を使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。 |
sample |
指定されたサンプリング戦略とパラメーターを使用して、ソース データセットから新しいサンプルを生成します。 注 このメソッドは非推奨となり、サポートされなくなります。 Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで take_sample メソッドを使用します。 詳細については、https://aka.ms/dataset-deprecationを参照してください。 |
to_pandas_dataframe |
このデータセット定義で定義された変換パイプラインを実行して、Pandas データフレームを作成します。 注 このメソッドは非推奨となり、サポートされなくなります。 Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで to_pandas_dataframe メソッドを使用します。 詳細については、https://aka.ms/dataset-deprecationを参照してください。 |
to_spark_dataframe |
このデータセット定義で定義された変換パイプラインを実行できる Spark DataFrame を作成します。 注 このメソッドは非推奨となり、サポートされなくなります。 Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで to_spark_dataframe メソッドを使用します。 詳細については、https://aka.ms/dataset-deprecationを参照してください。 |
update |
ワークスペース内のデータセット変更可能な属性を更新し、ワークスペースから更新されたデータセットを返します。 |
update_definition |
データセット定義を更新します。 |
archive
アクティブまたは非推奨のデータセットをアーカイブします。
archive()
戻り値
型 | 説明 |
---|---|
なし。 |
注釈
アーカイブ後、データセットを使用しようとするとエラーが発生します。 誤ってアーカイブされた場合は、再アクティブ化によってアクティブ化されます。
auto_read_files
指定したパスにあるファイルを分析し、新しいデータセットを返します。
注
このメソッドは非推奨となり、サポートされなくなります。
Dataset.Tabular.from_* メソッドを使用してファイルを読み取うことをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。
static auto_read_files(path, include_path=False, partition_format=None)
パラメーター
名前 | 説明 |
---|---|
path
必須
|
DataReference または
str
登録済みのデータストア内のデータ パス、ローカル パス、または HTTP URL (CSV/TSV)。 |
include_path
必須
|
データの読み取り元のファイルのパスを含む列を含めるかどうか。 複数のファイルを読み取り、特定のレコードが生成されたファイルを知りたい場合に便利です。 また、ファイル パスまたは列に必要な名前に情報がある場合にも便利です。 |
partition_format
必須
|
パスでパーティション形式を指定し、形式 '{x:yy/MM/dd/HH/mm/ss}' から形式 '{x:yyyy/MM/dd/HH/mm/ss}' から文字列列を作成します。ここで、'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' は、datetime 型の年、月、日、時、分、秒をエクストラトするために使用されます。 形式は、最初のパーティション キーの位置からファイル パスの末尾まで開始する必要があります。 たとえば、ファイル パス '../Accounts/2019/01/01/data.csv' では、データが部門名と時刻によってパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' を定義して、文字列型の列 'Department' と datetime 型の 'PartitionDate' を作成できます。 |
戻り値
型 | 説明 |
---|---|
データセット オブジェクト。 |
注釈
ファイル形式と区切り記号を自動的に検出する場合は、このメソッドを使用します。
データセットを作成したら、 get_profile を使用して、検出された列の種類と各列の概要統計を一覧表示する必要があります。
返されたデータセットはワークスペースに登録されていません。
compare_profiles
現在のデータセットのプロファイルを別のデータセット プロファイルと比較します。
これは、2 つのデータセット間の概要統計の違いを示しています。 パラメーター 'rhs_dataset' は "右側" を表し、単に 2 番目のデータセットです。 最初のデータセット (現在のデータセット オブジェクト) は、"左側" と見なされます。
compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
パラメーター
名前 | 説明 |
---|---|
rhs_dataset
必須
|
2 つ目のデータセット。比較のための "右側" データセットとも呼ばれます。 |
profile_arguments
必須
|
特定のプロファイルを再取得する引数。 |
include_columns
必須
|
比較に含める列名の一覧。 |
exclude_columns
必須
|
比較で除外する列名の一覧。 |
histogram_compare_method
必須
|
比較方法を記述する列挙型 (例: Wasserstein または Energy) |
戻り値
型 | 説明 |
---|---|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
2 つのデータセット プロファイルの違い。 |
注釈
これは、登録済みのデータセット専用です。 現在のデータセットのプロファイルが存在しない場合は、例外を発生させます。 登録されていないデータセットの場合は、profile.compare メソッドを使用します。
create_snapshot
登録済みのデータセットのスナップショットを作成します。
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
パラメーター
名前 | 説明 |
---|---|
snapshot_name
必須
|
スナップショット名。 スナップショット名は、データセット内で一意である必要があります。 |
compute_target
必須
|
スナップショット プロファイルの作成を実行する省略可能なコンピューティング 先。 省略すると、ローカル コンピューティングが使用されます。 |
create_data_snapshot
必須
|
True の場合、データの具体化されたコピーが作成されます。 |
target_datastore
必須
|
スナップショットを保存するターゲット データストア。 省略すると、ワークスペースの既定のストレージにスナップショットが作成されます。 |
戻り値
型 | 説明 |
---|---|
データセット スナップショット オブジェクト。 |
注釈
スナップショットは、基になるデータのポイントインタイム サマリー統計と、データ自体のオプションのコピーをキャプチャします。 スナップショットの作成の詳細については、「 https://aka.ms/azureml/howto/createsnapshots」を参照してください。
delete_snapshot
名前でデータセットのスナップショットを削除します。
delete_snapshot(snapshot_name)
パラメーター
名前 | 説明 |
---|---|
snapshot_name
必須
|
スナップショット名。 |
戻り値
型 | 説明 |
---|---|
なし。 |
注釈
これを使用して、不要になったスナップショットに保存されたデータによって消費されるストレージを解放します。
deprecate
別のデータセットによってワークスペース内のアクティブなデータセットを非推奨にします。
deprecate(deprecate_by_dataset_id)
パラメーター
名前 | 説明 |
---|---|
deprecate_by_dataset_id
必須
|
このデータセットの代わりに使用するデータセット ID。 |
戻り値
型 | 説明 |
---|---|
なし。 |
注釈
非推奨のデータセットでは、警告が使用されるとログに記録されます。 データセットを非推奨にすると、そのすべての定義が非推奨になります。
非推奨のデータセットは引き続き使用できます。 データセットの使用を完全にブロックするには、それをアーカイブします。
誤って非推奨になった場合は、再アクティブ化によってアクティブ化されます。
diff
現在のデータセットとrhs_datasetを比較します。
diff(rhs_dataset, compute_target=None, columns=None)
パラメーター
名前 | 説明 |
---|---|
rhs_dataset
必須
|
比較のために右側のデータセットとも呼ばれる別のデータセット |
compute_target
必須
|
計算ターゲットを使用して差分を実行します。 省略すると、ローカル コンピューティングが使用されます。 |
columns
必須
|
diff に含める列名の一覧。 |
戻り値
型 | 説明 |
---|---|
データセット アクション実行オブジェクト。 |
from_binary_files
バイナリ ファイルから未登録のメモリ内データセットを作成します。
注
このメソッドは非推奨となり、サポートされなくなります。
代わりにDataset.File.from_filesを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。
static from_binary_files(path)
パラメーター
名前 | 説明 |
---|---|
path
必須
|
DataReference または
str
登録済みのデータストアまたはローカル パス内のデータ パス。 |
戻り値
型 | 説明 |
---|---|
Dataset オブジェクト。 |
注釈
バイナリ データのストリームとしてファイルを読み取る場合は、このメソッドを使用します。 読み取られたファイルごとに 1 つのファイル ストリーム オブジェクトを返します。 画像、ビデオ、オーディオ、またはその他のバイナリ データを読み取る場合は、このメソッドを使用します。
get_profile と create_snapshot は、このメソッドによって作成されたデータセットに対して想定どおりに機能しません。
返されたデータセットはワークスペースに登録されていません。
from_delimited_files
区切りファイルから、未登録のメモリ内データセットを作成します。
注
このメソッドは非推奨となり、サポートされなくなります。
代わりにDataset.Tabular.from_delimited_filesを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。
# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
header='ALL_FILES_HAVE_SAME_HEADERS')
df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)
パラメーター
名前 | 説明 |
---|---|
path
必須
|
DataReference または
str
登録済みのデータストア内のデータ パス、ローカル パス、または HTTP URL。 |
separator
必須
|
列を分割するために使用される区切り記号。 |
header
必須
|
ファイルから読み取るときに列ヘッダーを昇格させる方法を制御します。 |
encoding
必須
|
読み取られるファイルのエンコード。 |
quoting
必須
|
引用符内の改行文字を処理する方法を指定します。 既定値 (False) は、改行文字が引用符内にあるかどうかに関係なく、改行文字を新しい行の開始と解釈することです。 True に設定すると、引用符内の改行文字は新しい行にならず、ファイルの読み取り速度が低下します。 |
infer_column_types
必須
|
列データ型が推論されるかどうかを示します。 |
skip_rows
必須
|
読み取るファイルでスキップする行の数。 |
skip_mode
必須
|
ファイルから読み取るときに行をスキップする方法を制御します。 |
comment
必須
|
読み取るファイル内のコメント行を示すために使用される文字。 この文字列で始まる行はスキップされます。 |
include_path
必須
|
データの読み取り元のファイルのパスを含む列を含めるかどうか。 これは、複数のファイルを読み取り、特定のレコードが生成されたファイルを知りたい場合や、ファイル パスに有用な情報を保持する場合に便利です。 |
archive_options
必須
|
<xref:azureml.dataprep.ArchiveOptions>
アーカイブの種類やエントリ glob パターンなど、アーカイブ ファイルのオプション。 現時点では、アーカイブの種類として ZIP のみがサポートされています。 たとえば、次のように指定します。
は、名前が "10-20.csv" で終わるすべてのファイルを ZIP で読み取ります。 |
partition_format
必須
|
パスでパーティション形式を指定し、形式 '{x:yy/MM/dd/HH/mm/ss}' から形式 '{x:yyyy/MM/dd/HH/mm/ss}' から文字列列を作成します。ここで、'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' は、datetime 型の年、月、日、時、分、秒をエクストラトするために使用されます。 形式は、最初のパーティション キーの位置からファイル パスの末尾まで開始する必要があります。 たとえば、ファイル パス '../Accounts/2019/01/01/data.csv' では、データが部門名と時刻によってパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' を定義して、文字列型の列 'Department' と datetime 型の 'PartitionDate' を作成できます。 |
戻り値
型 | 説明 |
---|---|
データセット オブジェクト。 |
注釈
使用するオプションを制御する場合は、このメソッドを使用して区切りテキスト ファイルを読み取る必要があります。
データセットを作成したら、 get_profile を使用して、検出された列の種類と各列の概要統計を一覧表示する必要があります。
返されたデータセットはワークスペースに登録されていません。
from_excel_files
Excel ファイルから、未登録のメモリ内データセットを作成します。
static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)
パラメーター
名前 | 説明 |
---|---|
path
必須
|
DataReference または
str
登録済みのデータストアまたはローカル パス内のデータ パス。 |
sheet_name
必須
|
読み込む Excel シートの名前。 既定では、各 Excel ファイルから最初のシートが読み取られます。 |
use_column_headers
必須
|
最初の行を列ヘッダーとして使用するかどうかを制御します。 |
skip_rows
必須
|
読み取るファイルでスキップする行の数。 |
include_path
必須
|
データの読み取り元のファイルのパスを含む列を含めるかどうか。 これは、複数のファイルを読み取り、特定のレコードが生成されたファイルを知りたい場合や、ファイル パスに有用な情報を保持する場合に便利です。 |
infer_column_types
必須
|
true の場合、列データ型が推論されます。 |
partition_format
必須
|
パスでパーティション形式を指定し、形式 '{x:yy/MM/dd/HH/mm/ss}' から形式 '{x:yyyy/MM/dd/HH/mm/ss}' から文字列列を作成します。ここで、'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' は、datetime 型の年、月、日、時、分、秒をエクストラトするために使用されます。 形式は、最初のパーティション キーの位置からファイル パスの末尾まで開始する必要があります。 たとえば、ファイル パス '../Accounts/2019/01/01/data.xlsx' では、データが部門名と時刻によってパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx' を定義して、文字列型の列 'Department' と datetime 型の 'PartitionDate' を作成できます。 |
戻り値
型 | 説明 |
---|---|
データセット オブジェクト。 |
注釈
このメソッドを使用して、Excel ファイルを .xlsx 形式で読み取ります。 各 Excel ファイルの 1 つのシートからデータを読み取ることができます。 データセットを作成したら、 get_profile を使用して、検出された列の種類と各列の概要統計を一覧表示する必要があります。 返されたデータセットはワークスペースに登録されていません。
from_json_files
JSON ファイルから未登録のメモリ内データセットを作成します。
注
このメソッドは非推奨となり、サポートされなくなります。
JSON 行ファイルから読み取る代わりに、Dataset.Tabular.from_json_lines_filesを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。
static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)
パラメーター
名前 | 説明 |
---|---|
path
必須
|
DataReference または
str
読み込んで解析するファイルまたはフォルダーへのパス。 ローカル パスまたは Azure BLOB URL を指定できます。 Globbing がサポートされています。 たとえば、path = "./data*" を使用して、名前が "data" で始まるすべてのファイルを読み取ることができます。 |
encoding
必須
|
読み取られるファイルのエンコード。 |
flatten_nested_arrays
必須
|
入れ子になった配列のプログラムの処理を制御するプロパティ。 入れ子になった JSON 配列をフラット化することを選択すると、行数が大幅に増える可能性があります。 |
include_path
必須
|
データの読み取り元のパスを含む列を含めるかどうか。 これは、複数のファイルを読み取り、特定のレコードが生成されたファイルを知りたい場合や、ファイル パスに有用な情報を保持したい場合に便利です。 |
partition_format
必須
|
パスでパーティション形式を指定し、形式 '{x:yy/MM/dd/HH/mm/ss}' から形式 '{x:yyyy/MM/dd/HH/mm/ss}' から文字列列を作成します。ここで、'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' は、datetime 型の年、月、日、時、分、秒をエクストラトするために使用されます。 形式は、最初のパーティション キーの位置からファイル パスの末尾まで開始する必要があります。 たとえば、ファイル パス '../Accounts/2019/01/01/data.json' とデータは部門名と時刻でパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.json' を定義して、文字列型の 'Department' 列と datetime 型の 'PartitionDate' 列を作成できます。 |
戻り値
型 | 説明 |
---|---|
ローカル データセット オブジェクト。 |
from_pandas_dataframe
pandas データフレームから、未登録のメモリ内データセットを作成します。
注
このメソッドは非推奨となり、サポートされなくなります。
代わりにDataset.Tabular.register_pandas_dataframeを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。
static from_pandas_dataframe(dataframe, path=None, in_memory=False)
パラメーター
名前 | 説明 |
---|---|
dataframe
必須
|
Pandas DataFrame。 |
path
必須
|
登録済みのデータストアまたはローカル フォルダー パス内のデータ パス。 |
in_memory
必須
|
ディスクに永続化するのではなく、メモリから DataFrame を読み取るかどうか。 |
戻り値
型 | 説明 |
---|---|
データセット オブジェクト。 |
注釈
Pandas データフレームを Dataset オブジェクトに変換するには、このメソッドを使用します。 データはメモリからのデータであるため、このメソッドによって作成されたデータセットを登録できません。
in_memory
が False の場合、Pandas DataFrame はローカルで CSV ファイルに変換されます。
pat
が DataReference 型の場合、Pandas フレームはデータ ストアにアップロードされ、データセットは DataReference に基づいて作成されます。 ''path' がローカル フォルダーの場合、削除できないローカル ファイルからデータセットが作成されます。
現在の DataReference がフォルダー パスでない場合は例外を発生させます。
from_parquet_files
Parquet ファイルから、未登録のメモリ内データセットを作成します。
注
このメソッドは非推奨となり、サポートされなくなります。
代わりにDataset.Tabular.from_parquet_filesを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。
static from_parquet_files(path, include_path=False, partition_format=None)
パラメーター
名前 | 説明 |
---|---|
path
必須
|
DataReference または
str
登録済みのデータストアまたはローカル パス内のデータ パス。 |
include_path
必須
|
データの読み取り元のファイルのパスを含む列を含めるかどうか。 これは、複数のファイルを読み取り、特定のレコードが生成されたファイルを知りたい場合や、ファイル パスに有用な情報を保持する場合に便利です。 |
partition_format
必須
|
パスでパーティション形式を指定し、形式 '{x:yy/MM/dd/HH/mm/ss}' から形式 '{x:yyyy/MM/dd/HH/mm/ss}' から文字列列を作成します。ここで、'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' は、datetime 型の年、月、日、時、分、秒をエクストラトするために使用されます。 形式は、最初のパーティション キーの位置からファイル パスの末尾まで開始する必要があります。 たとえば、ファイル パス '../Accounts/2019/01/01/data.parquet' では、データが部門名と時刻によってパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' を定義して、文字列型の列 'Department' と datetime 型の 'PartitionDate' を作成できます。 |
戻り値
型 | 説明 |
---|---|
データセット オブジェクト。 |
注釈
Parquet ファイルを読み取る場合は、このメソッドを使用します。
データセットを作成したら、 get_profile を使用して、検出された列の種類と各列の概要統計を一覧表示する必要があります。
返されたデータセットはワークスペースに登録されていません。
from_sql_query
SQL クエリから、未登録のメモリ内データセットを作成します。
注
このメソッドは非推奨となり、サポートされなくなります。
代わりにDataset.Tabular.from_sql_queryを使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。
static from_sql_query(data_source, query)
パラメーター
名前 | 説明 |
---|---|
data_source
必須
|
Azure SQL データストアの詳細。 |
query
必須
|
データを読み取るために実行するクエリ。 |
戻り値
型 | 説明 |
---|---|
ローカル データセット オブジェクト。 |
generate_profile
データセットの新しいプロファイルを生成します。
generate_profile(compute_target=None, workspace=None, arguments=None)
パラメーター
名前 | 説明 |
---|---|
compute_target
必須
|
スナップショット プロファイルの作成を実行する省略可能なコンピューティング 先。 省略すると、ローカル コンピューティングが使用されます。 |
workspace
必須
|
ワークスペース。一時的な (未登録の) データセットに必要です。 |
arguments
必須
|
プロファイル引数。 有効な引数は次のとおりです。
|
戻り値
型 | 説明 |
---|---|
データセット アクション実行オブジェクト。 |
注釈
同期呼び出しは、完了するまでブロックされます。 get_resultを呼び出して、アクションの結果を取得します。
get
ワークスペースに既に存在するデータセットを取得するには、その名前または ID を指定します。
注
このメソッドは非推奨となり、サポートされなくなります。
代わりに get_by_name と get_by_id を使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。
static get(workspace, name=None, id=None)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
データセットが作成された既存の AzureML ワークスペース。 |
name
必須
|
取得するデータセットの名前。 |
id
必須
|
ワークスペース内のデータセットの一意識別子。 |
戻り値
型 | 説明 |
---|---|
指定した名前または ID を持つデータセット。 |
注釈
name
またはid
を指定できます。 次の場合は例外が発生します。
name
とid
の両方が指定されていますが、一致しません。指定した
name
またはid
を持つデータセットがワークスペースに見つかりません。
get_all
ワークスペースに登録されているすべてのデータセットを取得します。
get_all()
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
データセットが登録された既存の AzureML ワークスペース。 |
戻り値
型 | 説明 |
---|---|
登録名でキー指定された TabularDataset オブジェクトと FileDataset オブジェクトのディクショナリ。 |
get_all_snapshots
データセットのすべてのスナップショットを取得します。
get_all_snapshots()
戻り値
型 | 説明 |
---|---|
データセット スナップショットの一覧。 |
get_by_id
ワークスペースに保存されているデータセットを取得します。
get_by_id(id, **kwargs)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
データセットが保存されている既存の AzureML ワークスペース。 |
id
必須
|
データセットの ID。 |
戻り値
型 | 説明 |
---|---|
データセット オブジェクト。 データセットが登録されている場合、その登録名とバージョンも返されます。 |
get_by_name
登録名でワークスペースから登録済みデータセットを取得します。
get_by_name(name, version='latest', **kwargs)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
データセットが登録された既存の AzureML ワークスペース。 |
name
必須
|
登録名。 |
version
必須
|
登録バージョン。 既定値は 'latest' です。 |
戻り値
型 | 説明 |
---|---|
登録済みのデータセット オブジェクト。 |
get_definition
データセットの特定の定義を取得します。
get_definition(version_id=None)
パラメーター
名前 | 説明 |
---|---|
version_id
必須
|
データセット定義のバージョン ID |
戻り値
型 | 説明 |
---|---|
データセットの定義。 |
注釈
version_id
が指定されている場合、Azure Machine Learning はそのバージョンに対応する定義の取得を試みます。 そのバージョンが存在しない場合は、例外がスローされます。
version_id
を省略すると、最新バージョンが取得されます。
get_definitions
データセットのすべての定義を取得します。
get_definitions()
戻り値
型 | 説明 |
---|---|
データセット定義のディクショナリ。 |
注釈
AzureML ワークスペースに登録されたデータセットには複数の定義を含めることができます。各定義は、 update_definitionを呼び出すことによって作成されます。 各定義には一意の識別子があります。 現在の定義は、作成された最新の定義です。
未登録のデータセットの場合、定義は 1 つだけ存在します。
get_profile
前に計算したデータセットの概要統計を取得します。
get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)
パラメーター
名前 | 説明 |
---|---|
arguments
必須
|
プロファイル引数。 |
generate_if_not_exist
必須
|
プロファイルが存在しない場合に生成するかどうかを示します。 |
workspace
必須
|
ワークスペース。一時的な (未登録の) データセットに必要です。 |
compute_target
必須
|
プロファイル アクションを実行するコンピューティング 先。 |
戻り値
型 | 説明 |
---|---|
<xref:azureml.dataprep.DataProfile>
|
データセットの DataProfile。 |
注釈
Azure Machine Learning ワークスペースに登録されているデータセットの場合、このメソッドは、まだ有効な場合は get_profile
を呼び出すことによって、以前に作成された既存のプロファイルを取得します。 データセットで変更されたデータが検出された場合、または get_profile
する引数がプロファイルの生成時に使用されたものと異なる場合、プロファイルは無効になります。 プロファイルが存在しないか無効になっている場合、 generate_if_not_exist
は新しいプロファイルが生成されるかどうかを判断します。
Azure Machine Learning ワークスペースに登録されていないデータセットの場合、このメソッドは常に generate_profile 実行され、結果が返されます。
get_snapshot
名前でデータセットのスナップショットを取得します。
get_snapshot(snapshot_name)
パラメーター
名前 | 説明 |
---|---|
snapshot_name
必須
|
スナップショット名。 |
戻り値
型 | 説明 |
---|---|
データセット スナップショット オブジェクト。 |
head
このデータセットから指定された数のレコードをプルし、DataFrame として返します。
head(count)
パラメーター
名前 | 説明 |
---|---|
count
必須
|
プルするレコードの数。 |
戻り値
型 | 説明 |
---|---|
Pandas DataFrame。 |
list
ワークスペース内のすべてのデータセット ( is_visible
プロパティが False のデータセットを含む) を一覧表示します。
注
このメソッドは非推奨となり、サポートされなくなります。
代わりに get_all を使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。
static list(workspace)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
データセットの一覧を取得するワークスペース。 |
戻り値
型 | 説明 |
---|---|
データセット オブジェクトの一覧。 |
reactivate
アーカイブされたデータセットまたは非推奨のデータセットを再アクティブ化します。
reactivate()
戻り値
型 | 説明 |
---|---|
なし。 |
register
ワークスペースにデータセットを登録し、ワークスペースの他のユーザーが使用できるようにします。
注
このメソッドは非推奨となり、サポートされなくなります。
代わりに register を使用することをお勧めします。 詳細については、https://aka.ms/dataset-deprecationを参照してください。
register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)
パラメーター
名前 | 説明 |
---|---|
workspace
必須
|
データセットが登録される AzureML ワークスペース。 |
name
必須
|
ワークスペース内のデータセットの名前。 |
description
必須
|
データセットの説明。 |
tags
必須
|
データセットに関連付けるタグ。 |
visible
必須
|
データセットが UI に表示されるかどうかを示します。 False の場合、データセットは UI で非表示になり、SDK 経由で使用できます。 |
exist_ok
必須
|
True の場合、指定されたワークスペースに既に存在する場合、このメソッドは Dataset を返します。それ以外の場合はエラーです。 |
update_if_exist
必須
|
|
戻り値
型 | 説明 |
---|---|
ワークスペースに登録されている Dataset オブジェクト。 |
sample
指定されたサンプリング戦略とパラメーターを使用して、ソース データセットから新しいサンプルを生成します。
注
このメソッドは非推奨となり、サポートされなくなります。
Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで take_sample メソッドを使用します。 詳細については、https://aka.ms/dataset-deprecationを参照してください。
sample(sample_strategy, arguments)
パラメーター
名前 | 説明 |
---|---|
sample_strategy
必須
|
使用するサンプル戦略。 指定できる値は、"top_n"、"simple_random"、または "階層化" です。 |
arguments
必須
|
上記のリストの "省略可能な引数" のキーと、tye "Type" 列の値を含むディクショナリ。 対応するサンプリング メソッドの引数のみを使用できます。 たとえば、"simple_random" サンプル型の場合、"確率" キーと "シード" キーを持つディクショナリのみを指定できます。 |
戻り値
型 | 説明 |
---|---|
元のデータセットのサンプルとしてのデータセット オブジェクト。 |
注釈
サンプルは、このデータセットによって定義された変換パイプラインを実行し、サンプリング戦略とパラメーターを出力データに適用することによって生成されます。 各サンプリング メソッドでは、次の省略可能な引数がサポートされています。
top_n
省略可能な引数。
- n、整数型。 サンプルとして上位 N 行を選択します。
simple_random
省略可能な引数。
確率を float と入力します。 各行が選択される確率が等しい単純なランダム サンプリング。 確率は 0 ~ 1 の数値にする必要があります。
seed、float と入力します。 乱数ジェネレーターによって使用されます。 再現性を高める場合に使用します。
成層
省略可能な引数。
columns, list[str]. と入力します。 データ内の strata 列の一覧。
seed、float と入力します。 乱数ジェネレーターによって使用されます。 再現性を高める場合に使用します。
fractions,type dict[tuple, float]. タプル: 階層を定義する列値は、列名と同じ順序にする必要があります。 Float: サンプリング中に階層にアタッチされる重み。
次のコード スニペットは、さまざまなサンプル メソッドの設計パターンの例です。
# sample_strategy "top_n"
top_n_sample_dataset = dataset.sample('top_n', {'n': 5})
# sample_strategy "simple_random"
simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})
# sample_strategy "stratified"
fractions = {}
fractions[('THEFT',)] = 0.5
fractions[('DECEPTIVE PRACTICE',)] = 0.2
# take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
# DECEPTIVE PRACTICE into sample Dataset
sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})
to_pandas_dataframe
このデータセット定義で定義された変換パイプラインを実行して、Pandas データフレームを作成します。
注
このメソッドは非推奨となり、サポートされなくなります。
Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで to_pandas_dataframe メソッドを使用します。 詳細については、https://aka.ms/dataset-deprecationを参照してください。
to_pandas_dataframe()
戻り値
型 | 説明 |
---|---|
Pandas DataFrame。 |
注釈
メモリ内で完全に具体化された Pandas DataFrame を返します。
to_spark_dataframe
このデータセット定義で定義された変換パイプラインを実行できる Spark DataFrame を作成します。
注
このメソッドは非推奨となり、サポートされなくなります。
Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで to_spark_dataframe メソッドを使用します。 詳細については、https://aka.ms/dataset-deprecationを参照してください。
to_spark_dataframe()
戻り値
型 | 説明 |
---|---|
Spark DataFrame。 |
注釈
返される Spark データフレームは実行プランに過ぎず、Spark データフレームは遅延評価されるため、実際にはデータは含まれません。
update
ワークスペース内のデータセット変更可能な属性を更新し、ワークスペースから更新されたデータセットを返します。
update(name=None, description=None, tags=None, visible=None)
パラメーター
名前 | 説明 |
---|---|
name
必須
|
ワークスペース内のデータセットの名前。 |
description
必須
|
データの説明。 |
tags
必須
|
データセットを関連付けるタグ。 |
visible
必須
|
データセットが UI に表示されるかどうかを示します。 |
戻り値
型 | 説明 |
---|---|
ワークスペースから更新された Dataset オブジェクト。 |
update_definition
データセット定義を更新します。
update_definition(definition, definition_update_message)
パラメーター
名前 | 説明 |
---|---|
definition
必須
|
このデータセットの新しい定義。 |
definition_update_message
必須
|
定義の更新メッセージ。 |
戻り値
型 | 説明 |
---|---|
ワークスペースから更新された Dataset オブジェクト。 |
注釈
更新されたデータセットを使用するには、このメソッドによって返されるオブジェクトを使用します。
属性
definition
現在のデータセット定義を返します。
戻り値
型 | 説明 |
---|---|
データセットの定義。 |
注釈
データセット定義は、データの読み取りと変換の方法を指定する一連の手順です。
AzureML ワークスペースに登録されたデータセットには複数の定義を含めることができます。各定義は、 update_definitionを呼び出すことによって作成されます。 各定義には一意の識別子があります。 複数の定義を使用すると、以前の定義に依存するモデルやパイプラインを中断することなく、既存のデータセットを変更できます。
未登録のデータセットの場合、定義は 1 つだけ存在します。
definition_version
データセットの現在の定義のバージョンを返します。
戻り値
型 | 説明 |
---|---|
データセット定義のバージョン。 |
注釈
データセット定義は、データの読み取りと変換の方法を指定する一連の手順です。
AzureML ワークスペースに登録されたデータセットには複数の定義を含めることができます。各定義は、 update_definitionを呼び出すことによって作成されます。 各定義には一意の識別子があります。 現在の定義は、作成された最新の定義であり、その ID はこれで返されます。
未登録のデータセットの場合、定義は 1 つだけ存在します。
description
データセットの説明を返します。
戻り値
型 | 説明 |
---|---|
データセットの説明。 |
注釈
データセット内のデータの説明を指定すると、ワークスペースのユーザーは、データが何を表し、どのように使用できるかを理解できます。
id
is_visible
Azure ML ワークスペース UI で登録済みのデータセットの可視性を制御します。
戻り値
型 | 説明 |
---|---|
データセットの可視性。 |
注釈
返される値:
True: データセットはワークスペース UI に表示されます。 既定値。
False: ワークスペース UI ではデータセットが非表示になります。
未登録のデータセットには影響しません。
name
state
データセットの状態を返します。
戻り値
型 | 説明 |
---|---|
データセットの状態。 |
注釈
状態の意味と効果は次のとおりです。
アクティブ。 アクティブな定義は、まったく同じように聞こえるもので、すべてのアクションをアクティブな定義に対して実行できます。
非推奨になりました。 非推奨の定義は使用できますが、基になるデータにアクセスするたびに警告がログに記録されます。
アーカイブ。 アーカイブされた定義を使用してアクションを実行することはできません。 アーカイブされた定義に対してアクションを実行するには、再アクティブ化する必要があります。
workspace
Tabular
作成用ファクトリ FileDataset
のエイリアス TabularDatasetFactory