AbstractDataset 类

Azure 机器学习中数据集的基类。

请引用 TabularDatasetFactory 类和 FileDatasetFactory 类来创建数据集的实例。

类 AbstractDataset 构造函数。

不应直接调用此构造函数。数据集旨在使用 TabularDatasetFactory 类和 FileDatasetFactory 类创建。

构造函数

AbstractDataset()

方法

add_tags	将此数据集的标记字典添加键值对。
as_named_input	为此数据集提供一个名称，该数据集将用于检索运行中的具体化数据集。
get_all	获取工作区中的所有已注册数据集。
get_by_id	获取保存到工作区的数据集。
get_by_name	按其注册名称从工作区获取已注册的数据集。
get_partition_key_values	返回partition_keys的唯一键值。验证partition_keys是否是完整分区键集的有效子集，返回partition_keys的唯一键值，如果partition_keys为 None，则默认返回唯一键组合（如果partition_keys为 None）来返回此数据集的完整分区键组合 `# get all partition key value pairs partitions = ds.get_partition_key_values() # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}] partitions = ds.get_partition_key_values(['country']) # Return [{'country': 'US'}]`
register	将数据集注册到提供的工作区。
remove_tags	从此数据集的标记字典中删除指定的键。
unregister_all_versions	从工作区中注销此数据集的注册名称下的所有版本。
update	执行数据集的就地更新。

add_tags

将此数据集的标记字典添加键值对。

add_tags(tags=None)

参数

名称	说明
tags 必需	dict[str, str] 要添加的标记字典。

类型	说明
Union[TabularDataset, FileDataset]	更新后的数据集对象。

as_named_input

为此数据集提供一个名称，该数据集将用于检索运行中的具体化数据集。

as_named_input(name)

参数

名称	说明
name 必需	str 运行的数据集的名称。

类型	说明
DatasetConsumptionConfig	描述如何在运行中具体化数据集的配置对象。

注解

此处的名称仅适用于 Azure 机器学习运行。该名称必须仅包含字母数字和下划线字符，以便可用作环境变量。可以使用此名称通过两种方法检索运行上下文中的数据集：

环境变量：

该名称将是环境变量名称，具体化数据集将作为环境变量的值提供。如果已下载或装载数据集，该值将是下载/装载的路径。例如：


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

注释

如果数据集设置为直接模式，则该值将是数据集 ID。然后，你可以

通过执行 Dataset.get_by_id（os.environ['foo']）检索数据集对象

Run.input_datasets：

这是一个字典，其中键将是在此方法中指定的数据集名称，该值将是具体化的数据集。对于下载和装载的数据集，该值将是下载/装载的路径。对于直接模式，该值将是在作业提交脚本中指定的相同数据集对象。


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

获取工作区中的所有已注册数据集。

static get_all(workspace)

参数

名称	说明
workspace 必需	Workspace 在其中注册数据集的现有 AzureML 工作区。

类型	说明
dict[str, Union[TabularDataset, FileDataset]]	TabularDataset 和 FileDataset 对象的字典，这些对象按其注册名称进行键键。

get_by_id

获取保存到工作区的数据集。

static get_by_id(workspace, id, **kwargs)

参数

名称	说明
workspace 必需	Workspace 保存数据集的现有 AzureML 工作区。
id 必需	str 数据集的 ID。

类型	说明
Union[TabularDataset, FileDataset]	数据集对象。如果已注册数据集，则还会返回其注册名称和版本。

get_by_name

按其注册名称从工作区获取已注册的数据集。

static get_by_name(workspace, name, version='latest', **kwargs)

参数

名称	说明
workspace 必需	Workspace 在其中注册数据集的现有 AzureML 工作区。
name 必需	str 注册名称。
version 必需	int 注册版本。默认为“latest”。

类型	说明
Union[TabularDataset, FileDataset]	已注册的数据集对象。

get_partition_key_values

返回partition_keys的唯一键值。

验证partition_keys是否是完整分区键集的有效子集，返回partition_keys的唯一键值，如果partition_keys为 None，则默认返回唯一键组合（如果partition_keys为 None）来返回此数据集的完整分区键组合


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]

get_partition_key_values(partition_keys=None)

参数

名称	说明
partition_keys 必需	list[str] 分区键

register

将数据集注册到提供的工作区。

register(workspace, name, description=None, tags=None, create_new_version=False)

参数

名称	说明
workspace 必需	Workspace 要注册数据集的工作区。
name 必需	str 要在其中注册数据集的名称。
description 必需	str 数据集的文本说明。默认为 None。
tags 必需	dict[str, str] 用于为数据集提供键值标记的字典。默认为 None。
create_new_version 必需	bool 将数据集注册为指定名称下的新版本的布尔值。

类型	说明
Union[TabularDataset, FileDataset]	已注册的数据集对象。

remove_tags

从此数据集的标记字典中删除指定的键。

remove_tags(tags=None)

参数

名称	说明
tags 必需	list[str] 要删除的键列表。

类型	说明
Union[TabularDataset, FileDataset]	更新后的数据集对象。

unregister_all_versions

从工作区中注销此数据集的注册名称下的所有版本。

unregister_all_versions()

注解

该作不会更改任何源数据。

update

执行数据集的就地更新。

update(description=None, tags=None)

参数

名称	说明
description 必需	str 要用于数据集的新说明。此说明替换现有说明。默认为现有说明。若要清除说明，请输入空字符串。
tags 必需	dict[str, str] 用于更新数据集的标记字典。这些标记替换数据集的现有标记。默认为现有标记。若要清除标记，请输入空字典。

类型	说明
Union[TabularDataset, FileDataset]	更新后的数据集对象。

属性

data_changed_time

返回源数据更改时间。

类型	说明
datetime	最近更改发生在源数据的时间。

注解

数据更改时间可用于基于文件的数据源。当数据源不支持在发生更改时进行检查时，将返回 None。

description

返回注册说明。

类型	说明
str	数据集说明。

id

返回数据集的标识符。

类型	说明
str	数据集 ID。如果数据集未保存到任何工作区，则 ID 将为 None。

name

返回注册名称。

类型	说明
str	数据集名称。

partition_keys

返回分区键。

类型	说明
list[str]	分区键

类型	说明
str	数据集标记。

version

返回注册版本。

类型	说明
int	数据集版本。

通过