AbstractDataset 类
Azure 机器学习中数据集的基类。
请引用 TabularDatasetFactory 类和 FileDatasetFactory 类来创建数据集的实例。
类 AbstractDataset 构造函数。
不应直接调用此构造函数。 数据集旨在使用 TabularDatasetFactory 类和 FileDatasetFactory 类创建。
构造函数
AbstractDataset()
方法
add_tags |
将此数据集的标记字典添加键值对。 |
as_named_input |
为此数据集提供一个名称,该数据集将用于检索运行中的具体化数据集。 |
get_all |
获取工作区中的所有已注册数据集。 |
get_by_id |
获取保存到工作区的数据集。 |
get_by_name |
按其注册名称从工作区获取已注册的数据集。 |
get_partition_key_values |
返回partition_keys的唯一键值。 验证partition_keys是否是完整分区键集的有效子集,返回partition_keys的唯一键值,如果partition_keys为 None,则默认返回唯一键组合(如果partition_keys为 None)来返回此数据集的完整分区键组合
|
register |
将数据集注册到提供的工作区。 |
remove_tags |
从此数据集的标记字典中删除指定的键。 |
unregister_all_versions |
从工作区中注销此数据集的注册名称下的所有版本。 |
update |
执行数据集的就地更新。 |
add_tags
将此数据集的标记字典添加键值对。
add_tags(tags=None)
参数
名称 | 说明 |
---|---|
tags
必需
|
要添加的标记字典。 |
返回
类型 | 说明 |
---|---|
更新后的数据集对象。 |
as_named_input
为此数据集提供一个名称,该数据集将用于检索运行中的具体化数据集。
as_named_input(name)
参数
名称 | 说明 |
---|---|
name
必需
|
运行的数据集的名称。 |
返回
类型 | 说明 |
---|---|
描述如何在运行中具体化数据集的配置对象。 |
注解
此处的名称仅适用于 Azure 机器学习运行。 该名称必须仅包含字母数字和下划线字符,以便可用作环境变量。 可以使用此名称通过两种方法检索运行上下文中的数据集:
环境变量:
该名称将是环境变量名称,具体化数据集将作为环境变量的值提供。 如果已下载或装载数据集,该值将是下载/装载的路径。 例如:
# in your job submission notebook/script:
dataset.as_named_input('foo').as_download('/tmp/dataset')
# in the script that will be executed in the run
import os
path = os.environ['foo'] # path will be /tmp/dataset
注释
如果数据集设置为直接模式,则该值将是数据集 ID。 然后,你可以
通过执行 Dataset.get_by_id(os.environ['foo'])检索数据集对象
Run.input_datasets:
这是一个字典,其中键将是在此方法中指定的数据集名称,该值将是具体化的数据集。 对于下载和装载的数据集,该值将是下载/装载的路径。 对于直接模式,该值将是在作业提交脚本中指定的相同数据集对象。
# in your job submission notebook/script:
dataset.as_named_input('foo') # direct mode
# in the script that will be executed in the run
run = Run.get_context()
run.input_datasets['foo'] # this returns the dataset object from above.
get_all
获取工作区中的所有已注册数据集。
static get_all(workspace)
参数
名称 | 说明 |
---|---|
workspace
必需
|
在其中注册数据集的现有 AzureML 工作区。 |
返回
类型 | 说明 |
---|---|
TabularDataset 和 FileDataset 对象的字典,这些对象按其注册名称进行键键。 |
get_by_id
获取保存到工作区的数据集。
static get_by_id(workspace, id, **kwargs)
参数
名称 | 说明 |
---|---|
workspace
必需
|
保存数据集的现有 AzureML 工作区。 |
id
必需
|
数据集的 ID。 |
返回
类型 | 说明 |
---|---|
数据集对象。 如果已注册数据集,则还会返回其注册名称和版本。 |
get_by_name
按其注册名称从工作区获取已注册的数据集。
static get_by_name(workspace, name, version='latest', **kwargs)
参数
名称 | 说明 |
---|---|
workspace
必需
|
在其中注册数据集的现有 AzureML 工作区。 |
name
必需
|
注册名称。 |
version
必需
|
注册版本。 默认为“latest”。 |
返回
类型 | 说明 |
---|---|
已注册的数据集对象。 |
get_partition_key_values
返回partition_keys的唯一键值。
验证partition_keys是否是完整分区键集的有效子集,返回partition_keys的唯一键值,如果partition_keys为 None,则默认返回唯一键组合(如果partition_keys为 None)来返回此数据集的完整分区键组合
# get all partition key value pairs
partitions = ds.get_partition_key_values()
# Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]
partitions = ds.get_partition_key_values(['country'])
# Return [{'country': 'US'}]
get_partition_key_values(partition_keys=None)
参数
名称 | 说明 |
---|---|
partition_keys
必需
|
分区键 |
register
将数据集注册到提供的工作区。
register(workspace, name, description=None, tags=None, create_new_version=False)
参数
名称 | 说明 |
---|---|
workspace
必需
|
要注册数据集的工作区。 |
name
必需
|
要在其中注册数据集的名称。 |
description
必需
|
数据集的文本说明。 默认为 None。 |
tags
必需
|
用于为数据集提供键值标记的字典。 默认为 None。 |
create_new_version
必需
|
将数据集注册为指定名称下的新版本的布尔值。 |
返回
类型 | 说明 |
---|---|
已注册的数据集对象。 |
remove_tags
从此数据集的标记字典中删除指定的键。
remove_tags(tags=None)
参数
名称 | 说明 |
---|---|
tags
必需
|
要删除的键列表。 |
返回
类型 | 说明 |
---|---|
更新后的数据集对象。 |
unregister_all_versions
从工作区中注销此数据集的注册名称下的所有版本。
unregister_all_versions()
注解
该作不会更改任何源数据。
update
执行数据集的就地更新。
update(description=None, tags=None)
参数
名称 | 说明 |
---|---|
description
必需
|
要用于数据集的新说明。 此说明替换现有说明。 默认为现有说明。 若要清除说明,请输入空字符串。 |
tags
必需
|
用于更新数据集的标记字典。 这些标记替换数据集的现有标记。 默认为现有标记。 若要清除标记,请输入空字典。 |
返回
类型 | 说明 |
---|---|
更新后的数据集对象。 |