data 包
包含支持 Azure 机器学习中数据存储和数据集的数据表示形式的模块。
此包包含包中Datastore支持的核心Dataset功能和core类。 数据存储对象包含与 Azure 存储服务的连接信息,这些服务可以通过名称轻松引用,而无需直接处理脚本中的硬代码连接信息。 数据存储支持此包中由类表示的多种不同服务,包括 AzureBlobDatastore, AzureFileDatastore和 AzureDataLakeDatastore。 有关受支持的存储服务的完整列表,请参阅该 Datastore 类。
虽然数据存储充当数据文件的容器,但可以将数据集视为数据存储中特定数据的引用或指针。 支持以下数据集类型:
TabularDataset 表示通过分析提供的文件或文件列表创建的表格格式的数据。
FileDataset 引用数据存储或公共 URL 中的单个或多个文件。
有关详细信息,请参阅 “添加和注册数据集”一文。 若要开始使用数据集,请参阅 https://aka.ms/tabulardataset-samplenotebook 和 https://aka.ms/filedataset-samplenotebook。
模块
abstract_dataset |
包含 Azure 机器学习中数据集的抽象基类。 |
abstract_datastore |
包含数据存储的基本功能,用于将连接信息保存到 Azure 存储服务。 |
azure_data_lake_datastore |
包含用于将连接信息保存到 Azure Data Lake Storage 的数据存储的基本功能。 |
azure_my_sql_datastore |
包含数据存储的基本功能,用于将连接信息保存到 Azure Database for MySQL。 |
azure_postgre_sql_datastore |
包含数据存储的基本功能,用于将连接信息保存到 Azure Database for PostgreSQL。 |
azure_sql_database_datastore |
包含数据存储的基本功能,用于将连接信息保存到 Azure SQL 数据库。 |
azure_storage_datastore |
包含用于将连接信息保存到 Azure Blob 和 Azure 文件存储的数据存储的功能。 |
constants |
azureml.data package 中使用的常量。 仅供内部使用。 |
context_managers |
包含用于管理数据存储和数据集的数据上下文的功能。 仅供内部使用。 |
data_reference |
包含定义如何在数据存储中创建对数据的引用的功能。 |
datacache |
包含用于在 Azure 机器学习中管理 DatacacheStore 和 Datacache 的功能。 |
datacache_client |
仅供内部使用。 |
datacache_consumption_config |
包含 DataCache 消耗配置的功能。 |
datacache_singularity_settings |
包含 Datacache Singularity 设置表示所需的对象。 |
datapath |
包含用于在数据存储中创建对数据的引用的功能。 此模块包含 DataPath 表示数据位置的类,以及 DataPathComputeBinding 表示如何在计算目标上提供数据的类。 |
dataset_action_run |
包含管理数据集作执行的功能。 本模块提供了创建数据集作并在完成后获取其结果的便利方法。 |
dataset_consumption_config |
包含数据集消耗配置的功能。 |
dataset_definition |
包含用于管理数据集定义及其作的功能。 注释 此模块已弃用。 有关详细信息,请参阅 https://aka.ms/dataset-deprecation。 |
dataset_error_handling |
包含 Azure 机器学习中数据集错误处理的异常。 |
dataset_factory |
包含为 Azure 机器学习创建数据集的功能。 |
dataset_profile |
用于收集数据流生成的数据的摘要统计信息的类。 此模块中的功能包括收集有关生成配置文件的运行的信息,无论配置文件是否过时。 |
dataset_profile_run |
包含用于监视 Azure 机器学习中运行的数据集配置文件的配置。 本模块中的功能包括处理和监视与试验对象和单个运行 ID 关联的数据集配置文件运行。 |
dataset_profile_run_config |
包含用于在 Azure 机器学习中生成数据集的统计信息摘要的配置。 本模块中的功能包括用于提交本地或远程配置文件运行的方法,以及可视化提交的配置文件运行的结果。 |
dataset_snapshot |
包含用于管理数据集快照作的功能。 注释 此模块已弃用。 有关详细信息,请参阅 https://aka.ms/dataset-deprecation。 |
dataset_type_definitions |
包含用于 Dataset. 的枚举值。 |
datastore_client |
仅供内部使用。 |
dbfs_datastore |
包含用于将连接信息保存到 Databricks 文件 Sytem(DBFS)的数据存储的功能。 |
file_dataset |
包含用于引用数据存储或公共 URL 中的单个或多个文件的功能。 有关详细信息,请参阅 “添加和注册数据集”一文。 若要开始使用文件数据集,请参阅 https://aka.ms/filedataset-samplenotebook。 |
hdfs_datastore |
包含数据存储的基本功能,用于将连接信息保存到 HDFS 群集。 |
output_dataset_config |
包含用于指定作业的输出应如何上载和提升到数据集的配置。 有关详细信息,请参阅 有关如何指定输出的文章。 |
sql_data_reference |
包含用于创建对数据存储中数据的引用的功能,用于将连接信息保存到 SQL 数据库。 |
stored_procedure_parameter |
包含用于创建要传递给 SQL 存储过程的参数的功能。 |
tabular_dataset |
包含通过分析提供的文件或文件列表以表格格式表示数据的功能。 有关详细信息,请参阅 “添加和注册数据集”一文。 若要开始使用表格数据集,请参阅 https://aka.ms/tabulardataset-samplenotebook。 |
类
DataType |
为在 Azure 机器学习中创建的数据集配置列数据类型。 DataType 方法用于 TabularDatasetFactory 类 |
DatacacheStore |
注释 这是一个实验类,随时可能会更改。 有关详细信息,请参阅 https://aka.ms/azuremlexperimental。 表示 Azure 机器学习存储帐户的存储抽象。 DatacacheStore 附加到工作区,用于存储与基础 datacache 解决方案相关的信息。 目前,仅支持已分区 Blob 解决方案。 Datacachestore 定义可用于缓存的各种 Blob 数据存储。 使用此类执行管理作,包括注册、列出、获取和更新 datacachestore。
使用此类的方法为每个服务创建 按名称获取 datacachestore。 此调用将向 datacache 服务发出请求。 |
FileDataset |
表示数据存储或公共 URL 中要用于 Azure 机器学习的文件引用的集合。 FileDataset 定义了一系列延迟评估的不可变作,用于将数据从数据源加载到文件流中。 在要求 FileDataset 提供数据之前,不会从源加载数据。 FileDataset 是使用 from_files FileDatasetFactory 类的方法创建的。 有关详细信息,请参阅 “添加和注册数据集”一文。 若要开始使用文件数据集,请参阅 https://aka.ms/filedataset-samplenotebook。 初始化 FileDataset 对象。 不应直接调用此构造函数。 数据集旨在使用 FileDatasetFactory 类创建。 |
HDFSOutputDatasetConfig |
表示如何输出到 HDFS 路径,并将其提升为 FileDataset。 初始化 HDFSOutputDatasetConfig。 |
LinkFileOutputDatasetConfig |
注释 这是一个实验类,随时可能会更改。 有关详细信息,请参阅 https://aka.ms/azuremlexperimental。 表示如何链接运行输出并将其提升为 FileDataset。 LinkFileOutputDatasetConfig 允许将文件数据集作为输出数据集链接
初始化 LinkFileOutputDatasetConfig。 |
LinkTabularOutputDatasetConfig |
注释 这是一个实验类,随时可能会更改。 有关详细信息,请参阅 https://aka.ms/azuremlexperimental。 表示如何链接运行输出并将其提升为 TabularDataset。 LinkTabularOutputDatasetConfig 允许将文件表格作为输出数据集链接
初始化 LinkTabularOutputDatasetConfig。 |
OutputFileDatasetConfig |
表示如何复制运行的输出并将其提升为 FileDataset。 OutputFileDatasetConfig 允许指定将计算目标上的特定本地路径上传到指定目标的方式。 如果未将任何参数传递给构造函数,我们将自动生成名称、目标和本地路径。 不传递任何参数的示例:
创建输出并将其提升为表格数据集的示例,并将其注册为名称 foo:
初始化 OutputFileDatasetConfig。 OutputFileDatasetConfig 允许指定将计算目标上的特定本地路径上传到指定目标的方式。 如果未将任何参数传递给构造函数,我们将自动生成名称、目标和本地路径。 不传递任何参数的示例:
创建输出并将其提升为表格数据集的示例,并将其注册为名称 foo:
|
TabularDataset |
表示在 Azure 机器学习中使用的表格数据集。 TabularDataset 定义一系列延迟评估的不可变作,以将数据从数据源加载到表格表示形式。 在要求 TabularDataset 提供数据之前,不会从源加载数据。 使用类似于类的方法from_delimited_filesTabularDatasetFactory创建 TabularDataset。 有关详细信息,请参阅 “添加和注册数据集”一文。 若要开始使用表格数据集,请参阅 https://aka.ms/tabulardataset-samplenotebook。 初始化 TabularDataset 对象。 不应直接调用此构造函数。 数据集旨在使用 TabularDatasetFactory 类创建。 |