data 包

包含支持 Azure 机器学习中数据存储和数据集的数据表示形式的模块。

此包包含包中Datastore支持的核心Dataset功能和core类。 数据存储对象包含与 Azure 存储服务的连接信息,这些服务可以通过名称轻松引用,而无需直接处理脚本中的硬代码连接信息。 数据存储支持此包中由类表示的多种不同服务,包括 AzureBlobDatastoreAzureFileDatastoreAzureDataLakeDatastore。 有关受支持的存储服务的完整列表,请参阅该 Datastore 类。

虽然数据存储充当数据文件的容器,但可以将数据集视为数据存储中特定数据的引用或指针。 支持以下数据集类型:

  • TabularDataset 表示通过分析提供的文件或文件列表创建的表格格式的数据。

  • FileDataset 引用数据存储或公共 URL 中的单个或多个文件。

有关详细信息,请参阅 “添加和注册数据集”一文。 若要开始使用数据集,请参阅 https://aka.ms/tabulardataset-samplenotebookhttps://aka.ms/filedataset-samplenotebook

模块

abstract_dataset

包含 Azure 机器学习中数据集的抽象基类。

abstract_datastore

包含数据存储的基本功能,用于将连接信息保存到 Azure 存储服务。

azure_data_lake_datastore

包含用于将连接信息保存到 Azure Data Lake Storage 的数据存储的基本功能。

azure_my_sql_datastore

包含数据存储的基本功能,用于将连接信息保存到 Azure Database for MySQL。

azure_postgre_sql_datastore

包含数据存储的基本功能,用于将连接信息保存到 Azure Database for PostgreSQL。

azure_sql_database_datastore

包含数据存储的基本功能,用于将连接信息保存到 Azure SQL 数据库。

azure_storage_datastore

包含用于将连接信息保存到 Azure Blob 和 Azure 文件存储的数据存储的功能。

constants

azureml.data package 中使用的常量。 仅供内部使用。

context_managers

包含用于管理数据存储和数据集的数据上下文的功能。 仅供内部使用。

data_reference

包含定义如何在数据存储中创建对数据的引用的功能。

datacache

包含用于在 Azure 机器学习中管理 DatacacheStore 和 Datacache 的功能。

datacache_client

仅供内部使用。

datacache_consumption_config

包含 DataCache 消耗配置的功能。

datacache_singularity_settings

包含 Datacache Singularity 设置表示所需的对象。

datapath

包含用于在数据存储中创建对数据的引用的功能。

此模块包含 DataPath 表示数据位置的类,以及 DataPathComputeBinding 表示如何在计算目标上提供数据的类。

dataset_action_run

包含管理数据集作执行的功能。

本模块提供了创建数据集作并在完成后获取其结果的便利方法。

dataset_consumption_config

包含数据集消耗配置的功能。

dataset_definition

包含用于管理数据集定义及其作的功能。

注释

此模块已弃用。 有关详细信息,请参阅 https://aka.ms/dataset-deprecation

dataset_error_handling

包含 Azure 机器学习中数据集错误处理的异常。

dataset_factory

包含为 Azure 机器学习创建数据集的功能。

dataset_profile

用于收集数据流生成的数据的摘要统计信息的类。

此模块中的功能包括收集有关生成配置文件的运行的信息,无论配置文件是否过时。

dataset_profile_run

包含用于监视 Azure 机器学习中运行的数据集配置文件的配置。

本模块中的功能包括处理和监视与试验对象和单个运行 ID 关联的数据集配置文件运行。

dataset_profile_run_config

包含用于在 Azure 机器学习中生成数据集的统计信息摘要的配置。

本模块中的功能包括用于提交本地或远程配置文件运行的方法,以及可视化提交的配置文件运行的结果。

dataset_snapshot

包含用于管理数据集快照作的功能。

注释

此模块已弃用。 有关详细信息,请参阅 https://aka.ms/dataset-deprecation

dataset_type_definitions

包含用于 Dataset. 的枚举值。

datastore_client

仅供内部使用。

dbfs_datastore

包含用于将连接信息保存到 Databricks 文件 Sytem(DBFS)的数据存储的功能。

file_dataset

包含用于引用数据存储或公共 URL 中的单个或多个文件的功能。

有关详细信息,请参阅 “添加和注册数据集”一文。 若要开始使用文件数据集,请参阅 https://aka.ms/filedataset-samplenotebook

hdfs_datastore

包含数据存储的基本功能,用于将连接信息保存到 HDFS 群集。

output_dataset_config

包含用于指定作业的输出应如何上载和提升到数据集的配置。

有关详细信息,请参阅 有关如何指定输出的文章。

sql_data_reference

包含用于创建对数据存储中数据的引用的功能,用于将连接信息保存到 SQL 数据库。

stored_procedure_parameter

包含用于创建要传递给 SQL 存储过程的参数的功能。

tabular_dataset

包含通过分析提供的文件或文件列表以表格格式表示数据的功能。

有关详细信息,请参阅 “添加和注册数据集”一文。 若要开始使用表格数据集,请参阅 https://aka.ms/tabulardataset-samplenotebook

DataType

为在 Azure 机器学习中创建的数据集配置列数据类型。

DataType 方法用于 TabularDatasetFactoryfrom_* 方法,这些方法用于创建新的 TabularDataset 对象。

DatacacheStore

注释

这是一个实验类,随时可能会更改。 有关详细信息,请参阅 https://aka.ms/azuremlexperimental

表示 Azure 机器学习存储帐户的存储抽象。

DatacacheStore 附加到工作区,用于存储与基础 datacache 解决方案相关的信息。 目前,仅支持已分区 Blob 解决方案。 Datacachestore 定义可用于缓存的各种 Blob 数据存储。

使用此类执行管理作,包括注册、列出、获取和更新 datacachestore。 使用此类的方法为每个服务创建 register* DatacacheStores。

按名称获取 datacachestore。 此调用将向 datacache 服务发出请求。

FileDataset

表示数据存储或公共 URL 中要用于 Azure 机器学习的文件引用的集合。

FileDataset 定义了一系列延迟评估的不可变作,用于将数据从数据源加载到文件流中。 在要求 FileDataset 提供数据之前,不会从源加载数据。

FileDataset 是使用 from_files FileDatasetFactory 类的方法创建的。

有关详细信息,请参阅 “添加和注册数据集”一文。 若要开始使用文件数据集,请参阅 https://aka.ms/filedataset-samplenotebook

初始化 FileDataset 对象。

不应直接调用此构造函数。 数据集旨在使用 FileDatasetFactory 类创建。

HDFSOutputDatasetConfig

表示如何输出到 HDFS 路径,并将其提升为 FileDataset。

初始化 HDFSOutputDatasetConfig。

LinkFileOutputDatasetConfig

注释

这是一个实验类,随时可能会更改。 有关详细信息,请参阅 https://aka.ms/azuremlexperimental

表示如何链接运行输出并将其提升为 FileDataset。

LinkFileOutputDatasetConfig 允许将文件数据集作为输出数据集链接


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkFileOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

初始化 LinkFileOutputDatasetConfig。

LinkTabularOutputDatasetConfig

注释

这是一个实验类,随时可能会更改。 有关详细信息,请参阅 https://aka.ms/azuremlexperimental

表示如何链接运行输出并将其提升为 TabularDataset。

LinkTabularOutputDatasetConfig 允许将文件表格作为输出数据集链接


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkTabularOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

初始化 LinkTabularOutputDatasetConfig。

OutputFileDatasetConfig

表示如何复制运行的输出并将其提升为 FileDataset。

OutputFileDatasetConfig 允许指定将计算目标上的特定本地路径上传到指定目标的方式。 如果未将任何参数传递给构造函数,我们将自动生成名称、目标和本地路径。

不传递任何参数的示例:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

创建输出并将其提升为表格数据集的示例,并将其注册为名称 foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

初始化 OutputFileDatasetConfig。

OutputFileDatasetConfig 允许指定将计算目标上的特定本地路径上传到指定目标的方式。 如果未将任何参数传递给构造函数,我们将自动生成名称、目标和本地路径。

不传递任何参数的示例:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

创建输出并将其提升为表格数据集的示例,并将其注册为名称 foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
TabularDataset

表示在 Azure 机器学习中使用的表格数据集。

TabularDataset 定义一系列延迟评估的不可变作,以将数据从数据源加载到表格表示形式。 在要求 TabularDataset 提供数据之前,不会从源加载数据。

使用类似于类的方法from_delimited_filesTabularDatasetFactory创建 TabularDataset。

有关详细信息,请参阅 “添加和注册数据集”一文。 若要开始使用表格数据集,请参阅 https://aka.ms/tabulardataset-samplenotebook

初始化 TabularDataset 对象。

不应直接调用此构造函数。 数据集旨在使用 TabularDatasetFactory 类创建。