data 包

包含支持 Azure 机器学习中数据存储和数据集的数据表示形式的模块。

此包包含包中Datastore支持的核心Dataset功能和core类。数据存储对象包含与 Azure 存储服务的连接信息，这些服务可以通过名称轻松引用，而无需直接处理脚本中的硬代码连接信息。数据存储支持此包中由类表示的多种不同服务，包括 AzureBlobDatastore， AzureFileDatastore和 AzureDataLakeDatastore。有关受支持的存储服务的完整列表，请参阅该 Datastore 类。

虽然数据存储充当数据文件的容器，但可以将数据集视为数据存储中特定数据的引用或指针。支持以下数据集类型：

TabularDataset 表示通过分析提供的文件或文件列表创建的表格格式的数据。
FileDataset 引用数据存储或公共 URL 中的单个或多个文件。

有关详细信息，请参阅 “添加和注册数据集”一文。若要开始使用数据集，请参阅 https://aka.ms/tabulardataset-samplenotebook 和 https://aka.ms/filedataset-samplenotebook。

模块

abstract_dataset	包含 Azure 机器学习中数据集的抽象基类。
abstract_datastore	包含数据存储的基本功能，用于将连接信息保存到 Azure 存储服务。
azure_data_lake_datastore	包含用于将连接信息保存到 Azure Data Lake Storage 的数据存储的基本功能。
azure_my_sql_datastore	包含数据存储的基本功能，用于将连接信息保存到 Azure Database for MySQL。
azure_postgre_sql_datastore	包含数据存储的基本功能，用于将连接信息保存到 Azure Database for PostgreSQL。
azure_sql_database_datastore	包含数据存储的基本功能，用于将连接信息保存到 Azure SQL 数据库。
azure_storage_datastore	包含用于将连接信息保存到 Azure Blob 和 Azure 文件存储的数据存储的功能。
constants	azureml.data package 中使用的常量。仅供内部使用。
context_managers	包含用于管理数据存储和数据集的数据上下文的功能。仅供内部使用。
data_reference	包含定义如何在数据存储中创建对数据的引用的功能。
datacache	包含用于在 Azure 机器学习中管理 DatacacheStore 和 Datacache 的功能。
datacache_client	仅供内部使用。
datacache_consumption_config	包含 DataCache 消耗配置的功能。
datacache_singularity_settings	包含 Datacache Singularity 设置表示所需的对象。
datapath	包含用于在数据存储中创建对数据的引用的功能。此模块包含 DataPath 表示数据位置的类，以及 DataPathComputeBinding 表示如何在计算目标上提供数据的类。
dataset_action_run	包含管理数据集作执行的功能。本模块提供了创建数据集作并在完成后获取其结果的便利方法。
dataset_consumption_config	包含数据集消耗配置的功能。
dataset_definition	包含用于管理数据集定义及其作的功能。注释此模块已弃用。有关详细信息，请参阅 https://aka.ms/dataset-deprecation。
dataset_error_handling	包含 Azure 机器学习中数据集错误处理的异常。
dataset_factory	包含为 Azure 机器学习创建数据集的功能。
dataset_profile	用于收集数据流生成的数据的摘要统计信息的类。此模块中的功能包括收集有关生成配置文件的运行的信息，无论配置文件是否过时。
dataset_profile_run	包含用于监视 Azure 机器学习中运行的数据集配置文件的配置。本模块中的功能包括处理和监视与试验对象和单个运行 ID 关联的数据集配置文件运行。
dataset_profile_run_config	包含用于在 Azure 机器学习中生成数据集的统计信息摘要的配置。本模块中的功能包括用于提交本地或远程配置文件运行的方法，以及可视化提交的配置文件运行的结果。
dataset_snapshot	包含用于管理数据集快照作的功能。注释此模块已弃用。有关详细信息，请参阅 https://aka.ms/dataset-deprecation。
dataset_type_definitions	包含用于 Dataset. 的枚举值。
datastore_client	仅供内部使用。
dbfs_datastore	包含用于将连接信息保存到 Databricks 文件 Sytem（DBFS）的数据存储的功能。
file_dataset	包含用于引用数据存储或公共 URL 中的单个或多个文件的功能。有关详细信息，请参阅 “添加和注册数据集”一文。若要开始使用文件数据集，请参阅 https://aka.ms/filedataset-samplenotebook。
hdfs_datastore	包含数据存储的基本功能，用于将连接信息保存到 HDFS 群集。
output_dataset_config	包含用于指定作业的输出应如何上载和提升到数据集的配置。有关详细信息，请参阅有关如何指定输出的文章。
sql_data_reference	包含用于创建对数据存储中数据的引用的功能，用于将连接信息保存到 SQL 数据库。
stored_procedure_parameter	包含用于创建要传递给 SQL 存储过程的参数的功能。
tabular_dataset	包含通过分析提供的文件或文件列表以表格格式表示数据的功能。有关详细信息，请参阅 “添加和注册数据集”一文。若要开始使用表格数据集，请参阅 https://aka.ms/tabulardataset-samplenotebook。

类

DataType	为在 Azure 机器学习中创建的数据集配置列数据类型。 DataType 方法用于 TabularDatasetFactory 类 `from_*` 方法，这些方法用于创建新的 TabularDataset 对象。
DatacacheStore	注释这是一个实验类，随时可能会更改。有关详细信息，请参阅 https://aka.ms/azuremlexperimental。表示 Azure 机器学习存储帐户的存储抽象。 DatacacheStore 附加到工作区，用于存储与基础 datacache 解决方案相关的信息。目前，仅支持已分区 Blob 解决方案。 Datacachestore 定义可用于缓存的各种 Blob 数据存储。使用此类执行管理作，包括注册、列出、获取和更新 datacachestore。使用此类的方法为每个服务创建 `register*` DatacacheStores。按名称获取 datacachestore。此调用将向 datacache 服务发出请求。
FileDataset	表示数据存储或公共 URL 中要用于 Azure 机器学习的文件引用的集合。 FileDataset 定义了一系列延迟评估的不可变作，用于将数据从数据源加载到文件流中。在要求 FileDataset 提供数据之前，不会从源加载数据。 FileDataset 是使用 from_files FileDatasetFactory 类的方法创建的。有关详细信息，请参阅 “添加和注册数据集”一文。若要开始使用文件数据集，请参阅 https://aka.ms/filedataset-samplenotebook。初始化 FileDataset 对象。不应直接调用此构造函数。数据集旨在使用 FileDatasetFactory 类创建。
HDFSOutputDatasetConfig	表示如何输出到 HDFS 路径，并将其提升为 FileDataset。初始化 HDFSOutputDatasetConfig。
LinkFileOutputDatasetConfig	注释这是一个实验类，随时可能会更改。有关详细信息，请参阅 https://aka.ms/azuremlexperimental。表示如何链接运行输出并将其提升为 FileDataset。 LinkFileOutputDatasetConfig 允许将文件数据集作为输出数据集链接 workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = LinkFileOutputDatasetConfig('link_output') script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output]) # within link.py # from azureml.core import Run, Dataset # run = Run.get_context() # workspace = run.experiment.workspace # dataset = Dataset.get_by_name(workspace, name='dataset_to_link') # run.output_datasets['link_output'].link(dataset) run = experiment.submit(script_run_config) print(run) 初始化 LinkFileOutputDatasetConfig。
LinkTabularOutputDatasetConfig	注释这是一个实验类，随时可能会更改。有关详细信息，请参阅 https://aka.ms/azuremlexperimental。表示如何链接运行输出并将其提升为 TabularDataset。 LinkTabularOutputDatasetConfig 允许将文件表格作为输出数据集链接 workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = LinkTabularOutputDatasetConfig('link_output') script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output]) # within link.py # from azureml.core import Run, Dataset # run = Run.get_context() # workspace = run.experiment.workspace # dataset = Dataset.get_by_name(workspace, name='dataset_to_link') # run.output_datasets['link_output'].link(dataset) run = experiment.submit(script_run_config) print(run) 初始化 LinkTabularOutputDatasetConfig。
OutputFileDatasetConfig	表示如何复制运行的输出并将其提升为 FileDataset。 OutputFileDatasetConfig 允许指定将计算目标上的特定本地路径上传到指定目标的方式。如果未将任何参数传递给构造函数，我们将自动生成名称、目标和本地路径。不传递任何参数的示例： `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = OutputFileDatasetConfig() script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` 创建输出并将其提升为表格数据集的示例，并将其注册为名称 foo： `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') datastore = Datastore(workspace, 'example_adls_gen2_datastore') # for more information on the parameters and methods, please look for the corresponding documentation. output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo') script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` 初始化 OutputFileDatasetConfig。 OutputFileDatasetConfig 允许指定将计算目标上的特定本地路径上传到指定目标的方式。如果未将任何参数传递给构造函数，我们将自动生成名称、目标和本地路径。不传递任何参数的示例： `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = OutputFileDatasetConfig() script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` 创建输出并将其提升为表格数据集的示例，并将其注册为名称 foo： `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') datastore = Datastore(workspace, 'example_adls_gen2_datastore') # for more information on the parameters and methods, please look for the corresponding documentation. output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo') script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)`
TabularDataset	表示在 Azure 机器学习中使用的表格数据集。 TabularDataset 定义一系列延迟评估的不可变作，以将数据从数据源加载到表格表示形式。在要求 TabularDataset 提供数据之前，不会从源加载数据。使用类似于类的方法from_delimited_files TabularDatasetFactory创建 TabularDataset。有关详细信息，请参阅 “添加和注册数据集”一文。若要开始使用表格数据集，请参阅 https://aka.ms/tabulardataset-samplenotebook。初始化 TabularDataset 对象。不应直接调用此构造函数。数据集旨在使用 TabularDatasetFactory 类创建。

通过

data 包

模块

类

反馈