opendatasets 包

包含将 Azure 开放数据集用作数据帧和扩充客户数据的功能。

Azure 开放数据集是特选的公共数据集,可用于将特定于方案的功能添加到机器学习解决方案,以便更准确的模型。 可以使用应用的筛选器将这些公共数据集转换为 Spark 和 pandas 数据帧。 对于某些数据集,可以使用扩充器将公共数据与数据联接。 例如,可以按经度、纬度或邮政编码和时间将数据与天气数据联接。

Azure 开放数据集中包括用于天气、人口普查、假日、公共安全和位置的公共域数据,可帮助训练机器学习模型并丰富预测解决方案。 开放数据集位于 Microsoft Azure 上的云中,并集成到 Azure 机器学习中。 有关使用 Azure 开放数据集的详细信息,请参阅 使用 Azure 开放数据集创建数据集

有关 Azure 开放数据集的一般信息,请参阅 Azure 开放数据集文档

accessories

包含有助于识别数据中的列类型的功能,包括 lat/long、zipcode 和 time。

aggregators

包含用于定义联接数据聚合方式的功能。

聚合器定义可以对联接两个数据集中的数据的结果执行的作。 例如,使用其中一个类 enrichers时,可以将聚合器指定为作的一部分。 如果不需要聚合,请使用 AggregatorAll

data

包含 publicholidays 模块中数据资源的 init 文件。

dataaccess

包含提供 Blob 文件访问方法的功能。

使用包中的 opendatasets 类(如 ChicagoSafety 类)时,此包中的 dataaccess 类和函数在内部使用。 通常,无需直接使用 dataaccess 包中的功能。

enrichers

包含用于扩充和联接两个数据集中的数据的功能。

通常,扩充器将来自不同源的数据联接在一起。 具体而言,扩充器使你能够将数据(客户数据)与 Azure 开放数据集或其他公共数据集中的数据联接在一起。

granularities

包含定义扩充器使用的时间和距离度量值的功能。

粒度是扩充(联接)数据时使用 enrichers 的时间或距离度量值。 有时间粒度,如每小时或每日,以及位置粒度,如最近的距离。

selectors

包含用于从客户数据集选择和联接数据以及来自公共数据集的数据的功能。

选择器定义逻辑,使你能够基于时间和距离度量值使用公共数据集扩充数据。 例如,使用选择器,你可以根据最近的位置或舍入到同一时间粒度来查找要与数据联接的公共数据。

使用包中的 enrichers 某个类时指定选择器。

模块

environ

定义使用 Azure 开放数据集的运行时环境类。

本模块中的类可确保针对不同的环境优化 Azure 开放数据集功能。 通常,无需实例化这些环境类或担心它们的实现。 请改用 get_environ 模块函数返回环境。

BingCOVID19Data

表示必应 COVID-19 数据集。

此数据集包含来自多个受信任可靠来源的必应 COVID-19 数据,包括世界卫生组织(WHO)、疾病控制和预防中心(CDC)、国家和州公共卫生部门、BNO 新闻、24/7 墙街和维基百科。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅 Microsoft Azure 开放数据集目录中的 必应 COVID-19 数据

初始化筛选字段。

BostonSafety

表示波士顿安全公共数据集。

此数据集包含向波士顿市报告的 311 次呼叫。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅 azure 开放数据集目录中Microsoft 波士顿安全数据

初始化筛选字段。

COVID19OpenResearch

表示 COVID-19 开放研究数据集。

有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅 Microsoft Azure 开放数据集目录中的 COVID-19 开放研究数据集

COVIDTrackingProject

表示 COVID 跟踪项目数据集。

此数据集包含 COVID 跟踪项目数据集,提供来自每个美国州和地区的测试、确诊病例、住院和患者结果的最新数字。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅 Microsoft Azure 开放数据集目录中的 COVID 跟踪项目数据集

初始化筛选字段。

ChicagoSafety

表示芝加哥安全公共数据集。

此数据集包含来自芝加哥市的 311 个服务请求,包括历史卫生代码投诉、报告锅洞和路灯问题。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅 Microsoft Azure 开放数据集目录中的 芝加哥安全数据

初始化筛选字段。

CitySafety

城市安全类 - 这是一个父类,可以由每个城市继承。

初始化筛选字段。

Diabetes

表示示例糖尿病公共数据集。

糖尿病数据集中包含带有 10 个特性的 442 个样本,因此非常适合用于机器学习算法入门练习。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅“ 示例: Microsoft Azure 开放数据集目录中的糖尿病。

EcdcCOVIDCases

代表欧洲疾病预防控制中心(ECDC)新冠肺炎病例。

此数据集包含来自欧洲疾病预防控制中心(ECDC)。 每行/条目包含每天和每个国家/地区报告的新事例数。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅 Azure 开放数据集目录中 Microsoft的 欧洲疾病预防控制中心 (ECDC) Covid-19 病例

初始化筛选字段。

MNIST

表示手写数字的 MNIST 数据集。

包含手写数字的 MNIST 数据库有一个 60,000 示例的训练集,还有一个 10,000 示例的测试集。 数字已调整大小规范化,并居中以固定大小图像为中心。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅 Microsoft Azure 开放数据集目录中 手写数字的 MNIST 数据库

有关使用 MNIST 数据集的示例,请参阅教程: 使用 MNIST 数据和 scikit-learn 使用 Azure 机器学习训练图像分类模型

NoParameterOpenDatasetBase

美国劳动基类。

初始化。

NoaaGfsWeather

代表国家海洋和大气管理局(NOAA)全球预报系统(GFS)数据集。

此数据集包含美国国家海洋和大气管理局(NOAA)由全球预报系统(GFS)生成的15天美国每小时天气预报数据(例如:温度、降水、风)。 有关此数据集的信息,包括列说明、访问数据集的不同方式和示例,请参阅 Microsoft Azure 开放数据集目录中的 NOAA 全局预测系统

初始化筛选字段。

NoaaIsdWeather

代表国家海洋和大气管理局(NOAA)综合表面数据集(ISD)。

此数据集包含来自国家海洋和大气管理局(NOAA)的全球每小时天气历史数据(例如:温度、降水、风)。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅 Microsoft Azure 开放数据集目录中 的 NOAA 集成 Surface Data

初始化筛选字段。

NycSafety

表示纽约市安全公共数据集。

该数据集包含 2010 年至今纽约市的所有 311 服务请求。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅 azure 开放数据集目录中Microsoft 纽约市安全数据

初始化筛选字段。

NycTaxiBase

纽约出租车类 - 这是可以继承的父类。

初始化筛选字段。

NycTlcFhv

表示 NYC 出租车和豪华轿车委员会公共数据集。

此数据集包含 For-Hire Vechicle (FHV) 行程记录,其中包括捕获调度基本许可证号和拾取日期、时间和出租车区域位置 ID(下面的形状文件)的字段。 这些记录是从基础提交的 FHV 行程记录提交生成的。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式以及示例,请参阅 Microsoft Azure 开放数据集目录中的 NYC 出租车和豪华轿车委员会 - For-Hire 车辆(FHV)行程记录

初始化筛选字段。

NycTlcGreen

表示纽约市出租车和豪华轿车委员会绿色出租车行程公共数据集。

绿色出租车行程记录包括捕获上车和下车日期/时间、上车和下车地点、行程距离、逐项票价、费率类型、付款类型和司机报告的乘客计数的字段。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅Microsoft Azure 开放数据集目录中的 NYC 出租车和豪华轿车委员会 - 绿色出租车行程记录

有关使用 NycTlcGreen 类的示例,请参阅教程 :使用自动化机器学习来预测出租车费用

初始化筛选字段。

NycTlcYellow

表示 NYC 出租车和豪华轿车委员会黄色出租车行程公共数据集。

黄色出租车行程记录包括捕获上车和下车日期/时间、上车和下车地点、行程距离、明细票价、费率类型、付款类型和司机报告的乘客计数的字段。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式以及示例,请参阅Microsoft Azure 开放数据集目录中的 NYC 出租车和豪华轿车委员会 - 黄色出租车行程记录

初始化筛选字段。

OjSalesSimulated

表示 Sample Orange Juice Sales Simulated 数据数据集。

有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅示例:Microsoft Azure 开放数据集目录中的 OJ 销售模拟数据

PublicHolidays

表示公共假日公共数据集。

此数据集包含来自 PyPI 假日套餐和维基百科的全球公共假日数据,涵盖从 1970 年到 2099 年 38 个国家和地区。 每行指示特定日期、国家或地区的假日信息,以及大多数人是否带薪休假。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅 azure 开放数据集目录中Microsoft 公共假日

初始化筛选字段。

PublicHolidaysOffline

表示公共假日脱机公共数据集。

有关行的说明,请参阅 Microsoft Azure 开放数据集目录中的公共 假日

初始化筛选字段。

SampleDatasetBase

表示示例数据集基类。

SanFranciscoSafety

表示旧金山安全公共数据集。

此数据集包含消防部门在旧金山的服务调用和 311 个案例。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅 Azure 开放数据集目录中Microsoft 旧金山安全数据

初始化筛选字段。

SeattleSafety

表示 Seattle Safety 公共数据集。

此数据集包含 Seattle Fire Department 911 调度数据。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅 Azure 开放数据集目录中Microsoft Seattle Safety Data

初始化筛选字段。

UsLaborCPI

表示美国消费者价格指数公共数据集。

消费者价格指数(CPI)是城市消费者为一篮子消费品和服务市场支付的价格随时间推移的平均变化的衡量标准。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅 azure 开放数据集目录中Microsoft 美国消费者价格指数

初始化。

UsLaborEHENational

表示美国国家就业小时数和收入公共数据集。

此数据集包含美国非农工就业、小时数和工人收入的行业估计值。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式以及示例,请参阅 azure 开放数据集目录中Microsoft 美国国家就业小时数和收入

初始化。

UsLaborEHEState

表示美国国家就业小时数和收入公共数据集。

此数据集包含美国非农工就业、小时数和工人收入的行业估计值。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式,以及示例,请参阅 azure 开放数据集目录中Microsoft 美国州就业小时数和收入

初始化。

UsLaborLAUS

表示美国局部地区失业统计公共数据集。

此数据集包含美国人口普查区域和部门、州、县、大都市区和许多城市的月度和年度就业、失业和劳动力数据。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅 Microsoft Azure 开放数据集目录中 的“美国局部地区失业统计信息 ”。

初始化。

UsLaborLFS

表示美国劳动力统计公共数据集。

此数据集包含有关美国劳动力的数据,包括劳动力参与率,以及按年龄、性别、种族和种族划分的平民非宪法人口。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅 azure 开放数据集目录中Microsoft 美国劳动力统计信息

初始化。

UsLaborPPICommodity

表示美国生产者价格指数 (PPI) - 商品公共数据集。

生产者价格指数(PPI)是国内生产者为产量收到的销售价格随时间推移的平均变化的衡量标准。 PPI 中包含的价格来自涵盖的产品和服务的第一个商业交易。 此数据集包含单个产品和每月发布的产品组的 PPIS。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅Microsoft Azure 开放数据集目录中的 “美国生产者价格指数 - 商品 ”。

初始化。

UsLaborPPIIndustry

表示美国生产者价格指数 (PPI) - 行业公共数据集。

生产者价格指数(PPI)是国内生产者为产量收到的销售价格随时间推移的平均变化的衡量标准。 PPI 中包含的价格来自涵盖的产品和服务的第一个商业交易。 此数据集包含适用于美国经济的众多行业部门的 PPIS。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅Microsoft Azure 开放数据集目录中 的“美国生产者价格指数 - 行业 ”。

有关 Azure 开放数据集的一般信息,请参阅 Azure 开放数据集文档

初始化。

UsPopulationCounty

表示按县公共数据集表示美国人口。

此数据集包含从 2000 年和 2010 年 12 月人口普查中获取的每个美国县的性别和种族的美国人口。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅 Microsoft Azure 开放数据集目录中的 “按县分类的美国人口 ”。

初始化。

UsPopulationZip

表示美国人口(按邮政编码)公共数据集。

此数据集包含 2010 年 12 月人口普查中每个美国邮政编码的性别和种族的美国人口。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅 Microsoft Azure 开放数据集目录中的 “按邮政编码分类美国人口 ”。

初始化。