Compartir a través de


opendatasets Paquete

Contiene la funcionalidad para consumir Azure Open Datasets como tramas de datos y para enriquecer los datos de los clientes.

Los conjuntos de datos abiertos de Azure son conjuntos de datos públicos mantenidos que puede usar para agregar características específicas del escenario a soluciones de aprendizaje automático para modelos más precisos. Puede convertir estos conjuntos de datos públicos en tramas de datos spark y pandas con filtros aplicados. Para algunos conjuntos de datos, puede usar un enriquecidor para unir los datos públicos con los datos. Por ejemplo, puede unir los datos con datos meteorológicos por longitud y latitud o código postal y hora.

Los conjuntos de datos abiertos de Azure se incluyen en datos de dominio público para el tiempo, el censo, los días festivos, la seguridad pública y la ubicación que le ayudan a entrenar modelos de aprendizaje automático y enriquecer las soluciones predictivas. Los conjuntos de datos abiertos se encuentran en la nube en Microsoft Azure y se integran en Azure Machine Learning. Para más información sobre cómo trabajar con Azure Open Datasets, consulte Creación de conjuntos de datos con Azure Open Datasets.

Para obtener información general sobre Azure Open Datasets, consulte Documentación de Azure Open Datasets.

Paquetes

accessories

Contiene funcionalidad que ayuda a identificar tipos de columna en datos, como lat/long, zipcode y time.

aggregators

Contiene la funcionalidad para definir cómo se agregan los datos unidos.

Los agregadores definen las operaciones que se pueden realizar en el resultado de combinar datos de dos conjuntos de datos. Por ejemplo, cuando se usa una de las clases de enrichers, puede especificar un agregador como parte de la operación. Si no se necesita ninguna agregación, use AggregatorAll.

data

Contiene el archivo de inicialización para los recursos de datos en el módulo publicholidays.

dataaccess

Contiene la funcionalidad que proporciona métodos de acceso a archivos de blobs.

Cuando se usa una clase del opendatasets paquete como la ChicagoSafety clase , las clases y funciones de dataaccess de este paquete se usan internamente. En general, no tendrá que usar la funcionalidad en el paquete dataaccess directamente.

enrichers

Contiene funcionalidad para enriquecer y combinar datos de dos conjuntos de datos.

Por lo general, los enriquecedores unen datos de diferentes orígenes. En concreto, los enriquecedores permiten combinar los datos (datos de cliente) con datos de Azure Open Datasets u otros conjuntos de datos públicos.

granularities

Contiene la funcionalidad que define las medidas de tiempo y distancia que usan los enriquecedores.

Las granularidades son medidas de tiempo o distancia usadas al enrichers enriquecer (combinar) datos. Hay granularidades de tiempo, como cada hora o diaria, y granularidad de ubicación, como la distancia más cercana.

selectors

Contiene funcionalidad para seleccionar y combinar datos de un conjunto de datos de cliente con datos de un conjunto de datos público.

Los selectores definen la lógica que permite enriquecer los datos con conjuntos de datos públicos en función de las medidas de tiempo y distancia. Por ejemplo, con un selector puede encontrar datos públicos para combinarlos con los datos en función de la ubicación más cercana o redondeando a la misma granularidad de tiempo.

Especifique selectores al trabajar con una de las clases del enrichers paquete.

Módulos

environ

Define las clases de entorno en tiempo de ejecución en las que se usan Azure Open Datasets.

Las clases de este módulo garantizan que la funcionalidad de Azure Open Datasets esté optimizada para distintos entornos. En general, no es necesario crear instancias de estas clases de entorno ni preocuparse por su implementación. En su lugar, use la get_environ función de módulo para devolver el entorno.

Clases

BingCOVID19Data

Representa el conjunto de datos bing COVID-19.

Estos conjuntos de datos contienen datos de Bing COVID-19 de varios orígenes confiables, incluidos la Organización Mundial de la Salud (OMS), centros de control y prevención de enfermedades (CDC), departamentos de salud pública nacionales y estatales, BNO News, 24/7 Wall St., y Wikipedia. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, distintas formas de acceder al conjunto de datos y ejemplos, consulte Datos de Bing COVID-19 en el catálogo de Conjuntos de datos abiertos de Microsoft Azure.

Inicialice los campos de filtrado.

BostonSafety

Representa el conjunto de datos público de Boston Safety.

Este conjunto de datos contiene 311 llamadas notificadas a la ciudad de Boston. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, distintas formas de acceder al conjunto de datos y ejemplos, consulte Datos de seguridad de Boston en el catálogo de Microsoft Azure Open Datasets.

Inicialice los campos de filtrado.

COVID19OpenResearch

Representa el conjunto de datos de investigación abierta de COVID-19.

Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, distintas formas de acceder al conjunto de datos y ejemplos, consulte Conjunto de datos de investigación abierta de COVID-19 en el catálogo de Conjuntos de datos abiertos de Microsoft Azure.

COVIDTrackingProject

Representa el conjunto de datos del proyecto de seguimiento de COVID.

Estos conjuntos de datos contienen el conjunto de datos del proyecto de seguimiento de covid que proporciona los números más recientes sobre las pruebas, los casos confirmados, las hospitalizaciones y los resultados de los pacientes de cada estado y territorio de EE. UU. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, distintas formas de acceder al conjunto de datos y ejemplos, consulte Conjuntos de datos del proyecto de seguimiento de COVID en el catálogo de Conjuntos de datos abiertos de Microsoft Azure.

Inicialice los campos de filtrado.

ChicagoSafety

Representa el conjunto de datos público de Seguridad de Chicago.

Este conjunto de datos contiene 311 solicitudes de servicio de la ciudad de Chicago, incluidas quejas históricas de código de saneamiento, agujeros de olla notificados y problemas de luz de calle. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, diferentes formas de acceder al conjunto de datos y ejemplos, consulte Datos de seguridad de Chicago en el catálogo de Conjuntos de datos abiertos de Microsoft Azure.

Inicialice los campos de filtrado.

CitySafety

Clase de seguridad de la ciudad: se trata de una clase primaria que cada ciudad individual puede heredar.

Inicialice los campos de filtrado.

Diabetes

Representa el conjunto de datos público de Diabetes de ejemplo.

El conjunto de datos de Diabetes tiene 442 muestras con 10 características, por lo que es ideal para comenzar con algoritmos de aprendizaje automático. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, diferentes formas de acceder al conjunto de datos y ejemplos, consulte Ejemplo: Diabetes en el catálogo de Conjuntos de datos abiertos de Microsoft Azure.

EcdcCOVIDCases

Representa el Centro Europeo de Prevención y Control de Enfermedades (ECDC) Casos de Covid-19.

Estos conjuntos de datos contienen del Centro Europeo de Prevención y Control de Enfermedades (ECDC). Cada fila o entrada contiene el número de casos nuevos notificados por día y por país o región. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, diferentes formas de acceder al conjunto de datos y ejemplos, consulte Centro Europeo de Prevención y Control de Enfermedades (ECDC) Casos de Covid-19 en el catálogo de Conjuntos de datos abiertos de Microsoft Azure.

Inicialice los campos de filtrado.

MNIST

Representa el conjunto de datos MNIST de dígitos manuscritos.

La base de datos MNIST de dígitos manuscritos tiene un conjunto de entrenamiento de 60 000 ejemplos y un conjunto de prueba de 10 000 ejemplos. Los dígitos se han normalizado y centrado en una imagen de tamaño fijo. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, distintas formas de acceder al conjunto de datos y ejemplos, consulte La base de datos MNIST de dígitos manuscritos en el catálogo de Microsoft Azure Open Datasets.

Para obtener un ejemplo del uso del conjunto de datos MNIST, consulte el tutorial Entrenamiento de modelos de clasificación de imágenes con datos MNIST y scikit-learn mediante Azure Machine Learning.

NoParameterOpenDatasetBase

Clase base laboral estadounidense.

Inicializar.

NoaaGfsWeather

Representa el conjunto de datos national oceanic and atmospheric administration (NOAA) Global Forecast System (GFS).

Este conjunto de datos contiene datos de previsión meteorológica por hora de 15 días de EE. UU. (ejemplo: temperatura, precipitación, viento) producidos por el sistema de previsión global (GFS) de la Administración Nacional Oceanica y Atmosférica (NOAA). Para obtener información sobre este conjunto de datos, incluidas las descripciones de columnas, distintas formas de acceder al conjunto de datos y ejemplos, consulte NOAA Global Forecast System en el catálogo de Microsoft Azure Open Datasets.

Inicialice los campos de filtrado.

NoaaIsdWeather

Representa el conjunto de datos de superficie integrada (ISD) de administración oceanica y atmosférica (NOAA).

Este conjunto de datos contiene datos de historial meteorológico por hora en todo el mundo (ejemplo: temperatura, precipitación, viento) procedentes de la Administración Nacional Oceanica y Atmosférica (NOAA). Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, distintas formas de acceder al conjunto de datos y ejemplos, consulte Datos de superficie integrados de NOAA en el catálogo de Conjuntos de datos abiertos de Microsoft Azure.

Inicialice los campos de filtrado.

NycSafety

Representa el conjunto de datos público de Seguridad de la ciudad de Nueva York.

Este conjunto de datos contiene todas las solicitudes de servicio en el número 311 de la ciudad de Nueva York desde 2010 hasta la actualidad. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, distintas formas de acceder al conjunto de datos y ejemplos, consulte Datos de seguridad de la ciudad de Nueva York en el catálogo de Conjuntos de datos abiertos de Microsoft Azure.

Inicialice los campos de filtrado.

NycTaxiBase

Clase Taxi de Nueva York: se trata de una clase primaria que se puede heredar.

Inicialice los campos de filtrado.

NycTlcFhv

Representa el conjunto de datos público nyc Taxi & Limousine Commission.

Este conjunto de datos contiene For-Hire registros de carreras de Vechicle (FHV), que incluyen campos que capturan el número de licencia base de distribución y el identificador de ubicación de ubicación de la zona de taxi (archivo de forma siguiente). Estos registros se generan a partir de los envíos FHV Trip Record realizados por bases. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, diferentes formas de acceder al conjunto de datos y ejemplos, consulte Nyc Taxi & Limousine Commission - For-Hire Registros de viajes de vehículos (FHV) en el catálogo de Microsoft Azure Open Datasets.

Inicialice los campos de filtrado.

NycTlcGreen

Representa el conjunto de datos público nyc Taxi & Limousine Commission green taxi trip.

Los registros verdes de carreras de taxi incluyen campos que capturan fechas y horas de recogida y entrega, ubicaciones de recogida y entrega, distancias de viaje, tarifas desglosadas, tipos de tarifas, tipos de pago y recuentos de pasajeros notificados por el conductor. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, diferentes formas de acceder al conjunto de datos y ejemplos, consulte NYC Taxi & Limousine Commission - green taxi trip records in the Microsoft Azure Open Datasets catalog.

Para obtener un ejemplo del uso de la clase NycTlcGreen, consulte el tutorial Uso del aprendizaje automático automatizado para predecir tarifas de taxi.

Inicialice los campos de filtrado.

NycTlcYellow

Representa el conjunto de datos público nyc taxi & Limousine Commission.

Los registros amarillos de carreras de taxi incluyen campos que capturan fechas y horas de recogida y entrega, ubicaciones de recogida y entrega, distancias de viaje, tarifas desglosadas, tipos de tarifas, tipos de pago y recuentos de pasajeros notificados por el conductor. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, diferentes formas de acceder al conjunto de datos y ejemplos, consulte NYC Taxi & Limousine Commission - yellow taxi trip records in the Microsoft Azure Open Datasets catalog.

Inicialice los campos de filtrado.

OjSalesSimulated

Representa el conjunto de datos de datos simulado sample Orange Juice Sales.

Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, distintas formas de acceder al conjunto de datos y ejemplos, consulte Ejemplo: Datos simulados de ventas de OJ en el catálogo de Conjuntos de datos abiertos de Microsoft Azure.

PublicHolidays

Representa el conjunto de datos público días festivos.

Estos conjuntos de datos contienen datos de días festivos públicos de todo el mundo procedentes del paquete de vacaciones pyPI y Wikipedia, que abarcan 38 países o regiones de 1970 a 2099. Cada fila indica la información de vacaciones de una fecha específica, país o región, y si la mayoría de las personas han pagado el tiempo de espera. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, distintas formas de acceder al conjunto de datos y ejemplos, consulte Días festivos públicos en el catálogo de Conjuntos de datos abiertos de Microsoft Azure.

Inicialice los campos de filtrado.

PublicHolidaysOffline

Representa el conjunto de datos público días festivos sin conexión.

Para obtener una descripción de las filas, consulte los días festivos públicos en el catálogo de Microsoft Azure Open Datasets.

Inicialice los campos de filtrado.

SampleDatasetBase

Representa la clase Base de conjunto de datos de ejemplo.

SanFranciscoSafety

Representa el conjunto de datos público de Seguridad de San Francisco.

Este conjunto de datos contiene llamadas de servicio y 311 casos en San Francisco. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, distintas formas de acceder al conjunto de datos y ejemplos, consulte Datos de seguridad de San Francisco en el catálogo de Conjuntos de datos abiertos de Microsoft Azure.

Inicialice los campos de filtrado.

SeattleSafety

Representa el conjunto de datos público de Seguridad de Seattle.

Este conjunto de datos contiene datos de envío del Departamento de Bomberos de Seattle 911. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, distintas formas de acceder al conjunto de datos y ejemplos, consulte Seattle Safety Data in the Microsoft Azure Open Datasets catalog (Datos de seguridad de Seattle en el catálogo de Conjuntos de datos abiertos de Microsoft Azure).

Inicialice los campos de filtrado.

UsLaborCPI

Representa el conjunto de datos público índice de precios de consumo de EE. UU.

El Índice de Precios de Consumo (CPI) es una medida del cambio medio a lo largo del tiempo en los precios pagados por los consumidores urbanos para una cesta del mercado de bienes y servicios de consumo. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, distintas formas de acceder al conjunto de datos y ejemplos, consulte Índice de precios de consumidor de EE. UU . en el catálogo de Conjuntos de datos abiertos de Microsoft Azure.

Inicializar.

UsLaborEHENational

Representa el conjunto de datos público de horas de empleo y ganancias nacionales de EE. UU.

Este conjunto de datos contiene estimaciones del sector del empleo, las horas y las ganancias de los trabajadores en las nóminas de los Estados Unidos. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, distintas formas de acceder al conjunto de datos y ejemplos, consulte Horas de empleo nacionales de EE. UU. y Ganancias en el catálogo de Conjuntos de datos abiertos de Microsoft Azure.

Inicializar.

UsLaborEHEState

Representa el conjunto de datos público de horas de empleo y ganancias del Estado de EE. UU.

Este conjunto de datos contiene estimaciones del sector del empleo, las horas y las ganancias de los trabajadores en las nóminas de los Estados Unidos. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, distintas formas de acceder al conjunto de datos y ejemplos, consulte Us State Employment Hours and Earning in the Microsoft Azure Open Datasets catalog ( Horas de empleo del estado de EE. UU. y Ganancias en el catálogo de Conjuntos de datos abiertos de Microsoft Azure).

Inicializar.

UsLaborLAUS

Representa el conjunto de datos público estadísticas de desempleo del área local de EE. UU.

Este conjunto de datos contiene datos de empleo, desempleo y fuerza laboral mensuales y anuales para regiones y divisiones del censo, Estados, condados, áreas metropolitanas y muchas ciudades de Los Estados Unidos. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, distintas formas de acceder al conjunto de datos y ejemplos, consulte Estadísticas de desempleo de área local de EE. UU . en el catálogo de Conjuntos de datos abiertos de Microsoft Azure.

Inicializar.

UsLaborLFS

Representa el conjunto de datos público de estadísticas de la fuerza laboral de EE. UU.

Este conjunto de datos contiene datos sobre la fuerza laboral de los Estados Unidos, incluidas las tasas de participación de la fuerza laboral, y la población civil no institucional por edad, género, raza y grupos étnicos. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, distintas formas de acceder al conjunto de datos y ejemplos, consulte Estadísticas de fuerza laboral de EE. UU . en el catálogo de Conjuntos de datos abiertos de Microsoft Azure.

Inicializar.

UsLaborPPICommodity

Representa el índice de precios de productor (PPI) de ESTADOS Unidos: conjunto de datos público de productos básicos.

El Índice de Precios de Productor (PPI) es una medida de cambio medio a lo largo del tiempo en los precios de venta recibidos por los productores nacionales para su salida. Los precios incluidos en el PPI proceden de la primera transacción comercial para productos y servicios cubiertos. Este conjunto de datos contiene PPIs para productos individuales y grupos de productos publicados mensualmente. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, distintas formas de acceder al conjunto de datos y ejemplos, consulte Índice de precios de productor de EE. UU. - Productos básicos en el catálogo de Conjuntos de datos abiertos de Microsoft Azure.

Inicializar.

UsLaborPPIIndustry

Representa el índice de precios de productor (PPI) de ESTADOS Unidos: conjunto de datos público del sector.

El Índice de Precios de Productor (PPI) es una medida de cambio medio a lo largo del tiempo en los precios de venta recibidos por los productores nacionales para su salida. Los precios incluidos en el PPI proceden de la primera transacción comercial para productos y servicios cubiertos. Este conjunto de datos contiene PPIs para una amplia gama de sectores industriales de la economía estadounidense. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, diferentes formas de acceder al conjunto de datos y ejemplos, consulte Índice de precios de productor de EE. UU. - Sector en el catálogo de Conjuntos de datos abiertos de Microsoft Azure.

Para obtener información general sobre Azure Open Datasets, consulte Documentación de Azure Open Datasets.

Inicializar.

UsPopulationCounty

Representa el conjunto de datos público de la población de EE. UU. por condado.

Este conjunto de datos contiene la población estadounidense por género y raza para cada condado de EE. UU. de origen de 2000 y 2010 censo de descennial. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, distintas formas de acceder al conjunto de datos y ejemplos, consulte Us Population by County en el catálogo de Conjuntos de datos abiertos de Microsoft Azure.

Inicializar.

UsPopulationZip

Representa el rellenado de EE. UU. por conjunto de datos público de código postal.

Este conjunto de datos contiene la población de EE. UU. por género y raza para cada código postal de EE. UU. fuente del censo de descennial de 2010. Para obtener más información sobre este conjunto de datos, incluidas las descripciones de columnas, distintas formas de acceder al conjunto de datos y ejemplos, consulte Rellenado de EE. UU. por código postal en el catálogo de Conjuntos de datos abiertos de Microsoft Azure.

Inicializar.