다음을 통해 공유


opendatasets 패키지

Azure Open Datasets를 데이터 프레임으로 사용하고 고객 데이터를 보강하는 기능을 포함합니다.

Azure Open Datasets는 보다 정확한 모델을 위해 기계 학습 솔루션에 시나리오별 기능을 추가하는 데 사용할 수 있는 큐레이팅된 공용 데이터 세트입니다. 이러한 공용 데이터 세트를 필터가 적용된 Spark 및 pandas 데이터 프레임으로 변환할 수 있습니다. 일부 데이터 세트의 경우 보강기를 사용하여 공용 데이터를 데이터와 조인할 수 있습니다. 예를 들어 경도 및 위도 또는 우편 번호 및 시간을 통해 데이터를 날씨 데이터와 조인할 수 있습니다.

Azure Open Datasets에는 기계 학습 모델을 학습시키고 예측 솔루션을 보강하는 데 도움이 되는 날씨, 인구 조사, 휴일, 공공 안전 및 위치에 대한 공용 도메인 데이터가 포함됩니다. 개방형 데이터 세트는 Microsoft Azure의 클라우드에 있으며 Azure Machine Learning에 통합됩니다. Azure Open Datasets 작업에 대한 자세한 내용은 Azure Open Datasets를 사용하여 데이터 세트 만들기를 참조하세요.

Azure Open Datasets에 대한 일반적인 내용은 Azure Open Datasets 설명서를 참조하세요.

패키지

accessories

위도/긴, 우편 번호 및 시간을 포함하여 데이터의 열 형식을 식별하는 데 도움이 되는 기능을 포함합니다.

aggregators

조인된 데이터를 집계하는 방법을 정의하는 기능을 포함합니다.

집계자는 두 데이터 세트의 데이터를 조인한 결과에서 수행할 수 있는 작업을 정의합니다. 예를 들어 클래스 중 enrichers하나를 사용하는 경우 작업의 일부로 집계를 지정할 수 있습니다. 집계가 필요하지 AggregatorAll않은 경우 .

data

publicholidays 모듈의 데이터 리소스에 대한 init 파일을 포함합니다.

dataaccess

Blob 파일 액세스 메서드를 제공하는 기능을 포함합니다.

클래스와 같은 패키지의 opendatasets 클래스를 ChicagoSafety 사용하는 경우 이 패키지의 dataaccess 클래스 및 함수가 내부적으로 사용됩니다. 일반적으로 dataaccess 패키지의 기능을 직접 사용할 필요가 없습니다.

enrichers

두 데이터 세트의 데이터를 보강하고 함께 조인하는 기능을 포함합니다.

일반적으로 보강자는 서로 다른 원본의 데이터를 함께 조인합니다. 특히 보강기를 사용하면 데이터(고객 데이터)를 Azure Open Datasets 또는 기타 공용 데이터 세트의 데이터와 조인할 수 있습니다.

granularities

보강자가 사용하는 시간 및 거리 측정값을 정의하는 기능을 포함합니다.

세분성은 데이터를 보강(조인)할 때 사용되는 enrichers 시간 또는 거리의 측정값입니다. 시간별 또는 매일과 같은 시간 세분성과 가장 가까운 거리와 같은 위치 세분성이 있습니다.

selectors

고객 데이터 세트의 데이터를 선택하고 공용 데이터 세트의 데이터와 조인하는 기능을 포함합니다.

선택기는 시간 및 거리 측정값에 따라 공용 데이터 세트로 데이터를 보강할 수 있는 논리를 정의합니다. 예를 들어 선택기를 사용하면 가장 가까운 위치에 따라 또는 동일한 시간 세분성으로 반올림하여 데이터와 조인할 공용 데이터를 찾을 수 있습니다.

패키지의 클래스 중 하나를 사용할 때 선택기를 지정합니다 enrichers .

모듈

environ

Azure Open Datasets가 사용되는 런타임 환경 클래스를 정의합니다.

이 모듈의 클래스는 Azure Open Datasets 기능이 다양한 환경에 최적화되어 있는지 확인합니다. 일반적으로 이러한 환경 클래스를 인스턴스화하거나 구현에 대해 걱정할 필요가 없습니다. 대신 모듈 함수를 get_environ 사용하여 환경을 반환합니다.

클래스

BingCOVID19Data

Bing COVID-19 데이터 세트를 나타냅니다.

이 데이터 세트에는 세계보건기구(WHO), CDC(질병통제예방센터), 국가 및 주 공중보건부, BNO 뉴스, 24/7 월 스트리트 및 위키백과를 포함한 신뢰할 수 있는 여러 신뢰할 수 있는 출처의 Bing COVID-19 데이터가 포함되어 있습니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 Bing COVID-19 데이터를 참조하세요.

필터링 필드를 초기화합니다.

BostonSafety

Boston Safety 공용 데이터 세트를 나타냅니다.

이 데이터 세트에는 보스턴 시에 보고된 311건의 통화가 포함되어 있습니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 Boston Safety Data 를 참조하세요.

필터링 필드를 초기화합니다.

COVID19OpenResearch

COVID-19 Open Research 데이터 세트를 나타냅니다.

열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 COVID-19 Open Research 데이터 세트를 참조하세요.

COVIDTrackingProject

COVID 추적 프로젝트 데이터 세트를 나타냅니다.

이 데이터 세트에는 모든 미국 주 및 지역의 테스트, 확인된 사례, 입원 및 환자 결과에 대한 최신 숫자를 제공하는 COVID 추적 프로젝트 데이터 세트가 포함되어 있습니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 COVID 추적 프로젝트 데이터 세트를 참조하세요.

필터링 필드를 초기화합니다.

ChicagoSafety

시카고 안전 공용 데이터 세트를 나타냅니다.

이 데이터 세트에는 기록 위생 코드 불만, 보고된 냄비 구멍 및 가로등 문제를 포함하여 시카고 시의 311개 서비스 요청이 포함되어 있습니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 Chicago Safety Data 를 참조하세요.

필터링 필드를 초기화합니다.

CitySafety

도시 안전 클래스 - 각 개별 도시에서 상속할 수 있는 부모 클래스입니다.

필터링 필드를 초기화합니다.

Diabetes

샘플 Diabetes 공용 데이터 세트를 나타냅니다.

Diabetes 데이터 세트에는 10개 특성이 포함된 442개 샘플이 있으며, 이는 기계 학습 알고리즘을 시작하는 데 적합합니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 샘플: Microsoft Azure Open Datasets 카탈로그의 Diabetes 를 참조하세요.

EcdcCOVIDCases

유럽 질병 예방 및 통제 센터 (ECDC) 코비드-19 케이스를 나타냅니다.

이 데이터 세트는 ECDC(유럽 질병 예방 및 통제 센터)에 포함되어 있습니다. 각 행/항목에는 일별 및 국가/지역별로 보고된 새 사례 수가 포함됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 ECDC(유럽 질병 예방 및 제어 센터) Covid-19 사례를 참조하세요.

필터링 필드를 초기화합니다.

MNIST

필기 숫자의 MNIST 데이터 세트를 나타냅니다.

필기 숫자 MNIST 데이터베이스에는 예제 60,000개가 있는 학습 세트와 예제 10,000개가 있는 테스트 세트가 포함됩니다. 숫자는 크기 정규화되었으며 고정 크기 이미지에서 가운데에 배치되었습니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그 에서 필기된 숫자의 MNIST 데이터베이스 를 참조하세요.

MNIST 데이터 세트를 사용하는 예제는 Azure Machine Learning을 사용하여 MNIST 데이터 및 scikit-learn을 사용하여 이미지 분류 모델 학습 자습서를 참조하세요.

NoParameterOpenDatasetBase

미국 노동 기본 클래스.

초기화.

NoaaGfsWeather

NOAA(National Oceanic and Atmospheric Administration) GFS(Global Forecast System) 데이터 세트를 나타냅니다.

이 데이터 세트에는 미국 국립해양대기청(NOAA)의 GFS(Global Forecast System)에서 생성된 15일 간의 미국 시간별 일기 예보 데이터(예: 온도, 강수량, 바람)가 포함됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 NOAA 글로벌 예측 시스템을 참조하세요.

필터링 필드를 초기화합니다.

NoaaIsdWeather

NOAA(National Oceanic and Atmospheric Administration) ISD(통합 표면 데이터 세트)를 나타냅니다.

이 데이터 세트에는 NOAA(국립해양대기청)에서 공급된 전 세계 시간별 기상 기록 데이터(예: 온도, 강수량, 바람)가 포함됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 NOAA 통합 Surface Data 를 참조하세요.

필터링 필드를 초기화합니다.

NycSafety

뉴욕시 안전 공용 데이터 세트를 나타냅니다.

이 데이터 세트는 2010년부터 현재까지의 모든 뉴욕시 311 서비스 요청을 포함하며, 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 뉴욕시 안전 데이터를 참조하세요.

필터링 필드를 초기화합니다.

NycTaxiBase

뉴욕 택시 클래스 - 상속할 수 있는 부모 클래스입니다.

필터링 필드를 초기화합니다.

NycTlcFhv

NYC Taxi 및 리무진 위원회 공용 데이터 세트를 나타냅니다.

이 데이터 세트에는 디스패치 기본 라이선스 번호와 픽업 날짜, 시간 및 택시 구역 위치 ID(아래 셰이프 파일)를 캡처하는 필드가 포함된 For-Hire Vechicle(FHV) 여정 레코드가 포함됩니다. 이러한 레코드는 기본에 의해 제출된 FHV Trip Record 제출에서 생성됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 NYC Taxi &Limousine Commission - For-Hire Vehicle(FHV) 여정 레코드 를 참조하세요.

필터링 필드를 초기화합니다.

NycTlcGreen

NYC Taxi & 리무진 위원회 녹색 택시 여행 공용 데이터 세트를 나타냅니다.

녹색 택시 여행 기록에는 픽업 및 하차 날짜/시간, 승차 및 하차 위치, 여정 거리, 항목별 요금, 요금 유형, 지불 유형 및 운전자가 보고한 승객 수를 캡처하는 필드가 포함됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 MICROSOFT Azure Open Datasets 카탈로그의 녹색 택시 여정 레코드인 NYC Taxi &Limousine Commission 를 참조하세요.

NycTlcGreen 클래스를 사용하는 예제는 자동화된 기계 학습을 사용하여 택시 요금을 예측하는 자습서를 참조하세요.

필터링 필드를 초기화합니다.

NycTlcYellow

NYC Taxi & 리무진 위원회 노란색 택시 여행 공용 데이터 세트를 나타냅니다.

노란색 택시 여행 기록에는 승차 및 하차 날짜/시간, 승차 및 하차 위치, 여정 거리, 항목별 요금, 요금 유형, 지불 유형 및 운전자가 보고한 승객 수를 캡처하는 필드가 포함됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 MICROSOFT Azure Open Datasets 카탈로그의 NYC Taxi &Limousine Commission - 노란색 택시 여정 레코드 를 참조하세요.

필터링 필드를 초기화합니다.

OjSalesSimulated

샘플 Orange Juice Sales 시뮬레이트된 데이터 세트를 나타냅니다.

열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 샘플: OJ Sales Simulated Data 를 참조하세요.

PublicHolidays

공휴일 공휴일 데이터 세트를 나타냅니다.

이 데이터 세트는 1970년부터 2099년까지 38개 국가 또는 지역을 포괄하는 PyPI 휴일 패키지 및 Wikipedia에서 원본으로 사용하는 전 세계 공휴일 데이터를 포함합니다. 각 행은 특정 날짜, 국가 또는 지역의 휴일 정보와 대부분의 사람들이 휴가를 지불했는지 여부를 나타냅니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 공휴일 을 참조하세요.

필터링 필드를 초기화합니다.

PublicHolidaysOffline

공휴일 오프라인 공용 데이터 세트를 나타냅니다.

행에 대한 설명은 Microsoft Azure Open Datasets 카탈로그의 공휴일 을 참조하세요.

필터링 필드를 초기화합니다.

SampleDatasetBase

Sample Dataset Base 클래스를 나타냅니다.

SanFranciscoSafety

샌프란시스코 안전 공용 데이터 세트를 나타냅니다.

이 데이터 세트에는 샌프란시스코의 소방서 호출과 311건의 서비스가 포함되어 있습니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 샌프란시스코 안전 데이터를 참조하세요.

필터링 필드를 초기화합니다.

SeattleSafety

시애틀 안전 공용 데이터 세트를 나타냅니다.

이 데이터 세트에는 시애틀 소방서 911 디스패치 데이터가 포함되어 있습니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 Seattle Safety Data 를 참조하세요.

필터링 필드를 초기화합니다.

UsLaborCPI

미국 소비자 물가 지수 공용 데이터 세트를 나타냅니다.

CPI(소비자 물가 지수)는 소비재 및 서비스의 시장 바구니에 대해 도시 소비자가 지불한 가격의 시간 경과에 따른 평균 변화를 측정한 것입니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 미국 소비자 가격 지수 를 참조하세요.

초기화.

UsLaborEHENational

미국 국가 고용 시간 및 수입 공개 데이터 세트를 나타냅니다.

이 데이터 세트에는 미국의 비농업 고용, 시간 및 임금 근로자의 수입에 대한 업계 추정치가 포함되어 있습니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그에서 미국 국가 고용 시간 및 수익 을 참조하세요.

초기화.

UsLaborEHEState

미국 주 고용 시간 및 수입 공개 데이터 세트를 나타냅니다.

이 데이터 세트에는 미국의 비농업 고용, 시간 및 임금 근로자의 수입에 대한 업계 추정치가 포함되어 있습니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 비롯한 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그에서 미국 주 고용 시간 및 수익을 참조하세요.

초기화.

UsLaborLAUS

미국 지역 실업 통계 공용 데이터 세트를 나타냅니다.

이 데이터 세트에는 인구 조사 지역 및 부서, 주, 카운티, 대도시 지역 및 미국의 많은 도시에 대한 월별 및 연간 고용, 실업 및 노동력 데이터가 포함됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 미국 지역 실업 통계 를 참조하세요.

초기화.

UsLaborLFS

미국 노동력 통계 공용 데이터 세트를 나타냅니다.

이 데이터 세트에는 노동력 참여율을 포함하여 미국의 노동력에 대한 데이터와 연령, 성별, 인종 및 인종별 민간인 비정형 인구가 포함됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 미국 노동력 통계 를 참조하세요.

초기화.

UsLaborPPICommodity

미국 PPI(생산자 물가 지수) - 상품 공용 데이터 세트를 나타냅니다.

PPI(생산자 물가 지수)는 국내 생산자가 출력에 대해 받은 판매 가격의 시간 경과에 따른 평균 변동을 측정한 것입니다. PPI에 포함된 가격은 적용되는 제품 및 서비스에 대한 첫 번째 상용 거래에서 가져옵니다. 이 데이터 세트에는 매월 릴리스되는 개별 제품 및 제품 그룹에 대한 API가 포함되어 있습니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 미국 생산자 가격 인덱스 - 상품을 참조하세요.

초기화.

UsLaborPPIIndustry

미국 PPI(생산자 물가 지수) - 업계 공용 데이터 세트를 나타냅니다.

PPI(생산자 물가 지수)는 국내 생산자가 출력에 대해 받은 판매 가격의 시간 경과에 따른 평균 변동을 측정한 것입니다. PPI에 포함된 가격은 적용되는 제품 및 서비스에 대한 첫 번째 상용 거래에서 가져옵니다. 이 데이터 세트에는 미국 경제의 광범위한 산업 부문에 대한 API가 포함되어 있습니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 미국 생산자 가격 지수 - 업계 를 참조하세요.

Azure Open Datasets에 대한 일반적인 내용은 Azure Open Datasets 설명서를 참조하세요.

초기화.

UsPopulationCounty

County 공용 데이터 세트별 미국 인구를 나타냅니다.

이 데이터 세트에는 2000년과 2010년 10월 인구 조사에서 공급된 각 미국 카운티의 성별 및 인종별 미국 인구가 포함됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 County별 미국 인구를 참조하세요.

초기화.

UsPopulationZip

우편 번호 공용 데이터 세트별 미국 채우기를 나타냅니다.

이 데이터 세트에는 2010년 10월 인구 조사에서 공급된 각 미국 우편 번호에 대한 성별 및 인종별 미국 인구가 포함됩니다. 열 설명, 데이터 세트에 액세스하는 다양한 방법 및 예제를 포함하여 이 데이터 세트에 대한 자세한 내용은 Microsoft Azure Open Datasets 카탈로그의 우편 번호별 미국 채우기를 참조하세요.

초기화.