opendatasets パッケージ
Azure Open Datasets をデータフレームとして使用したり、顧客データをエンリッチしたりするための機能が含まれています。
Azure Open Datasets は、より正確なモデルを得るために機械学習ソリューションにシナリオ固有の機能を追加するために使用できる、キュレーションされたパブリック データセットです。 これらのパブリック データセットは、フィルターが適用された Spark および pandas データフレームに変換できます。 一部のデータセットでは、エンリッチャーを使用してパブリック データをデータと結合できます。 たとえば、経度、緯度、郵便番号、時刻で気象データとデータを結合できます。
Azure Open Datasets には、機械学習モデルのトレーニングと予測ソリューションの強化に役立つ、気象、国勢調査、休日、公共の安全、場所に関するパブリック ドメイン データが含まれます。 オープン データセットは Microsoft Azure 上のクラウドにあり、Azure Machine Learning に統合されています。 Azure Open Datasets の操作の詳細については、「Azure Open Datasets を 使用してデータセットを作成する」を参照してください。
Azure Open Datasets の一般的な情報については、 Azure Open Datasets のドキュメントを参照してください。
パッケージ
accessories |
lat/long、郵便番号、時刻など、データ内の列の種類を識別するのに役立つ機能が含まれています。 |
aggregators |
結合されたデータの集計方法を定義するための機能が含まれています。 アグリゲーターは、2 つのデータセットからデータを結合した結果に対して実行できる操作を定義します。 たとえば、 enrichersのいずれかのクラスを使用する場合は、操作の一部としてアグリゲーターを指定できます。 集計が必要ない場合は、 AggregatorAllを使用します。 |
data |
publicholidays モジュール内のデータ リソースの init ファイルが含まれています。 |
dataaccess |
BLOB ファイルアクセス方法を提供する機能が含まれています。 opendatasets クラスのようなChicagoSafety パッケージのクラスを使用すると、このパッケージ内の dataaccess クラスと関数が内部的に使用されます。 一般に、dataaccess パッケージの機能を直接使用する必要はありません。 |
enrichers |
2 つのデータセットからデータをエンリッチおよび結合するための機能が含まれています。 一般に、エンリッチャーはさまざまなソースのデータを結合します。 具体的には、エンリッチャーを使用すると、データ (顧客データ) と Azure Open Datasets またはその他のパブリック データセットのデータを結合できます。 |
granularities |
エンリッチャーによって使用される時間と距離のメジャーを定義する機能が含まれています。 粒度は、データをエンリッチ (結合) するときに enrichers によって使用される時間または距離の測定値です。 時間単位や日単位などの時間の細分性と、最も近い距離などの場所の細分性があります。 |
selectors |
顧客データセットからデータを選択して、パブリック データセットのデータと結合するための機能が含まれています。 セレクターでは、時間と距離のメジャーに基づいてパブリック データセットを使用してデータをエンリッチできるようにするロジックを定義します。 たとえば、セレクターを使用すると、最も近い場所に基づいて、または同じ時間粒度に丸めることで、データと結合するパブリック データを見つけることができます。 enrichers パッケージ内のいずれかのクラスを操作するときにセレクターを指定します。 |
モジュール
environ |
Azure Open Datasets が使用されるランタイム環境クラスを定義します。 このモジュールのクラスを使用すると、Azure Open Datasets の機能がさまざまな環境に最適化されます。
一般に、これらの環境クラスをインスタンス化したり、それらの実装について心配したりする必要はありません。
代わりに、 |
クラス
BingCOVID19Data |
Bing COVID-19 データセットを表します。 このデータセットには、世界保健機関 (WHO)、疾病管理予防センター (CDC)、国家および州の公衆衛生部門、BNO ニュース、24 時間 365 日のウォール セント、Wikipedia など、信頼できる複数の信頼できるソースからのBing COVID-19 データが含まれています。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログ の COVID-19 データのBing を参照してください。 フィルター フィールドを初期化します。 |
BostonSafety |
Boston Safety パブリック データセットを表します。 このデータセットには、ボストン市に報告された 311 件の呼び出しが含まれています。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの 「Boston Safety Data 」を参照してください。 フィルター フィールドを初期化します。 |
COVID19OpenResearch |
COVID-19 Open Research Dataset を表します。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの COVID-19 Open Research Dataset を参照してください。 |
COVIDTrackingProject |
COVID 追跡プロジェクト データセットを表します。 このデータセットには、すべての米国の州と地域からのテスト、確認されたケース、入院、および患者の結果に関する最新の数値を提供する COVID 追跡プロジェクト データセットが含まれています。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの COVID Tracking Project データセット を参照してください。 フィルター フィールドを初期化します。 |
ChicagoSafety |
シカゴの安全パブリック データセットを表します。 このデータセットには、シカゴ市からの 311 件のサービス要求が含まれています。これには、歴史的な衛生コードの苦情、報告されたポット ホール、街灯の問題が含まれます。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの シカゴの安全性データ を参照してください。 フィルター フィールドを初期化します。 |
CitySafety |
市区町村安全クラス - これは、個々の都市によって継承できる親クラスです。 フィルター フィールドを初期化します。 |
Diabetes |
Sample Diabetes パブリック データセットを表します。 Diabetes データセットには、442 のサンプルと 10 個の機能が含まれ、機械学習アルゴリズムの使用をすぐに試すことができます。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、「 サンプル: Microsoft Azure Open Datasets カタログの糖尿病」を参照してください。 |
EcdcCOVIDCases |
欧州疾病予防管理センター (ECDC) Covid-19 ケースを表します。 このデータセットには、欧州疾病予防管理センター (ECDC) のデータセットが含まれています。 各行/エントリには、1 日および国/地域ごとに報告された新しいケースの数が含まれます。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの 「European Center for Disease Prevention and Control (ECDC) Covid-19 Cases 」を参照してください。 フィルター フィールドを初期化します。 |
MNIST |
手書き数字の MNIST データセットを表します。 手書き数字の MNIST データベースには、60,000 件の例が含まれたトレーニング セットと、10,000 件の例が含まれたテスト セットがあります。 数字はサイズが正規化され、固定サイズの画像の中央に配置されています。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、「Microsoft Azure Open Datasets カタログの 手書きの数字の MNIST データベース 」を参照してください。 MNIST データセットの使用例については、 AZURE Machine Learning を使用して MNIST データと scikit-learn を使用して画像分類モデルをトレーニングするチュートリアルを参照してください。 |
NoParameterOpenDatasetBase |
米国の労働基本クラス。 初期化する。 |
NoaaGfsWeather |
米国海洋大気庁 (NOAA) グローバル予測システム (GFS) データセットを表します。 このデータセットには、米国海洋大気庁 (NOAA) のグローバル予測システム (GFS) によって生成された 15 日間の米国時間ごとの天気予報データ (温度、降水量、風など) が含まれています。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの NOAA グローバル予測システム を参照してください。 フィルター フィールドを初期化します。 |
NoaaIsdWeather |
米国海洋大気庁 (NOAA) 統合表面データセット (ISD) を表します。 このデータセットには、米国海洋大気庁 (NOAA) から取得された全世界の 1 時間ごとの気象履歴データ (温度、降水量、風など) が含まれています。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、「Microsoft Azure Open Datasets カタログの NOAA Integrated Surface Data 」を参照してください。 フィルター フィールドを初期化します。 |
NycSafety |
ニューヨーク市の安全パブリック データセットを表します。 このデータセットには、2010 年から現在までのすべてのニューヨーク市の 311 サービス要求が含まれています。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの ニューヨーク市の安全性データ を参照してください。 フィルター フィールドを初期化します。 |
NycTaxiBase |
ニューヨークタクシークラス - これは継承可能な親クラスです。 フィルター フィールドを初期化します。 |
NycTlcFhv |
NYC タクシーおよびリムジン委員会のパブリック データセットを表します。 このデータセットには、For-Hire Vechicle (FHV) の乗車レコードが含まれています。これには、ディスパッチ基本ライセンス番号と乗車日、時刻、タクシーゾーンの場所 ID (下の図形ファイル) をキャプチャするフィールドが含まれます。 これらのレコードは、ベースによって行われた FHV トリップ レコードの送信から生成されます。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの NYC タクシーおよびリムジン委員会 - For-Hire Vehicle (FHV) 乗車レコード を参照してください。 フィルター フィールドを初期化します。 |
NycTlcGreen |
NYC タクシー & リムジン委員会のグリーン タクシー乗車のパブリック データセットを表します。 緑色のタクシー乗車レコードには、乗車日時と降車日/時刻をキャプチャするフィールド、乗車場所と降車場所、乗車距離、明細化された運賃、料金の種類、支払いの種類、ドライバーから報告された乗客数が含まれます。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、「 NYC タクシーとリムジン委員会 - Microsoft Azure Open Datasets カタログの緑色のタクシー乗車レコード」を参照してください。 NycTlcGreen クラスの使用例については、「 自動機械学習を使用してタクシー料金を予測する」チュートリアルを参照してください。 フィルター フィールドを初期化します。 |
NycTlcYellow |
NYC タクシー & リムジン委員会の黄色のタクシー乗車のパブリック データセットを表します。 黄色のタクシー乗車レコードには、乗車日と降車日/時刻をキャプチャするフィールド、乗車場所と降車場所、乗車距離、明細運賃、料金の種類、支払いの種類、ドライバーから報告された乗客数が含まれます。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、「 NYC タクシーおよびリムジン委員会 - Microsoft Azure Open Datasets カタログの黄色のタクシー乗車レコード」を参照してください。 フィルター フィールドを初期化します。 |
OjSalesSimulated |
Sample Orange Juice Sales Simulated データ データセットを表します。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、「サンプル: Microsoft Azure Open Datasets カタログの OJ Sales Simulated Data 」を参照してください。 |
PublicHolidays |
祝日のパブリック データセットを表します。 このデータセットには、1970 年から 2099 年までの 38 の国または地域を対象に、PyPI 休日パッケージと Wikipedia から提供された世界中の祝日データが含まれています。 各行は、特定の日付、国、または地域の休日情報と、ほとんどのユーザーが有給休暇を取っているかどうかを示します。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの 祝日 を参照してください。 フィルター フィールドを初期化します。 |
PublicHolidaysOffline |
祝日オフラインパブリック データセットを表します。 行の詳細については、Microsoft Azure Open Datasets カタログの 祝日 を参照してください。 フィルター フィールドを初期化します。 |
SampleDatasetBase |
サンプル データセットの基本クラスを表します。 |
SanFranciscoSafety |
サンフランシスコの安全性のパブリック データセットを表します。 このデータセットには、サンフランシスコの消防署のサービス呼び出しと 311 件のケースが含まれています。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの サンフランシスコの安全性データ を参照してください。 フィルター フィールドを初期化します。 |
SeattleSafety |
Seattle Safety パブリック データセットを表します。 このデータセットには、シアトル消防局 911 ディスパッチ データが含まれています。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、「Microsoft Azure Open Datasets カタログの Seattle Safety Data 」を参照してください。 フィルター フィールドを初期化します。 |
UsLaborCPI |
米国消費者物価指数のパブリック データセットを表します。 消費者物価指数(CPI)は、消費商品やサービスの市場バスケットに対して都市消費者が支払った価格の時間の平均変化の尺度です。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの 米国消費者価格指数 を参照してください。 初期化する。 |
UsLaborEHENational |
米国の国内雇用時間と収益のパブリック データセットを表します。 このデータセットには、米国の給与に対する非農業労働者の雇用、時間、および収益に関する業界の見積もりが含まれています。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの 「米国の国内雇用時間と収益 」を参照してください。 初期化する。 |
UsLaborEHEState |
米国の州の雇用時間と収益のパブリック データセットを表します。 このデータセットには、米国の給与に対する非農業労働者の雇用、時間、および収益に関する業界の見積もりが含まれています。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの 「米国の雇用時間と収益 」を参照してください。 初期化する。 |
UsLaborLAUS |
米国地域の失業統計のパブリック データセットを表します。 このデータセットには、米国の国勢調査地域と部門、州、郡、大都市圏、および多くの都市の月単位および年間雇用、失業、および労働力データが含まれています。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの 「米国地域失業統計 」を参照してください。 初期化する。 |
UsLaborLFS |
米国労働統計のパブリック データセットを表します。 このデータセットには、労働参加率を含む米国の労働力に関するデータと、年齢、性別、人種、民族別の民間の非市民人口が含まれています。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの 「US Labor Force Statistics 」を参照してください。 初期化する。 |
UsLaborPPICommodity |
米国生産者物価指数 (PPI) - コモディティパブリック データセットを表します。 生産者物価指数(PPI)は、国内生産者が生産に対して受け取った販売価格の時間の平均変化の尺度です。 PPIに含まれる価格は、対象となる製品およびサービスの最初の商業取引からのものです。 このデータセットには、毎月リリースされた製品の個々の製品とグループの PI が含まれています。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、「Microsoft Azure Open Datasets カタログの 米国プロデューサー価格指数 - コモディティ 」を参照してください。 初期化する。 |
UsLaborPPIIndustry |
米国生産者物価指数 (PPI) - 業界のパブリック データセットを表します。 生産者物価指数(PPI)は、国内生産者が生産に対して受け取った販売価格の時間の平均変化の尺度です。 PPIに含まれる価格は、対象となる製品およびサービスの最初の商業取引からのものです。 このデータセットには、米国経済のさまざまな業界の PI が含まれています。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、「Microsoft Azure Open Datasets カタログの 米国プロデューサー価格指数 - 業界 」を参照してください。 Azure Open Datasets の一般的な情報については、 Azure Open Datasets のドキュメントを参照してください。 初期化する。 |
UsPopulationCounty |
米国人口 (郡別) パブリック データセットを表します。 このデータセットには、2000 年と 2010 年の 12 月の国勢調査に基づいた米国の各郡の性別と人種別の米国人口が含まれています。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの US Population by County を参照してください。 初期化する。 |
UsPopulationZip |
米国の人口 (郵便番号別) パブリック データセットを表します。 このデータセットには、2010 年 12 月の国勢調査に基づいた米国の郵便番号ごとに、性別と人種別の米国の人口が含まれています。 列の説明、データセットにアクセスするさまざまな方法、例など、このデータセットの詳細については、Microsoft Azure Open Datasets カタログの 「US Population by ZIP Code 」を参照してください。 初期化する。 |