リレーショナルマイニング構造を作成する

2017-06-13

ほとんどのデータマイニングモデルは、リレーショナルデータソースに基づいています。リレーショナルデータマイニングモデルを作成する利点は、キューブを作成する複雑さなしで、アドホックデータをアセンブルし、モデルをトレーニングおよび更新できることです。

リレーショナルマイニング構造では、さまざまなソースからデータを描画できます。生データは、データソースビューの一部として定義できる限り、テーブル、ファイル、またはリレーショナルデータベースシステムに格納できます。たとえば、データが Excel、SQL Server データウェアハウス、SQL Server レポートデータベース、または OLE DB または ODBC プロバイダー経由でアクセスされる外部ソースにある場合は、リレーショナルマイニング構造を使用する必要があります。

このトピックでは、データマイニングウィザードを使用してリレーショナルマイニング構造を作成する方法の概要について説明します。

必要条件

リレーショナルマイニング構造を作成するためのプロセス

データソースを選択する方法

コンテンツタイプとデータ型を指定する方法

ホールドアウトデータセットを作成する理由と方法

ドリルスルーを有効にする理由と方法

要求事項

まず、既存のデータソースが必要です。データソースデザイナーを使用して、データソースがまだ存在しない場合は、データソースを設定できます。詳細については、「データソースの作成 (SSAS 多次元)」を参照してください。

次に、データソースビューウィザードを使用して、必要なデータを 1 つのデータソースビューにアセンブルします。データソースビューを使用してデータを選択、変換、フィルター処理、または管理する方法の詳細については、「多次元モデルのデータソースビュー」を参照してください。

プロセスの概要

ソリューションエクスプローラーで [ マイニング構造 ] ノードを右クリックし、[ 新しいマイニング構造の追加] を選択して、データマイニングウィザードを開始します。ウィザードでは、次の手順に従って、新しいリレーショナルマイニングモデルの構造を作成します。

定義方法を選択します。ここでは、データソースの種類を選択し、[ リレーショナルデータベースまたはデータウェアハウスから] を選択します。
データマイニング構造の作成: 構造のみを構築するか、マイニングモデルを使用して構造を構築するかを決定します。

また、初期モデルに適したアルゴリズムも選択します。特定のタスクに最適なアルゴリズムのガイダンスについては、「データマイニングアルゴリズム (Analysis Services - データマイニング)」を参照してください。
[データソースビューの選択]: モデルのトレーニングに使用するデータソースビューを選択します。データソースビューには、テストに使用されるデータや、関連のないデータを含めることもできます。構造とモデルで実際に使用されるデータを選びます。後でデータにフィルターを適用することもできます。
テーブルの種類の指定: 分析に使用するケースを含むテーブルを選択します。一部のデータセット (特にマーケットバスケットモデルの構築に使用されるデータセット) では、入れ子になったテーブルとして使用する関連テーブルを含めることもできます。

一意のレコードを識別する方法と、入れ子になったテーブルを追加した場合の関連レコードをアルゴリズムが認識できるように、各テーブルにキーを指定する必要があります。

詳細については、「マイニング構造列」を参照してください。
トレーニングデータの指定: このページでは、 ケーステーブルとして選択します。これは、分析に最も重要なデータを含むテーブルです。

一部のデータセット (特にマーケットバスケットモデルの構築に使用されるデータセット) には、関連テーブルを含めることもできます。入れ子になったテーブルの値は、メインテーブルの 1 つの行 (またはケース) に関連する複数の値として処理されます。
列のコンテンツとデータ型の指定: 構造で使用する列ごとに、 データ型 と コンテンツタイプの両方を選択する必要があります。

ウィザードは、考えられるデータ型を自動的に検出しますが、ウィザードで推奨されるデータ型を使用する必要はありません。たとえば、データに数値が含まれている場合でも、カテゴリデータを表している可能性があります。キーとして指定した列には、その特定のモデルの種類に対して適切なデータ型が自動的に割り当てられます。詳細については、「マイニングモデルの列とデータ型 (データマイニング)」を参照してください。

モデルで使用する列ごとに選択する コンテンツタイプ によって、データの処理方法がアルゴリズムに指示されます。

たとえば、連続する値を使用するのではなく、数値を分離することができます。列に最適なコンテンツタイプを自動的に検出するようにアルゴリズムに依頼することもできます。詳細については、「コンテンツタイプ (データマイニング)」を参照してください。
テストセットの作成: このページでは、モデルのテストに使用するために確保する必要があるデータの量をウィザードに通知できます。データが複数のモデルをサポートする場合は、すべてのモデルを同じデータでテストできるように、保留データセットを作成することをお勧めします。

詳細については、「テストと検証 (データマイニング)」を参照してください。
ウィザードの完了: このページでは、新しいマイニング構造と関連するマイニングモデルに名前を付け、構造とモデルを保存します。

また、モデルの種類に応じて、いくつかの重要なオプションを設定することもできます。たとえば、構造に対してドリルスルーを有効にすることができます。

この時点で、マイニング構造とそのモデルは単なるメタデータです。結果を取得するには、両方を処理する必要があります。

リレーショナルデータを選択する方法

リレーショナルマイニング構造は、OLE DB データソースを介して使用できる任意のデータに基づくことができます。ソースデータが複数のテーブルに含まれている場合は、データソースビューを使用して、必要なテーブルと列を 1 か所でアセンブルします。

たとえば、テーブルに一対多リレーションシップが含まれている場合、分析する顧客ごとに複数の購入レコードがあります。両方のテーブルを追加し、ケーステーブルとして 1 つのテーブルを使用し、リレーションシップの多くの側のデータを入れ子になったテーブルとしてリンクすることができます。

マイニング構造内のデータは、既存のデータソースビュー内のデータから派生します。データソースビュー内で必要に応じてデータを変更し、基になるリレーショナルデータに存在しない可能性のあるリレーションシップまたは派生列を追加できます。データソースビュー内に名前付き計算または集計を作成することもできます。これらの機能は、データソース内のデータの配置を制御できない場合や、データマイニングモデルのさまざまな集計を実験する場合に非常に便利です。

使用可能なすべてのデータを使用する必要はありません。マイニング構造に含める列を選択できます。その構造に基づくすべてのモデルでそれらの列を使用することも、特定の列に特定のモデルの Ignore としてフラグを設定することもできます。データマイニングモデルのユーザーがマイニングモデルの結果からドリルダウンして、マイニングモデル自体に含まれていない追加のマイニング構造列を表示できます。

コンテンツタイプとデータ型を指定する方法

データ型は、SQL Server またはその他のアプリケーションインターフェイスで指定するデータ型とほとんど同じです。日付と時刻、異なるサイズの数値、ブール値、テキスト、その他の不連続データ。

ただし、コンテンツタイプはデータマイニングにとって重要であり、分析の結果に影響します。コンテンツの種類は、アルゴリズムにデータをどのように扱うべきかを指示します。数値は連続スケールで処理するか、それとも区切られるべきでしょうか？潜在的な値の数はいくつですか? 各値は異なりますか? 値がキーの場合、キーの種類は何ですか。日付/時刻値、シーケンス、またはその他の種類のキーを示していますか?

データ型の選択によって、コンテンツタイプの選択が制限される場合があることに注意してください。たとえば、数値ではない値を分離することはできません。目的のコンテンツタイプが表示されない場合は、[ 戻る ] をクリックしてデータ型ページに戻り、別のデータ型を試すことができます。

コンテンツタイプが間違っていることをあまり心配する必要はありません。マイニング構造のデータ型セットで新しいコンテンツタイプがサポートされている限り、新しいモデルを作成し、モデル内のコンテンツタイプを変更することは非常に簡単です。また、実験として異なるコンテンツタイプを使用して複数のモデルを作成したり、別のアルゴリズムの要件を満たすことも非常に一般的です。

たとえば、データに収入列が含まれている場合は、Microsoft デシジョンツリーアルゴリズムを使用するときに 2 つの異なるモデルを作成し、連続する数値または不連続の範囲として列を交互に構成できます。ただし、Microsoft Naïve Bayes アルゴリズムを使用してモデルを追加した場合、そのアルゴリズムでは連続する数値がサポートされていないため、列を分離された値のみに変更する必要があります。

データをトレーニングセットとテストセットに分割する理由と方法

ウィザードの終わり近くに、データをトレーニングセットとテストセットに分割するかどうかを決定する必要があります。データのランダムにサンプリングされた部分をテスト用にプロビジョニングする機能は非常に便利です。これにより、新しいマイニング構造に関連付けられているすべてのマイニングモデルで一貫した一連のテストデータを使用できるようになります。

警告

このオプションは、すべてのモデルの種類で使用できるわけではないことに注意してください。たとえば、予測モデルを作成する場合、時系列アルゴリズムではデータにギャップが存在しない必要があるため、ホールドアウトを使用することはできません。ホールドアウト・データ・セットをサポートするモデル・タイプのリストについては、トレーニング・データ・セットおよびテスト・データ・セットを参照してください。

この保留データセットを作成するには、テストに使用するデータの割合を指定します。残りのデータはすべてトレーニングに使用されます。必要に応じて、テストに使用するケースの最大数を設定したり、ランダム選択プロセスを開始するときに使用するシード値を設定したりできます。

ホールドアウトテストセットの定義はマイニング構造と共に格納されるため、構造に基づいて新しいモデルを作成するたびに、テストデータセットを使用してモデルの精度を評価できます。マイニング構造のキャッシュを削除すると、トレーニングに使用されたケースとテストに使用されたケースに関する情報も削除されます。

ドリルスルーを有効にする理由と方法

ウィザードのほぼ最後に、 ドリルスルーを有効にするオプションがあります。このオプションを見逃すのは簡単ですが、これは重要なオプションです。ドリルスルーを使用すると、マイニングモデルに対してクエリを実行して、マイニング構造のソースデータを表示できます。

これが役に立つのはなぜですか? クラスタリングモデルの結果を表示し、特定のクラスターに配置された顧客を確認するとします。ドリルスルーを使用すると、連絡先情報などの詳細を表示できます。

警告

ドリルスルーを使用するには、マイニング構造を作成するときにドリルスルーを有効にする必要があります。モデルにプロパティを設定することで、後でモデルのドリルスルーを有効にできますが、マイニング構造では最初にこのオプションを設定する必要があります。詳細については、「ドリルスルークエリ (データマイニング)」を参照してください。

こちらもご覧ください

データマイニングデザイナー
 データマイニングウィザード (Analysis Services - データマイニング)
マイニングモデルのプロパティ
 マイニング構造および構造列のプロパティ
 マイニング構造タスクと操作方法

次の方法で共有

リレーショナル マイニング構造を作成する

要求事項

プロセスの概要

リレーショナル データを選択する方法

コンテンツ タイプとデータ 型を指定する方法

データをトレーニング セットとテスト セットに分割する理由と方法

ドリルスルーを有効にする理由と方法

こちらもご覧ください

その他のリソース

リレーショナルマイニング構造を作成する

リレーショナルデータを選択する方法

コンテンツタイプとデータ型を指定する方法

データをトレーニングセットとテストセットに分割する理由と方法