次の方法で共有


リレーショナル マイニング構造を作成する

ほとんどのデータ マイニング モデルは、リレーショナル データ ソースに基づいています。 リレーショナル データ マイニング モデルを作成する利点は、キューブを作成する複雑さなしで、アドホック データをアセンブルし、モデルをトレーニングおよび更新できることです。

リレーショナル マイニング構造では、さまざまなソースからデータを描画できます。 生データは、データ ソース ビューの一部として定義できる限り、テーブル、ファイル、またはリレーショナル データベース システムに格納できます。 たとえば、データが Excel、SQL Server データ ウェアハウス、SQL Server レポート データベース、または OLE DB または ODBC プロバイダー経由でアクセスされる外部ソースにある場合は、リレーショナル マイニング構造を使用する必要があります。

このトピックでは、データ マイニング ウィザードを使用してリレーショナル マイニング構造を作成する方法の概要について説明します。

必要条件

リレーショナル マイニング構造を作成するためのプロセス

データ ソースを選択する方法

コンテンツ タイプとデータ 型を指定する方法

ホールドアウト データ セットを作成する理由と方法

ドリルスルーを有効にする理由と方法

要求事項

まず、既存のデータ ソースが必要です。 データ ソース デザイナーを使用して、データ ソースがまだ存在しない場合は、データ ソースを設定できます。 詳細については、「 データ ソースの作成 (SSAS 多次元)」を参照してください。

次に、データ ソース ビュー ウィザードを使用して、必要なデータを 1 つのデータ ソース ビューにアセンブルします。 データ ソース ビューを使用してデータを選択、変換、フィルター処理、または管理する方法の詳細については、「 多次元モデルのデータ ソース ビュー」を参照してください。

プロセスの概要

ソリューション エクスプローラーで [ マイニング構造 ] ノードを右クリックし、[ 新しいマイニング構造の追加] を選択して、データ マイニング ウィザードを開始します。 ウィザードでは、次の手順に従って、新しいリレーショナル マイニング モデルの構造を作成します。

  1. 定義方法を選択します。ここでは、データ ソースの種類を選択し、[ リレーショナル データベースまたはデータ ウェアハウスから] を選択します。

  2. データ マイニング構造の作成: 構造のみを構築するか、マイニング モデルを使用して構造を構築するかを決定します。

    また、初期モデルに適したアルゴリズムも選択します。 特定のタスクに最適なアルゴリズムのガイダンスについては、「 データ マイニング アルゴリズム (Analysis Services - データ マイニング)」を参照してください。

  3. [データ ソース ビューの選択]: モデルのトレーニングに使用するデータ ソース ビューを選択します。 データ ソース ビューには、テストに使用されるデータや、関連のないデータを含めることもできます。 構造とモデルで実際に使用されるデータを選びます。 後でデータにフィルターを適用することもできます。

  4. テーブルの種類の指定: 分析に使用するケースを含むテーブルを選択します。 一部のデータ セット (特にマーケット バスケット モデルの構築に使用されるデータセット) では、入れ子になったテーブルとして使用する関連テーブルを含めることもできます。

    一意のレコードを識別する方法と、入れ子になったテーブルを追加した場合の関連レコードをアルゴリズムが認識できるように、各テーブルにキーを指定する必要があります。

    詳細については、「 マイニング構造列」を参照してください。

  5. トレーニング データの指定: このページでは、 ケース テーブルとして選択します。これは、分析に最も重要なデータを含むテーブルです。

    一部のデータ セット (特にマーケット バスケット モデルの構築に使用されるデータ セット) には、関連テーブルを含めることもできます。 入れ子になったテーブルの値は、メイン テーブルの 1 つの行 (またはケース) に関連する複数の値として処理されます。

  6. 列のコンテンツとデータ型の指定: 構造で使用する列ごとに、 データ型コンテンツ タイプの両方を選択する必要があります。

    ウィザードは、考えられるデータ型を自動的に検出しますが、ウィザードで推奨されるデータ型を使用する必要はありません。 たとえば、データに数値が含まれている場合でも、カテゴリ データを表している可能性があります。 キーとして指定した列には、その特定のモデルの種類に対して適切なデータ型が自動的に割り当てられます。 詳細については、「 マイニング モデルの列データ型 (データ マイニング)」を参照してください。

    モデルで使用する列ごとに選択する コンテンツ タイプ によって、データの処理方法がアルゴリズムに指示されます。

    たとえば、連続する値を使用するのではなく、数値を分離することができます。 列に最適なコンテンツ タイプを自動的に検出するようにアルゴリズムに依頼することもできます。 詳細については、「 コンテンツ タイプ (データ マイニング)」を参照してください。

  7. テスト セットの作成: このページでは、モデルのテストに使用するために確保する必要があるデータの量をウィザードに通知できます。 データが複数のモデルをサポートする場合は、すべてのモデルを同じデータでテストできるように、保留データ セットを作成することをお勧めします。

    詳細については、「 テストと検証 (データ マイニング)」を参照してください。

  8. ウィザードの完了: このページでは、新しいマイニング構造と関連するマイニング モデルに名前を付け、構造とモデルを保存します。

    また、モデルの種類に応じて、いくつかの重要なオプションを設定することもできます。 たとえば、構造に対してドリルスルーを有効にすることができます。

    この時点で、マイニング構造とそのモデルは単なるメタデータです。結果を取得するには、両方を処理する必要があります。

リレーショナル データを選択する方法

リレーショナル マイニング構造は、OLE DB データ ソースを介して使用できる任意のデータに基づくことができます。 ソース データが複数のテーブルに含まれている場合は、データ ソース ビューを使用して、必要なテーブルと列を 1 か所でアセンブルします。

たとえば、テーブルに一対多リレーションシップが含まれている場合、分析する顧客ごとに複数の購入レコードがあります。両方のテーブルを追加し、ケース テーブルとして 1 つのテーブルを使用し、リレーションシップの多くの側のデータを入れ子になったテーブルとしてリンクすることができます。

マイニング構造内のデータは、既存のデータ ソース ビュー内のデータから派生します。 データ ソース ビュー内で必要に応じてデータを変更し、基になるリレーショナル データに存在しない可能性のあるリレーションシップまたは派生列を追加できます。 データ ソース ビュー内に名前付き計算または集計を作成することもできます。 これらの機能は、データ ソース内のデータの配置を制御できない場合や、データ マイニング モデルのさまざまな集計を実験する場合に非常に便利です。

使用可能なすべてのデータを使用する必要はありません。マイニング構造に含める列を選択できます。 その構造に基づくすべてのモデルでそれらの列を使用することも、特定の列に特定のモデルの Ignore としてフラグを設定することもできます。 データ マイニング モデルのユーザーがマイニング モデルの結果からドリルダウンして、マイニング モデル自体に含まれていない追加のマイニング構造列を表示できます。

コンテンツ タイプとデータ 型を指定する方法

データ型は、SQL Server またはその他のアプリケーション インターフェイスで指定するデータ型とほとんど同じです。日付と時刻、異なるサイズの数値、ブール値、テキスト、その他の不連続データ。

ただし、コンテンツ タイプはデータ マイニングにとって重要であり、分析の結果に影響します。 コンテンツの種類は、アルゴリズムにデータをどのように扱うべきかを指示します。数値は連続スケールで処理するか、それとも区切られるべきでしょうか? 潜在的な値の数はいくつですか? 各値は異なりますか? 値がキーの場合、キーの種類は何ですか。日付/時刻値、シーケンス、またはその他の種類のキーを示していますか?

データ型の選択によって、コンテンツ タイプの選択が制限される場合があることに注意してください。 たとえば、数値ではない値を分離することはできません。 目的のコンテンツ タイプが表示されない場合は、[ 戻る ] をクリックしてデータ型ページに戻り、別のデータ型を試すことができます。

コンテンツ タイプが間違っていることをあまり心配する必要はありません。 マイニング構造のデータ型セットで新しいコンテンツ タイプがサポートされている限り、新しいモデルを作成し、モデル内のコンテンツ タイプを変更することは非常に簡単です。 また、実験として異なるコンテンツ タイプを使用して複数のモデルを作成したり、別のアルゴリズムの要件を満たすことも非常に一般的です。

たとえば、データに収入列が含まれている場合は、Microsoft デシジョン ツリー アルゴリズムを使用するときに 2 つの異なるモデルを作成し、連続する数値または不連続の範囲として列を交互に構成できます。 ただし、Microsoft Naïve Bayes アルゴリズムを使用してモデルを追加した場合、そのアルゴリズムでは連続する数値がサポートされていないため、列を分離された値のみに変更する必要があります。

データをトレーニング セットとテスト セットに分割する理由と方法

ウィザードの終わり近くに、データをトレーニング セットとテスト セットに分割するかどうかを決定する必要があります。 データのランダムにサンプリングされた部分をテスト用にプロビジョニングする機能は非常に便利です。これにより、新しいマイニング構造に関連付けられているすべてのマイニング モデルで一貫した一連のテスト データを使用できるようになります。

警告

このオプションは、すべてのモデルの種類で使用できるわけではないことに注意してください。 たとえば、予測モデルを作成する場合、時系列アルゴリズムではデータにギャップが存在しない必要があるため、ホールドアウトを使用することはできません。 ホールドアウト・データ・セットをサポートするモデル・タイプのリストについては、 トレーニング・データ・セットおよびテスト・データ・セットを参照してください。

この保留データ セットを作成するには、テストに使用するデータの割合を指定します。 残りのデータはすべてトレーニングに使用されます。 必要に応じて、テストに使用するケースの最大数を設定したり、ランダム選択プロセスを開始するときに使用するシード値を設定したりできます。

ホールドアウト テスト セットの定義はマイニング構造と共に格納されるため、構造に基づいて新しいモデルを作成するたびに、テスト データ セットを使用してモデルの精度を評価できます。 マイニング構造のキャッシュを削除すると、トレーニングに使用されたケースとテストに使用されたケースに関する情報も削除されます。

ドリルスルーを有効にする理由と方法

ウィザードのほぼ最後に、 ドリルスルーを有効にするオプションがあります。 このオプションを見逃すのは簡単ですが、これは重要なオプションです。 ドリルスルーを使用すると、マイニング モデルに対してクエリを実行して、マイニング構造のソース データを表示できます。

これが役に立つのはなぜですか? クラスタリング モデルの結果を表示し、特定のクラスターに配置された顧客を確認するとします。 ドリルスルーを使用すると、連絡先情報などの詳細を表示できます。

警告

ドリルスルーを使用するには、マイニング構造を作成するときにドリルスルーを有効にする必要があります。 モデルにプロパティを設定することで、後でモデルのドリルスルーを有効にできますが、マイニング構造では最初にこのオプションを設定する必要があります。 詳細については、「 ドリルスルー クエリ (データ マイニング)」を参照してください。

こちらもご覧ください

データ マイニング デザイナー
データ マイニング ウィザード (Analysis Services - データ マイニング)
マイニング モデルのプロパティ
マイニング構造および構造列のプロパティ
マイニング構造タスクと操作方法