マイニング構造は、複数のマイニング モデルをサポートすることを目的としています。 そのため、ウィザードが完了したら、構造を開き、新しいマイニング モデルを追加できます。 モデルを作成するたびに、異なるアルゴリズムを使用したり、パラメーターを変更したり、フィルターを適用してデータの異なるサブセットを使用したりできます。
新しいマイニング モデルの追加
データ マイニング ウィザードを使用して新しいマイニング モデルを作成する場合、既定では常に最初にマイニング構造を作成する必要があります。 ウィザードでは、最初のマイニング モデルを構造に追加するオプションが表示されます。 ただし、すぐにモデルを作成する必要はありません。 構造のみを作成する場合は、予測可能な属性として使用する列や、特定のモデルでデータを使用する方法を決定する必要はありません。 代わりに、将来使用する一般的なデータ構造を設定するだけで、後で データ マイニング デザイナー を使用して、構造に基づく新しいマイニング モデルを追加できます。
注
DMX では、CREATE MINING MODEL ステートメントはマイニング モデルで始まります。 つまり、選択したマイニング モデルを定義すると、Analysis Services によって基になる構造が自動的に生成されます。 後で ALTER STRUCTURE を使用して、その構造に新しいマイニング モデルを追加し続けることができます。ADD MODEL ステートメント。
アルゴリズムの選択
既存の構造に新しいモデルを追加する場合、まず、そのモデルで使用するデータ マイニング アルゴリズムを選択する必要があります。 アルゴリズムの選択は重要です。各アルゴリズムは異なる種類の分析を実行し、要件が異なるためです。
データと互換性のないアルゴリズムを選択すると、警告が表示されます。 場合によっては、アルゴリズムで処理できない列を無視することが必要になる場合があります。 それ以外の場合は、アルゴリズムによって自動的に調整が行われます。 たとえば、構造体に数値データが含まれており、アルゴリズムが不連続値でのみ機能する場合、数値は個別の範囲にグループ化されます。 場合によっては、キーを選択するか、予測可能な属性を選択して、最初にデータを手動で修正することが必要になる場合があります。
新しいモデルを作成するときにアルゴリズムを変更する必要はありません。 多くの場合、同じアルゴリズムを使用しながらデータをフィルター処理するか、クラスタリング方法や最小アイテムセット サイズなどのパラメーターを変更することで、非常に異なる結果を得ることができます。 最適な結果を生成するパラメーターを確認するには、複数のモデルを試すことをお勧めします。
新しいモデルはすべて、使用する前に処理する必要があることに注意してください。
新しいマイニング モデルでの列の使用の指定
既存のマイニング構造に新しいマイニング モデルを追加する場合は、データの各列をモデルで使用する方法を指定する必要があります。 モデルに対して選択したアルゴリズムの種類によっては、これらの選択肢の一部が既定で行われる場合があります。 列の使用法の種類を指定しない場合、列はマイニング構造に含まれません。 ただし、モデルでサポートされている場合は、列のデータをドリルスルーで使用できます。
モデルによって使用されるマイニング構造の列 ([無視] に設定されていない場合) は、キー、入力列、予測可能列、またはモデルへの入力としても使用される予測可能な列である必要があります。
キー列には、テーブル内の各行の一意の識別子が含まれます。 シーケンス クラスタリングや時系列アルゴリズムに基づくマイニング モデルなど、一部のマイニング モデルには複数のキー列を含めることができます。 ただし、これらの複数のキーはリレーショナルの意味では複合キーではなく、時系列およびシーケンス クラスタリング分析をサポートするために選択する必要があります。
入力列は、予測の作成元となる情報を提供します。 データ マイニング ウィザードには、予測可能な列を選択したときに有効になる Suggest 機能が用意されています。 このボタンをクリックすると、ウィザードによって予測可能な値がサンプリングされ、構造内の他のどの列が適切な変数を作成するかを決定します。 キー列または多数の一意の値を持つ他の列が拒否され、結果と関連付けられたように見える列が提案されます。
この機能は、データセットにマイニング モデルを構築するために必要な列よりも多くの列が含まれている場合に特に便利です。 Suggest 機能は、データセット内の各列と予測可能な列の間のリレーションシップを記述する数値スコアを 0 から 1 まで計算します。 このスコアに基づいて、マイニング モデルの入力として使用する列が提案されます。 Suggest 機能を使用する場合は、提案された列を使用したり、ニーズに合わせて選択内容を変更したり、候補を無視したりできます。
予測可能列には、マイニング モデルで予測しようとする情報が含まれます。 予測可能な属性として複数の列を選択できます。 クラスタリング モデルは、予測可能な属性が省略可能であるという点で例外です。
モデルの種類によっては、予測可能列が特定のデータ型である必要がある場合があります。たとえば、線形回帰モデルでは、予測値として数値列が必要です。Naïve Bayes アルゴリズムには不連続値が必要です (すべての入力も不連続である必要があります)。
列の内容の指定
一部の列では、 列の内容を指定する必要がある場合もあります。 SQL Server データ マイニングでは、各データ列の Content Type プロパティによって、その列のデータを処理する方法がアルゴリズムに指示されます。 たとえば、データに Income 列がある場合は、コンテンツ タイプを [連続] に設定して、列に連続する数値が含まれていることを指定する必要があります。 ただし、コンテンツ タイプを Discretized に設定し、必要に応じてバケットの正確な数を指定することで、Income 列の数値をバケットにグループ化するように指定することもできます。 列を異なる方法で処理する異なるモデルを作成できます。たとえば、顧客を 3 つの年齢グループにバケットするモデルと、顧客を 10 個の年齢グループにバケットする別のモデルを試すことができます。
こちらもご覧ください
マイニング構造 (Analysis Services - データ マイニング)
リレーショナル マイニング構造を作成する
マイニング モデルのプロパティ
マイニングモデルの列