SQL Server Analysis Servicesでデータ マイニング モデルを作成するために使用される一部のアルゴリズムでは、正しく機能するために特定のコンテンツ タイプが必要です。 たとえば、Microsoft Naive Bayes アルゴリズムでは、入力として連続列を使用できず、連続値を予測できません。 また、一部の列に含まれている値が多すぎるため、データ マイニング モデルの作成元となるデータ内の対象パターンをアルゴリズムで容易に識別できない場合があります。
このような場合、アルゴリズムを使用してマイニング モデルを生成できるように、列内のデータを分離できます。 分離 とは、値をバケットに分割して、限定された数の可能な状態を生成するプロセスです。 バケット自体は、順序付きの不連続の値として処理されます。 数値と文字列の両方の列を分離できます。
データを分離するためのいくつかのメソッドがあります。 データ マイニング ソリューションでリレーショナル データを使用する場合は、 DiscretizationBucketCount property プロパティの値を設定して、データのグループ化に使用するバケットの数を制御できます。 既定のバケット数は 5 です。
データ マイニング ソリューションでオンライン分析処理 (OLAP) キューブのデータを使用する場合、データ マイニング アルゴリズムでは生成するバケットの数が次の式を使用して自動的に計算されます。ここで、n は列のデータの個別の値の数です。
Number of Buckets = sqrt(n)
Analysis Services でバケットの数を計算しない場合は、 プロパティを DiscretizationBucketCount 使用してバケットの数を手動で指定できます。
次の表では、Analysis Services のデータを分離するために使用できるメソッドについて説明します。
分離メソッド | 説明 |
---|---|
AUTOMATIC |
Analysis Services は、使用する分離方法を決定します。 |
CLUSTERS |
このアルゴリズムは、トレーニング データをサンプリングして多数のランダム ポイントに初期化し、Expectation Maximization (EM) クラスター化アルゴリズムを使用して Microsoft クラスタリング アルゴリズムを何度か繰り返し実行することによって、データをグループに分割します。
CLUSTERS メソッドは、どのような分布曲線にも使用できるので便利です。 ただし、その他の分離メソッドよりも処理時間は長くなります。このメソッドは数値列でのみ使用できます。 |
EQUAL_AREAS |
このアルゴリズムは、同数の値が含まれているグループにデータを分割します。 このメソッドは正規分布曲線に最適ですが、連続データの小さなグループに多数の値が含まれている分布の場合は適切に機能しません。 たとえば、品目の半数のコストが 0 である場合、データの半数は曲線の 1 点の下に位置します。 このような分布の場合、このメソッドはデータを分割するときに、複数の領域に均等に分離しようとします。 これにより、データが不適切に表示されます。 |
解説
EQUAL_AREAS
メソッドを使用すると、文字列を分離できます。CLUSTERS
メソッドでは、ランダム サンプルとして 1,000 個のレコードを使用してデータの分離が行われます。 アルゴリズムでデータをサンプリングしない場合は、EQUAL_AREAS
メソッドを使用します。ニューラル ネットワーク マイニング モデルのチュートリアルには、分離をカスタマイズする例が示されています。 詳細については、「 レッスン 5: ニューラル ネットワークとロジスティック回帰モデルの構築 (中間データ マイニング チュートリアル)」を参照してください。
参照
コンテンツの種類 (データ マイニング)
コンテンツの種類 (DMX)
データ マイニング アルゴリズム (Analysis Services - データ マイニング)
マイニング構造 (Analysis Services - データ マイニング)
データ型 (データ マイニング)
マイニング構造列
列の分布 (データ マイニング)