列の分布 (データマイニング)

2017-06-13

Microsoft SQL Server Analysis Services では、マイニング構造で列の分布を定義して、マイニングモデルを作成するときにそれらの列のデータをアルゴリズムで処理する方法に影響を与えることができます。一部のアルゴリズムでは、列に値の一般的な分布が含まれていることがわかっている場合は、モデルを処理する前に連続列の分布を定義すると便利です。分布を定義しない場合、アルゴリズムはデータの解釈元となる情報が少なくなるため、結果として得られるマイニングモデルでは、分布が定義された場合よりも精度の低い予測が生成される可能性があります。

Analysis Services で使用できるアルゴリズムは、次のディストリビューションの種類をサポートします。

Normal 連続列の値は、正規分布を持つヒストグラムを形成します。

正規分布を持つヒストグラム正規分布