列分布 (数据挖掘)

在 Microsoft SQL Server Analysis Services 中,可以在挖掘结构中定义列分布,以影响在创建挖掘模型时算法如何处理这些列中的数据。 对于某些算法,如果在处理模型之前定义任何连续列的分布(如果已知这些列包含值的常见分布)非常有用。 如果不定义分布,生成的挖掘模型可能会产生比定义分布时准确性更低的预测,因为算法将会缺乏足够的信息来解释数据。

Analysis Services 中提供的算法支持以下分发类型:

Normal 连续列的值构成具有正态分布的直方图。

正态分布的直方图

Log Normal 连续列的值构成直方图,其中曲线在上端拉伸,并倾斜到下端。

具有对数正态分布的直方图

Uniform 连续列的值形成平面曲线,其中所有值都同样可能。

均匀分布的直方图

有关 Analysis Services 提供的算法的详细信息,请参阅数据挖掘算法(Analysis Services - 数据挖掘)。

另请参阅

内容类型(数据挖掘)挖掘结构(Analysis Services - 数据挖掘)离散化方法(数据挖掘)分布(DMX)挖掘结构列