选择满足业务需求的算法后,可以通过以下方式自定义挖掘模型,以可能改进结果。
在模型中使用不同的数据列,或更改列的使用情况、内容类型或离散化方法。
在挖掘模型上创建筛选器以限制训练模型中使用的数据。
更改用于分析数据的算法。
设置算法参数以控制阈值、树拆分和其他重要条件。
本主题介绍这些选项。
更改模型使用的数据
你对要在模型中使用的数据列以及如何使用和处理这些数据做出的决策,极大地影响了分析的结果。 以下主题提供了有助于了解这些选择的信息。
使用特征选择
Analysis Services 中的大多数数据挖掘算法使用一个名为 特征选择 的过程来仅选择用于添加模型的最有用的属性。 减少列和属性的数量可以提高模型的性能和质量。 可用的功能选择方法因所选算法而异。
更改用法
可以更改挖掘模型中包含的列以及每个列的使用方式。 如果未获得预期的结果,则应检查用作输入的列,并考虑这些列是否是合适的选择,以及是否有任何措施可以改进数据的处理方法,包括:
识别被错误标记为数值的分类变量。
添加类别以折叠属性数,并使其更容易找到相关性。
更改数字分组或离散化的方式。
删除具有大量唯一值的列,或实际上是参考数据并且不适用于分析的列,例如地址或中间名。
无需从挖掘结构中物理删除列;只需将列标记为 “忽略”。 该列已从数据挖掘模型中删除,但仍可由结构中的其他数据挖掘模型使用,也可以在钻取查询中引用。
为模型列创建别名
当 Analysis Services 创建挖掘模型时,它使用挖掘结构中的同一列名称。 可以将别名添加到挖掘模型中的任何列。 这样,可以更轻松地了解列内容或用法,或者缩短名称,以便于创建查询。 如果要创建列的副本并将其命名为描述性内容,别名也很有用。
通过编辑 Name
挖掘模型列的属性来创建别名。 Analysis Services 继续使用原始名称作为列的标识符,而您为 Name
输入的新值将成为列别名,并在列用法旁边的括号中显示在网格中。
该图显示了具有挖掘结构列的多个副本的相关模型,这些副本都与收入相关。 结构列的每个副本都以不同的方式离散化。 关系图中的每个模型使用挖掘结构中不同的列;然而,为了方便在模型之间比较这些列,每个模型中的列已被重命名为 [Income]。
添加筛选器
可以将筛选器添加到挖掘模型。 筛选器是一组 WHERE 条件,用于将模型事例中的数据限制为某些子集。 该筛选器用于训练模型,还可以选择在测试模型或创建准确性图表时使用。
通过添加筛选器,您不仅可以重复使用挖掘结构,还可以基于截然不同的数据子集创建模型。 或者,只需使用筛选器来消除某些行并提高分析质量。
有关详细信息,请参阅“挖掘模型筛选器”(Analysis Services - 数据挖掘)。
更改算法
尽管添加到挖掘结构的新模型共享相同的数据集,但可以使用不同的算法(如果数据支持该算法),或通过更改算法的参数来获取不同的结果。 还可以设置建模标记。
算法的选择决定了你将得到的结果类型。 有关特定算法工作原理的一般信息,或从使用特定算法中获益的业务方案,请参阅数据挖掘算法(Analysis Services - 数据挖掘)。
有关要求和限制的说明,请参阅每个算法的技术参考主题,以及有关每个算法支持的自定义的详细信息。
Microsoft决策树算法 | Microsoft时序算法 |
Microsoft聚类分析算法 | Microsoft神经网络算法 |
Microsoft Naive Bayes 算法 | Microsoft逻辑回归算法 |
Microsoft关联算法 | Microsoft线性回归算法 |
Microsoft序列聚类分析算法 |
自定义算法参数
每个算法都支持可用于自定义算法行为并微调模型结果的参数。 有关如何使用每个参数的说明,请参阅以下主题:
每个算法类型的主题还列出了可用于基于该算法的模型的预测函数。
另请参阅
数据挖掘算法(Analysis Services - 数据挖掘)物理体系结构(Analysis Services - 数据挖掘)