自定义挖掘模型和结构

选择满足业务需求的算法后,可以通过以下方式自定义挖掘模型,以可能改进结果。

  • 在模型中使用不同的数据列,或更改列的使用情况、内容类型或离散化方法。

  • 在挖掘模型上创建筛选器以限制训练模型中使用的数据。

  • 更改用于分析数据的算法。

  • 设置算法参数以控制阈值、树拆分和其他重要条件。

本主题介绍这些选项。

更改模型使用的数据

你对要在模型中使用的数据列以及如何使用和处理这些数据做出的决策,极大地影响了分析的结果。 以下主题提供了有助于了解这些选择的信息。

使用特征选择

Analysis Services 中的大多数数据挖掘算法使用一个名为 特征选择 的过程来仅选择用于添加模型的最有用的属性。 减少列和属性的数量可以提高模型的性能和质量。 可用的功能选择方法因所选算法而异。

特征选择(数据挖掘)。

更改用法

可以更改挖掘模型中包含的列以及每个列的使用方式。 如果未获得预期的结果,则应检查用作输入的列,并考虑这些列是否是合适的选择,以及是否有任何措施可以改进数据的处理方法,包括:

  • 识别被错误标记为数值的分类变量。

  • 添加类别以折叠属性数,并使其更容易找到相关性。

  • 更改数字分组或离散化的方式。

  • 删除具有大量唯一值的列,或实际上是参考数据并且不适用于分析的列,例如地址或中间名。

无需从挖掘结构中物理删除列;只需将列标记为 “忽略”。 该列已从数据挖掘模型中删除,但仍可由结构中的其他数据挖掘模型使用,也可以在钻取查询中引用。

为模型列创建别名

当 Analysis Services 创建挖掘模型时,它使用挖掘结构中的同一列名称。 可以将别名添加到挖掘模型中的任何列。 这样,可以更轻松地了解列内容或用法,或者缩短名称,以便于创建查询。 如果要创建列的副本并将其命名为描述性内容,别名也很有用。

通过编辑 Name 挖掘模型列的属性来创建别名。 Analysis Services 继续使用原始名称作为列的标识符,而您为 Name 输入的新值将成为列别名,并在列用法旁边的括号中显示在网格中。

挖掘模型列上的别名

该图显示了具有挖掘结构列的多个副本的相关模型,这些副本都与收入相关。 结构列的每个副本都以不同的方式离散化。 关系图中的每个模型使用挖掘结构中不同的列;然而,为了方便在模型之间比较这些列,每个模型中的列已被重命名为 [Income]。

添加筛选器

可以将筛选器添加到挖掘模型。 筛选器是一组 WHERE 条件,用于将模型事例中的数据限制为某些子集。 该筛选器用于训练模型,还可以选择在测试模型或创建准确性图表时使用。

通过添加筛选器,您不仅可以重复使用挖掘结构,还可以基于截然不同的数据子集创建模型。 或者,只需使用筛选器来消除某些行并提高分析质量。

有关详细信息,请参阅“挖掘模型筛选器”(Analysis Services - 数据挖掘)。

更改算法

尽管添加到挖掘结构的新模型共享相同的数据集,但可以使用不同的算法(如果数据支持该算法),或通过更改算法的参数来获取不同的结果。 还可以设置建模标记。

算法的选择决定了你将得到的结果类型。 有关特定算法工作原理的一般信息,或从使用特定算法中获益的业务方案,请参阅数据挖掘算法(Analysis Services - 数据挖掘)。

有关要求和限制的说明,请参阅每个算法的技术参考主题,以及有关每个算法支持的自定义的详细信息。

Microsoft决策树算法 Microsoft时序算法
Microsoft聚类分析算法 Microsoft神经网络算法
Microsoft Naive Bayes 算法 Microsoft逻辑回归算法
Microsoft关联算法 Microsoft线性回归算法
Microsoft序列聚类分析算法

自定义算法参数

每个算法都支持可用于自定义算法行为并微调模型结果的参数。 有关如何使用每个参数的说明,请参阅以下主题:

每个算法类型的主题还列出了可用于基于该算法的模型的预测函数。

属性名称 适用于
自动检测周期性 Microsoft时序算法技术参考
聚类计数 Microsoft聚类分析算法技术参考

Microsoft序列聚类分析算法技术参考
聚类种子 Microsoft聚类分析算法技术参考
聚类方法 Microsoft聚类分析算法技术参考
复杂性惩罚 Microsoft决策树算法技术参考

Microsoft时序算法技术参考
FORCE_REGRESSOR Microsoft决策树算法技术参考

Microsoft线性回归算法技术参考

建模标志 (数据挖掘)
预测方法 Microsoft时序算法技术参考
隐藏节点比率 (HIDDEN_NODE_RATIO) Microsoft神经网络算法技术参考
历史模型计数 Microsoft时序算法技术参考
历史模型差距 Microsoft时序算法技术参考
保留百分比 Microsoft逻辑回归算法技术参考

Microsoft神经网络算法技术参考

注意:此参数不同于适用于挖掘结构的保留百分比值。
HOLDOUT_SEED Microsoft逻辑回归算法技术参考

Microsoft神经网络算法技术参考

注意:此参数与适用于挖掘结构的保留种子值不同。
不稳定性灵敏度 Microsoft时序算法技术参考
最大输入属性 Microsoft聚类分析算法技术参考

Microsoft决策树算法技术参考

Microsoft线性回归算法技术参考

Microsoft Naive Bayes 算法技术参考

Microsoft神经网络算法技术参考

Microsoft逻辑回归算法技术参考
最大项集数量 (MAXIMUM_ITEMSET_COUNT) Microsoft关联算法技术参考
MAXIMUM_ITEMSET_SIZE(最大项集大小) Microsoft关联算法技术参考
最大输出属性 Microsoft决策树算法技术参考

Microsoft线性回归算法技术参考

Microsoft逻辑回归算法技术参考

Microsoft Naive Bayes 算法技术参考

Microsoft神经网络算法技术参考
最大序列状态 Microsoft序列聚类分析算法技术参考
最大系列值 Microsoft时序算法技术参考
最大状态数 Microsoft聚类分析算法技术参考

Microsoft神经网络算法技术参考

Microsoft序列聚类分析算法技术参考
最大支持 Microsoft关联算法技术参考
最低重要性 Microsoft关联算法技术参考
最小项集大小 Microsoft关联算法技术参考
最小依赖概率 Microsoft Naive Bayes 算法技术参考
最小概率 Microsoft关联算法技术参考
系列最小值 Microsoft时序算法技术参考
最低支持 Microsoft关联算法技术参考

Microsoft聚类分析算法技术参考

Microsoft决策树算法技术参考

Microsoft序列聚类分析算法技术参考

Microsoft时序算法技术参考
MISSING_VALUE_SUBSTITUTION Microsoft时序算法技术参考
建模基数 Microsoft聚类分析算法技术参考
周期性提示 Microsoft时序算法技术参考
预测平滑 Microsoft时序算法技术参考
样本量 Microsoft聚类分析算法技术参考

Microsoft逻辑回归算法技术参考

Microsoft神经网络算法技术参考
评分方法 Microsoft决策树算法技术参考
分割方法 Microsoft决策树算法技术参考
停止容差 Microsoft聚类分析算法技术参考

另请参阅

数据挖掘算法(Analysis Services - 数据挖掘)物理体系结构(Analysis Services - 数据挖掘)