将挖掘模型添加到结构(Analysis Services - 数据挖掘)

挖掘结构旨在支持多个挖掘模型。 因此,在您完成向导后,您可以打开结构并添加新的挖掘模型。 每次创建模型时,都可以使用不同的算法、更改参数或应用筛选器以使用不同的数据子集。

添加新挖掘模型

使用数据挖掘向导创建新的挖掘模型时,默认情况下必须始终首先创建挖掘结构。 然后,向导提供了向结构添加初始挖掘模型的选项。 但是,无需立即创建模型。 如果仅创建结构,则无需决定要用作可预测属性的列,也不需要决定如何在特定模型中使用数据。 相反,只需设置将来要使用的常规数据结构,稍后可以使用 数据挖掘设计器 来添加新的基于结构的挖掘模型。

注释

在 DMX 中,CREATE MINING MODEL 语句以挖掘模型开头。 也就是说,定义所选的挖掘模型,Analysis Services 会自动生成基础结构。 稍后,可以使用 ALTER STRUCTURE... ADD MODEL 语句,将新挖掘模型继续添加到该结构。

选择算法

向现有结构添加新模型时,首先应选择要在该模型中使用的数据挖掘算法。 选择算法非常重要,因为每个算法执行不同类型的分析,并且有不同的要求。

选择与数据不兼容的算法时,将收到警告。 在某些情况下,可能需要忽略算法无法处理的列。 在其他情况下,算法将自动为你进行调整。 例如,如果结构包含数值数据,并且算法只能使用离散值,它将数值分组为离散范围。 在某些情况下,可能需要先通过选择键或选择可预测属性来手动修复数据。

创建新模型时,无需更改算法。 通常,可以使用相同的算法获取非常不同的结果,但筛选数据或更改参数(如聚类分析方法或最小项集大小)。 建议试验多个模型,以查看哪些参数产生最佳结果。

请注意,在使用新模型之前,需要处理所有新模型。

在新数据挖掘模型中指定列的使用方法

向现有挖掘结构添加新的挖掘模型时,必须指定模型应如何使用每列数据。 根据为模型选择的算法类型,默认情况下可能会进行其中一些选择。 如果未为列指定使用类型,该列将不会包含在挖掘结构中。 但是,如果模型支持钻取,列中的数据仍可用于钻取。

模型使用的挖掘结构中的列(如果未设置为“忽略”)必须是键、输入列、可预测列或可预测列,这些列的值也用作模型的输入。

  • 键列包含表中每一行的唯一标识符。 某些挖掘模型(例如基于序列聚类分析或时序算法的挖掘模型)可以包含多个键列。 但是,这些多个键不是关系意义上的复合键,而是必须选择,以便为时序和顺序聚类分析提供支持。

  • 输入列提供从中做出预测的信息。 数据挖掘向导提供 建议 功能,在选择可预测列时启用该功能。 如果单击此按钮,向导将采样可预测值,并确定结构中的其他哪些列会生成良好的变量。 它将拒绝键列或具有许多唯一值的其他列,并建议与结果相关联的列。

    当数据集包含的列多于你真正需要构建挖掘模型时,此功能特别方便。 Suggest 功能计算数值分数(从 0 到 1)来描述数据集中的每个列与可预测列之间的关系。 根据此分数,该功能建议使用某些列作为挖掘模型的输入。 如果使用 “建议 ”功能,则可以使用建议的列、修改所选内容以满足需求或忽略建议。

  • 可预测列包含尝试在挖掘模型中预测的信息。 可以选择多个列作为可预测属性。 聚类模型是个例外,其中可预测属性是可选的。

    根据模型类型,可预测列可能需要是特定的数据类型:例如,线性回归模型需要数值列作为预测值;Naïve Bayes 算法需要离散值(并且所有输入也必须是离散的)。

指定列内容

对于某些列,可能还需要指定 列内容。 在 SQL Server 数据挖掘中,每个数据列的 Content Type 属性告知算法如何处理该列中的数据。 例如,如果数据具有“收入”列,则必须通过将内容类型设置为“连续”来指定该列包含连续数字。 但是,您还可以通过将内容类型设置为“离散化”,并可以选择确定具体的存储桶数量,将“收入”列中的数字分成不同的类别。 可以创建以不同方式处理列的不同模型:例如,可以尝试将客户分为三个年龄组的一个模型,另一个模型将客户桶入 10 个年龄组。

另请参阅

挖掘结构 (Analysis Services - 数据挖掘)
创建关系挖掘结构
挖掘模型属性
挖掘模型列