将挖掘模型添加到结构（Analysis Services - 数据挖掘）

2017-06-13

挖掘结构旨在支持多个挖掘模型。因此，在您完成向导后，您可以打开结构并添加新的挖掘模型。每次创建模型时，都可以使用不同的算法、更改参数或应用筛选器以使用不同的数据子集。

添加新挖掘模型

使用数据挖掘向导创建新的挖掘模型时，默认情况下必须始终首先创建挖掘结构。然后，向导提供了向结构添加初始挖掘模型的选项。但是，无需立即创建模型。如果仅创建结构，则无需决定要用作可预测属性的列，也不需要决定如何在特定模型中使用数据。相反，只需设置将来要使用的常规数据结构，稍后可以使用数据挖掘设计器来添加新的基于结构的挖掘模型。

注释

在 DMX 中，CREATE MINING MODEL 语句以挖掘模型开头。也就是说，定义所选的挖掘模型，Analysis Services 会自动生成基础结构。稍后，可以使用 ALTER STRUCTURE... ADD MODEL 语句，将新挖掘模型继续添加到该结构。

选择算法

向现有结构添加新模型时，首先应选择要在该模型中使用的数据挖掘算法。选择算法非常重要，因为每个算法执行不同类型的分析，并且有不同的要求。

选择与数据不兼容的算法时，将收到警告。在某些情况下，可能需要忽略算法无法处理的列。在其他情况下，算法将自动为你进行调整。例如，如果结构包含数值数据，并且算法只能使用离散值，它将数值分组为离散范围。在某些情况下，可能需要先通过选择键或选择可预测属性来手动修复数据。

创建新模型时，无需更改算法。通常，可以使用相同的算法获取非常不同的结果，但筛选数据或更改参数（如聚类分析方法或最小项集大小）。建议试验多个模型，以查看哪些参数产生最佳结果。

请注意，在使用新模型之前，需要处理所有新模型。

在新数据挖掘模型中指定列的使用方法

向现有挖掘结构添加新的挖掘模型时，必须指定模型应如何使用每列数据。根据为模型选择的算法类型，默认情况下可能会进行其中一些选择。如果未为列指定使用类型，该列将不会包含在挖掘结构中。但是，如果模型支持钻取，列中的数据仍可用于钻取。

模型使用的挖掘结构中的列（如果未设置为“忽略”）必须是键、输入列、可预测列或可预测列，这些列的值也用作模型的输入。

键列包含表中每一行的唯一标识符。某些挖掘模型（例如基于序列聚类分析或时序算法的挖掘模型）可以包含多个键列。但是，这些多个键不是关系意义上的复合键，而是必须选择，以便为时序和顺序聚类分析提供支持。
输入列提供从中做出预测的信息。数据挖掘向导提供建议功能，在选择可预测列时启用该功能。如果单击此按钮，向导将采样可预测值，并确定结构中的其他哪些列会生成良好的变量。它将拒绝键列或具有许多唯一值的其他列，并建议与结果相关联的列。

当数据集包含的列多于你真正需要构建挖掘模型时，此功能特别方便。 Suggest 功能计算数值分数（从 0 到 1）来描述数据集中的每个列与可预测列之间的关系。根据此分数，该功能建议使用某些列作为挖掘模型的输入。如果使用 “建议 ”功能，则可以使用建议的列、修改所选内容以满足需求或忽略建议。
可预测列包含尝试在挖掘模型中预测的信息。可以选择多个列作为可预测属性。聚类模型是个例外，其中可预测属性是可选的。

根据模型类型，可预测列可能需要是特定的数据类型：例如，线性回归模型需要数值列作为预测值;Naïve Bayes 算法需要离散值（并且所有输入也必须是离散的）。

指定列内容

对于某些列，可能还需要指定 列内容。在 SQL Server 数据挖掘中，每个数据列的 Content Type 属性告知算法如何处理该列中的数据。例如，如果数据具有“收入”列，则必须通过将内容类型设置为“连续”来指定该列包含连续数字。但是，您还可以通过将内容类型设置为“离散化”，并可以选择确定具体的存储桶数量，将“收入”列中的数字分成不同的类别。可以创建以不同方式处理列的不同模型：例如，可以尝试将客户分为三个年龄组的一个模型，另一个模型将客户桶入 10 个年龄组。

另请参阅

挖掘结构（Analysis Services - 数据挖掘）
创建关系挖掘结构
 挖掘模型属性
 挖掘模型列

通过