可以使用 MICROSOFT SQL Server Analysis Services 中的数据挖掘向导来创建使用多维模型中数据的挖掘结构。 基于 OLAP 多维数据集的挖掘模型可以使用事实数据表、维度和度量值组中的列和值作为分析属性。
创建新的联机分析处理(OLAP)挖掘结构
在 SQL Server Data Tools(SSDT)中的解决方案资源管理器中,右键单击 Analysis Services 项目中的 “挖掘结构 ”文件夹,然后单击“ 新建挖掘结构 ”以打开数据挖掘向导。
在“ 欢迎使用数据挖掘向导” 页上,单击“ 下一步”。
在 “选择定义方法 ”页上,选择“ 从现有多维数据集”,然后单击“ 下一步”。
如果收到消息错误,则无法检索受支持的数据挖掘算法列表,请打开 “项目属性 ”对话框,并验证是否已指定支持多维模型的 Analysis Services 实例的名称。 不能在支持表格建模的 Analysis Services 实例上创建挖掘模型。
在“ 创建数据挖掘结构 ”页上,确定是只创建挖掘结构,还是创建挖掘结构以及一个相关的挖掘模型。 通常,更容易同时创建挖掘模型,这样可以提示你包括必要的列。
如果要创建挖掘模型,请选择要使用的数据挖掘算法,然后单击“ 下一步”。 有关如何选择算法的详细信息,请参阅数据挖掘算法(Analysis Services - 数据挖掘)。
在 “选择源多维数据集维度 ”页上的 “选择源多维数据集维度”下,找到包含大部分事例数据的维度。
例如,如果尝试标识客户分组,则可以选择“客户”维度;如果尝试分析交易中的购买情况,则可以选择“Internet 销售订单详细信息”维度。 您不限于仅使用此维度中的数据,但它应包含要在分析中使用的重要属性。
单击 “下一步” 。
在Select the Case Key页面上的Attributes项下,选择将成为挖掘结构键的属性,然后单击Next。
通常,用作挖掘结构键的属性也会是维度的键,并且通常会被预先选择。
在 “选择事例级别列” 页上的 “相关属性和度量值”下,选择包含要添加到挖掘结构作为事例数据的值的属性和度量值。 单击 “下一步” 。
在“ 指定挖掘模型列使用情况 ”页上的 “挖掘模型结构”下,首先设置可预测列,然后选择要用作输入的列。
选中最左侧列中的复选框以将数据包含在挖掘结构中。 可以在要用于引用的结构中包含列,但不能将其用于分析。
选中 “输入 ”列中的复选框,以将属性用作分析中的变量。
仅针对可预测属性选中“ 预测 ”列中的复选框。
请注意,指定为键的列不能用于输入或预测。
单击 “下一步” 。
在 “指定挖掘模型列使用情况 ”页上,还可以使用 “添加嵌套表 ”和 “嵌套表”向挖掘结构添加和删除嵌套表。
在 OLAP 挖掘模型中,嵌套表是多维数据集中的另一组数据,它与表示事例属性的维度有一对多关系。 因此,当对话框打开时,它会预先选择已与所选维度相关的度量值组作为事例表。 此时,你将选择一个不同的维度,其中包含可用于分析的其他信息。
例如,如果要分析客户,将使用 [Customer] 维度作为事例表。 对于嵌套表,可以添加客户在进行购买时引用的原因,该原因包含在 [销售原因] 维度中。
如果添加嵌套数据,则必须指定两个附加列:
嵌套表的键:应在页面上预先选择此项, 选择嵌套表键。
要用于分析的属性或属性:页面 “选择嵌套表列”提供嵌套表选择中的度量值和属性列表。
对于模型中包含的每个属性,请选中左侧列中的框。
如果只想使用属性进行分析,请检查 “输入”。
如果要将列作为模型的可预测属性之一包含,请选择“ 预测”。
在结构中包含但未指定为输入或可预测属性的任何项将添加到具有标志
Ignore
的结构;这意味着在生成模型时处理数据,但不用于分析,并且仅适用于钻取。 如果您想包括诸如客户名称之类的详细信息,但又不希望在分析中使用这些信息,这可以非常方便。
单击完成以关闭用于处理嵌套表的向导部分。 可以重复此过程以添加多个嵌套列。
在“ 指定列的内容和数据类型 ”页上的 “挖掘模型”结构下,为每个列设置内容类型和数据类型。
注释
OLAP 挖掘模型不支持使用 Detect 功能自动检测列是否包含连续或离散数据。
单击 “下一步” 。
在 切片源多维数据集 页上,可以筛选用于创建挖掘结构的数据。
对多维数据集进行切片,可以限定用于生成模型的数据。 例如,可以通过在地理层次结构上切片为每个区域生成单独的模型,
维度:从下拉列表中选择相关维度。
层次结构:选择要在其中应用筛选器的维度层次结构的级别。 例如,如果要按 [Geography] 维度切片,则可以选择层次结构级别,例如 [区域国家/地区名称] 。
运算符:从列表中选择一个运算符。
筛选器表达式:键入用作筛选条件的值或表达式,或使用下拉列表从层次结构的指定级别的成员列表中选择一个值。
例如,如果选择了 [Geography] 作为维度,并将 [区域国家/地区名称] 选为层次结构级别,则下拉列表将包含可以用作筛选器条件的所有有效国家/地区。 您可以进行多选。 因此,挖掘结构中的数据将仅限于这些地理区域中的多维数据集。
参数:忽略此复选框。 此对话框支持多个多维数据集筛选方案,此选项与生成挖掘结构无关。
单击 “下一步” 。
在 “将数据拆分为训练集和测试集” 页上,指定用于测试的挖掘结构数据的百分比,或指定测试用例的最大数量。 单击 “下一步” 。
如果同时指定这两个值,则会将限制组合在一起以使用最低值。
在 “完成向导” 页上,提供新的 OLAP 挖掘结构和初始挖掘模型的名称。
单击“完成”。
在“完成向导”页上,您还可以选择创建一个挖掘模型维度,并/或使用该挖掘模型维度创建一个多维数据集。 这些选项仅支持使用以下算法生成的模型:
Microsoft聚类分析算法
Microsoft决策树算法
Microsoft关联规则算法
创建挖掘模型维度:选中此复选框并为挖掘模型维度提供类型名称。 使用此选项时,将在用于生成挖掘结构的原始多维数据集中创建一个新维度。 您可以使用此维度进行深入钻取,开展进一步分析。 由于维度位于多维数据集内,因此维度会自动映射到案例数据维度。
使用挖掘模型维度创建多维数据集:选中此复选框,并为新多维数据集提供名称。 使用此选项时,将创建一个新的立方体,其中包含生成结构时先前使用的维度,以及包含模型结果的新数据挖掘维度。