MICROSOFT SQL Server Analysis Services 中的数据挖掘向导每次向数据挖掘项目添加新挖掘结构时都会启动。 该向导可帮助你选择数据源并设置数据源视图,该视图定义要用于分析的数据,然后帮助你创建初始模型。
在向导的最后阶段,你可以选择将数据划分为训练集和测试集,并启用诸如钻取等的功能。
开始之前要了解的内容
以下是在启动向导之前需要了解的内容。
您会从关系数据库或 OLAP 数据库中现有的多维数据集中构建数据挖掘结构和模型吗?
哪些列包含唯一标识事例记录的键?
要用于预测的列或属性是什么? 哪些列或属性非常适合用作分析的输入?
应使用哪种算法? SQL Server Analysis Services 中提供的算法都具有不同的特征并产生不同的结果。 幸运的是,你并不局限于每个数据集的一个模型,因此可以随意通过添加不同的模型进行试验。
是否需要能够在统一数据集上测试模型? 如果是这样,请考虑使用此选项来为测试留出一些数据。 可以选择百分比,并根据需要按指定的行数设置上限。
启动数据挖掘向导
若要使用数据挖掘向导,必须在包含至少一个数据挖掘或 OLAP 项目的 SQL Server Data Tools (SSDT)中打开解决方案。
如果解决方案已准备好进行数据挖掘,只需右键单击解决方案资源管理器中的 “挖掘结构 ”节点,然后选择“ 新建挖掘结构 ”以启动向导。
如果解决方案不包含任何现有项目,则可以添加新的数据挖掘项目。 在 “文件 ”菜单中,选择“ 新建”,然后选择“ 项目”。 请务必选择Analysis Services 多维数据和数据挖掘项目模板。
还可以使用 Analysis Services 导入向导从现有数据挖掘解决方案获取元数据。 但是,不能选择要导入的各个对象;导入整个数据库,包括任何多维数据集、数据源视图等。另请注意,通过导入创建的新解决方案会自动配置为使用本地默认数据库。 可能需要将此更改为另一个实例,然后才能处理或浏览对象,如果要从以前的 Analysis Services 版本导入,则可能需要更新对提供程序的引用。
接下来,你将创建挖掘结构和一个关联的数据挖掘模型。 还可以仅创建挖掘结构并稍后添加模型,但通常最简单的方法是先创建测试模型。
关系与 OLAP 挖掘模型对比
你拥有的下一个重要选项是使用关系数据源,还是将模型基于多维(OLAP)数据。
此时,数据挖掘向导会分为两个路径,具体取决于数据源是关系数据源还是多维数据集。 除数据选择过程之外的所有内容都是相同的算法选择、添加保留数据集等功能,但选择多维数据集数据比使用关系数据要复杂一点。 如果基于多维数据集创建模型,则在最后还会获得一些额外选项。
有关每个选项的详细指南,请参阅以下主题:
创建关系挖掘结构
指导你完成生成关系数据挖掘模型时做出的决策。
创建 OLAP 挖掘结构
介绍从 OLAP 多维数据集中选择数据时要做出的其他选项和选择。
注释
无需使用多维数据集或 OLAP 数据库来执行数据挖掘。 除非数据已存储在多维数据集中,或者想要挖掘 OLAP 维度或 OLAP 聚合或计算的结果,否则建议使用关系表或数据源进行数据挖掘。
选择算法
接下来,必须确定处理数据时要使用的算法。 这个决定可能很难做出。 Analysis Services 中提供的每个算法具有不同的功能并生成不同的结果,因此,可以在确定最适合数据和业务问题的模型之前试验并尝试多个不同的模型。 有关每个算法最适合的任务的说明,请参阅以下主题:
数据挖掘算法 (Analysis Services - 数据挖掘)
同样,可以使用不同的算法创建多个模型,或更改算法的参数来创建不同的模型。 你没有锁定到所选算法中,最好在同一数据上创建多个不同的模型。
定义用于建模的数据
除了从源中选择数据之外,还必须指定数据源视图中哪个表包含 事例数据。 事例表将用于训练数据挖掘模型,因此应包含要分析的实体:例如,客户及其人口统计信息。 每个事例必须是唯一的,并且必须通过 事例键进行标识。
除了指定事例表外,还可以在数据中包含 嵌套表 。 嵌套表通常包含有关事例表中实体的其他信息,例如客户执行的事务,或与实体具有多对一关系的属性。 例如,联接到 Customers 案例表的嵌套表可能包含每个客户购买的产品列表。 在分析网站流量的模型中,嵌套表可能包含用户访问的页面序列。 有关详细信息,请参阅 嵌套表(Analysis Services - 数据挖掘)
其他功能
为了帮助你选择正确的数据并正确配置数据源,数据挖掘向导提供了以下附加功能:
-detection 数据类型自动化:该向导将检查列值的唯一性和分布,然后推荐最佳数据类型,并建议数据的用途类型。 可以通过从列表中选择值来替代这些建议。
变量建议:您可以单击一个对话框来启动分析器,该分析器会计算模型包含的各列之间的相关性,并根据当前模型的配置,确定哪些列可能成为结果属性的预测变量。 可以通过键入不同的值来替代这些建议。
特征选择:大多数算法会自动检测预测器良好的列,并优先使用这些列。 在包含过多值的列中,将应用 特征选择 ,以减少数据的基数,并改善找到有意义的模式的机会。 可以使用模型参数影响特征选择行为。
自动多维数据集切片:如果挖掘模型基于 OLAP 数据源,则会自动提供使用多维数据集属性对模型进行切片的能力。 这对于基于多维数据集数据的子集构建模型非常方便。
完成向导
向导的最后一步是命名挖掘结构和关联的挖掘模型。 根据创建的模型类型,可能还有以下重要选项:
如果选择 “允许钻取”,则会在模型中启用 钻取 功能。 通过钻取,具有适当权限的用户可以探索构建模型所用的源数据。
如果要生成 OLAP 模型,可以选择选项、创建新的数据挖掘多维数据集或创建数据挖掘维度。 通过这两个选项,可以更轻松地浏览已完成的模型并钻取到基础数据。
完成数据挖掘向导后,可以使用数据挖掘设计器修改挖掘结构和模型、查看模型的准确性、查看结构和模型的特征,或使用模型进行预测。
相关内容
若要详细了解创建数据挖掘模型时需要做出的决策,请参阅以下链接:
数据挖掘算法 (Analysis Services - 数据挖掘)