分类矩阵 (Analysis Services - 数据挖掘)

分类矩阵通过确定预测值是否与实际值匹配,将模型中的所有事例排序为类别。 然后对每个类别中的所有事例进行计数,总计将显示在矩阵中。 分类矩阵是用于评估统计模型的标准工具,有时称为 混淆矩阵

选择 “分类矩阵 ”选项时创建的图表会将指定的每个预测状态的实际值与预测值进行比较。 矩阵中的行表示模型的预测值,而列表示实际值。 分析中使用的类别为 误报真阳性假阴性真阴性

分类矩阵是评估预测结果的重要工具,因为它可以轻松理解和考虑错误预测的影响。 通过查看此矩阵的每个单元格中的量和百分比,可以快速了解模型准确预测的频率。

本部分介绍如何创建分类矩阵以及如何解释结果。

了解分类矩阵

请考虑在基本数据挖掘教程中创建的模型。 [TM_DecisionTree] 模型用于帮助创建有针对性的邮件市场活动,并可用于预测哪些客户最有可能购买自行车。 若要测试此模型的预期有用性,请使用一个数据集,该数据集的结果属性 [Bike Buyer]的值已已知。 通常,您将使用在创建用于训练模型的挖掘结构时预留的测试数据集。

只有两个可能的结果:是(客户可能购买自行车),没有(客户可能不会购买自行车)。 因此,生成的分类矩阵相对简单。

解释结果

下表显示了TM_DecisionTree模型的分类矩阵。 请记住,对于此可预测属性,0 表示“否”,1 表示“是”。

预测 0 (实际) 1 (实际)
0 362 144
1 121 373

包含值 362 的第一个结果单元格指示值 0 的真实正 数。 由于 0 指示客户未购买自行车,因此此统计信息告诉你,模型在 362 种情况下预测了非自行车购买者的正确值。

该单元格正下方的单元格包含值 121,它表示错误的正类预测数量,即模型错误地预测某人会购买自行车但实际上他们没有购买的次数。

包含数值 144 的单元格表示数值 1 的假阳性数。 因为 1 意味着客户确实购买了自行车,所以这个统计数据告诉你,在 144 种情况下,模型预测某人在事实上不会购买自行车。

最后,包含值 373 的单元格指示目标值为 1 的真实正数。 换句话说,在373种情况下,模型正确地预测有人会购买自行车。

通过对角线相邻单元格中的值求和,可以确定模型的整体准确性。 一对角线指示准确预测的总数,另一对角线指示错误预测的总数。

使用多个可预测值

[Bike Buyer] 事例特别容易解释,因为只有两个可能的值。 当可预测属性具有多个可能值时,分类矩阵会为每个可能的实际值添加新列,然后计算每个预测值的匹配项数。 下表显示了不同模型中的结果,其中三个值(0、1、2)是可能的。

预测 0 (实际) 1 (实际) 2 (实际)
0 111 3 5
1 2 123 十七
2 19 0 20

尽管添加更多列会使报表看起来更为复杂,但当你想要评估进行错误预测的累积成本时,其他详细信息可能会非常有用。 若要对角线创建求和或比较不同行组合的结果,可以单击“分类矩阵”选项卡中提供的“复制”按钮,并将报表粘贴到 Excel 中。 或者,可以使用支持 SQL Server 2005 及更高版本的 Excel 数据挖掘客户端等客户端直接在 Excel 中创建包含计数和百分比的分类报表。 有关详细信息,请参阅 SQL Server 数据挖掘

分类矩阵的限制

分类矩阵只能与离散的可预测属性一起使用。

尽管可以在挖掘准确性图表设计器的“输入选择”选项卡上选择模型时添加多个模型,但“分类矩阵”选项卡将显示每个模型的单独矩阵。

以下主题包含有关如何生成和使用分类矩阵和其他图表的详细信息。

主题 链接
提供有关如何为目标邮件模型创建提升图的详细指导。 基本数据挖掘教程

使用提升图测试准确性 (基本数据挖掘教程)
介绍相关的图表类型。 增益图(Analysis Services - 数据挖掘)

利润图表 (Analysis Services - 数据挖掘)

散点图(Analysis Services - 数据挖掘功能)
描述对挖掘模型和挖掘结构的交叉验证的使用。 交叉验证 (Analysis Services - 数据挖掘)
介绍创建提升图和其他准确性图表的步骤。 测试与验证任务及操作指南(数据挖掘)

另请参阅

测试和验证 (数据挖掘)