探索呼叫中心模型(数据挖掘中级教程)

既然您已经生成了探索模型,那么就可以使用 Business Intelligence Development Studio 提供的以下工具来了解有关数据的更多信息了。

  • Microsoft 神经网络查看器**:该查看器位于数据挖掘设计器的“挖掘模型查看器”**选项卡上,旨在帮助您试验数据中的交互性。

  • Microsoft 一般内容树查看器**:**该标准查看器提供关于生成模型时算法发现的模式和统计信息的深入详细信息。

  • 数据源视图设计器**:**该查看器提供了表、图表、透视图和透视表来帮助您探索源数据。返回源数据对了解由模型突出显示的趋势很有用。

Microsoft 神经网络查看器

该查看器有三个窗格 -“输入”“输出”“变量”

通过使用**“输出”窗格,您可以为可预测属性或依赖变量选择不同的值。如果您的模型包含多个可预测属性,则可以从“输出属性”**列表中选择属性。

**“变量”**窗格对您根据相关属性或变量选择的两个结果进行比较。彩色条直观的表示变量对目标结果的影响程度。您还可以查看变量的提升分数。提升分数的计算方法不同,具体取决于使用的挖掘模型类型,但通常会告诉您使用此属性进行预测时在模型中的提高程度。

通过使用**“输入”**窗格,您可以将影响因素添加到模型中,以便尝试各种假设应用场景。

使用“输出”窗格

在此初始模型中,您会希望看到各种因素是如何影响服务等级的。为此,您可以从输出属性列表中选择 Service Grade,然后通过从下拉列表中选择 Value 1Value 2 的范围来比较不同级别的服务。

比较最低服务等级和最高服务等级

  1. 对于 Value 1,请选择具有最小值的范围。例如,范围 0-0-0.7 表示最低的挂断率,因此为最佳服务级别。

    注意注意

    根据模型的配置方式,此范围内的确切值可能会有所不同。

  2. 对于 Value 2,请选择具有最大值的范围。例如,值 >=0.12 的范围表示最高的挂断率,因此为最差服务级别。换句话说,在此班次期间,打电话的客户有 12% 在与代表通话之前就挂断了电话。

    **“变量”**窗格的内容会进行相应地更新,以比较分配给结果值的属性。因此,左列显示与最佳服务等级关联的属性,右列显示与最差服务等级关联的属性。

使用“变量”窗格

在此模型中,似乎 Average Time Per Issue 是一个重要因素。此变量指示在不考虑呼叫类型的情况下应答一个呼叫所花费的平均时间。

查看和复制属性的概率和提升分数

  1. 在**“变量”**窗格中,将鼠标悬停在第一行中的彩色条上。

    该彩色条显示 Average Time Per Issue 对服务等级起多大作用。工具提示显示每个变量和目标结果的组合的总分数、概率和提升分数。

  2. 在**“变量”窗格中,右键单击任意彩色条并选择“复制”**。

  3. 在 Excel 工作表中,右键单击任意单元格并选择**“粘贴”**。

    报表以 HTML 表格式粘贴,仅显示每个条的分数。

  4. 在不同的 Excel 工作表中,右键单击任意单元格并选择**“选择性粘贴”**。

    报表以文本格式粘贴,并包括相关统计信息(如下节所述)。

使用“输入”窗格

假设您希望看到特定因素所产生的影响,例如班次或操作员数。您可以使用**“输入”窗格选择一个特定的变量,然后“变量”**窗格会相应地进行自动更新,以比较两个以前选择的给定了指定变量的组。

通过更改输入属性查看对服务等级产生的影响

  1. 在**“输入”窗格中,对于“属性”**,请选择 Shift。

  2. 对于 Value,请选择 AM。

    **“变量”**窗格会相应地进行更新,以显示当班次为 AM 时对模型产生的影响。所有其他选项保持不变,您将仍然比较最低服务等级和最高服务等级。

  3. 对于 Value,请选择 PM1。

    **“变量”**窗格会相应地进行更新,以显示班次更改时对模型产生的影响。

  4. 在**“输入”窗格中,单击“属性”**下方的下一个空白行,然后选择 Calls。对于 Value,请选择可以指示最大呼叫数量的范围。

    一个新的输入条件会添加到列表中。**“变量”**窗格会相应地进行更新,以显示呼叫数量最大时特定班次对模型产生的影响。

  5. 继续更改 Shift 和 Calls 的值可以发现班次、呼叫数量和服务等级之间所有值得注意的相关性。

    注意注意

    若要清除“输入”窗格以便您可以使用不同的属性,请单击“刷新查看器内容”

解释查看器中提供的统计信息

较长的等待时间是高挂断率的强预测因子,这意味着较差的服务等级。这似乎是一个明显的结论;但挖掘模型为您提供了一些其他统计数据,以帮助您解释这些趋势。

  • 分数:表示该变量在区分结果方面的整体重要性的值。分数越高,变量对结果产生的影响就越大。

  • value 1 的概率:表示该值对该结果的概率的百分比。

  • value 2 的概率:表示该值对该结果的概率的百分比。

  • Value 1 的提升Value 2 的提升:表示使用此特定变量预测 Value 1 结果和 Value 2 结果所产生的影响的分数。分数越高,使用该变量预测结果时就越准确。

下表包含首要影响因素的一些示例值。例如,value 1 的概率为 60.6%,value 2 的概率为 8.30%,这意味着当 Average Time Per Issue 介于 44-70 分钟之间时,60.6% 的事例发生在具有最高服务等级 (Value 1) 的班次内,8.30% 的事例发生在具有最低服务等级 (Value 2) 的班次内。

通过此信息,可以得出一些结论。较短的呼叫响应时间(范围为 44-70)会严重影响较好的服务等级(范围为 0.00-0.07)。分数 (92.35) 告诉您此变量非常重要。

但是,当您向下查看相关因素的列表时,会发现一些其他因素产生的影响更微妙、更难于解释。例如,班次似乎影响服务,但提升分数和相关概率指示班次不是主要因素。

属性

倾向于 < 0.07

倾向于 >= 0.12

Average Time Per Issue

89.087 - 120.000

  

分数:100
Value1 的概率:4.45%
Value2 的概率:51.94%
Value1 的提升:0.19
Value2 的提升:1.94

Average Time Per Issue

44.000 - 70.597

分数:92.35
Value1 的概率:60.06%
Value2 的概率:8.30%
Value1 的提升:2.61
Value2 的提升:0.31

  

返回页首

Microsoft 一般内容树查看器

通过使用该查看器,您可以查看在处理模型时算法创建的更多详细信息。**“Microsoft一般内容树查看器”**将挖掘模型表示为一系列节点,其中每个节点表示有关定型数据的已知知识。该查看器可用于所有模型,但节点内容根据模型类型而不同。

对于神经网络模型或逻辑回归模型,您会发现 marginal statistics node 特别有用。该节点包含有关数据中值分布的派生统计信息。如果希望获取数据摘要而无需编写许多 T-SQL 查询,该信息会很有用。前一主题中装箱值的图表派生自边际统计信息节点。

从挖掘模型中获取数据摘要

  1. 在数据挖掘设计器的**“挖掘模型查看器”**选项卡上,选择 <挖掘模型名称>。

  2. 从**“查看器”列表中,选择“Microsoft 一般内容树查看器”**。

    刷新挖掘模型的视图会在左侧窗格中显示节点层次结构,并在右侧窗格中显示 HTML 表。

  3. 在**“节点标题”**窗格中,单击名为 10000000000000000 的节点。

    任何模型中的最顶部节点都始终是模型根节点。在神经网络模型或逻辑回归模型中,紧位于该节点下方的节点是边际统计信息节点。

  4. 在**“节点详细信息”**窗格中向下滚动,直至找到 NODE_DISTRIBUTION 行。

  5. 向下滚动 NODE_DISTRIBUTION 表可以查看按照神经网络算法计算的值的分布。

若要在报表中使用该数据,可以选择并复制特定行的信息,也可以使用下列数据挖掘扩展插件 (DMX) 查询来提取节点的完整内容。

SELECT * 
FROM [Call Center EQ4].CONTENT
WHERE NODE_NAME = '10000000000000000'

还可以使用节点层次结构和 NODE_DISTRIBUTION 表中的详细信息来遍历神经网络中的各个路径,并查看来自隐藏层的统计信息。有关详细信息,请参阅查询神经网络模型(Analysis Services - 数据挖掘)

返回页首

数据源视图设计器

在生成挖掘结构或多维数据集时,您可以使用该查看器,但该查看器还提供了各种工具来帮助您更好地了解源数据。例如,如果模型发现了一种您不完全了解的趋势,您可能会希望查看基础数据中的单个行,或者希望创建有助于您了解相关性的摘要或图表。

本节提供了一个示例,说明如何使用数据源视图设计器来探索模型透露出来的趋势,而不必将数据复制到 Excel 或对数据源运行多个 T-SQL 查询。

在该应用场景中,您将创建一些图表,以图形方式显示由模型发现的响应时间和服务等级之间的相关性。

创建演示挖掘模型中的趋势的透视图

  1. 在解决方案资源管理器的**“数据源视图”**下方,双击 Call Center.dsv。

  2. Call Center.dsv 选项卡上,右键单击 FactCallCenter 表并选择**“浏览数据”**。

    一个新的选项卡随即打开,其标题为**“浏览 FactCallCenter 表”。此选项卡在不同的选项卡上包含四部分:“表”“透视表”“图表”“透视图”**。

  3. 单击**“透视图”**选项卡。

  4. 在**“图表字段列表”中选择 AverageTimePerIssue,然后将其拖动到图表区域中标题为“将分类字段拖至此处”**的框中。

    因为源数据来自平面表,所以**“图表字段列表”**中的层次结构信息与层次结构级别和字段级别的信息相同。但是,如果使用的是多维数据集或维度,则层次结构可能会包含多个成员。例如,日期层次结构可能会包含季度、月份或天等字段。您可以将整个层次结构或层次结构中的单个成员拖放到图表中。

  5. 在**“图表字段列表”**中找到 ServiceGrade,然后将其拖动到图表区域的中心。

    更新图表会在图表顶部添加一个标题为 Sum of ServiceGrade 的框。

  6. 单击工具栏中的 Sigma 图标,然后选择**“平均值”**。

    标题将更新为 Average of ServiceGrade

  7. 在**“图表字段列表”中选择 Shift,然后将其拖动到图表区域中标题为“将筛选字段拖至此处”的框中。从“图表字段列表”**中拖动 WageType,并将其放置在 Shift 旁边。

    现在您就可以按班次来进行筛选了,看趋势是否根据班次或者当天是节假日还是工作日而有所不同。

  8. 在图表底部选择 AverageTimePerIssue,然后将其拖回到**“图表字段列表”**中。

  9. 在**“图表字段列表”中选择 AverageTimePerLevelTwoOperators,然后将其拖动到图表区域中标题为“将分类字段拖至此处”**的框中。

    更新图表会显示操作员增加和平均服务等级之间的相关性。似乎不存在线性关系。可以通过将新字段拖放到图表中,或通过更改图表类型来继续进行尝试。

但请注意,这些图表通常只能同时显示少数几个属性,而神经网络算法会分析多个输入之间的诸多复杂交互。此外,神经网络模型还会检测许多对于图表中的表达式很微妙的相关性。

如果希望导出关系图或制作复杂神经网络模型的演示文稿,则还可以使用 Visio 数据挖掘模板。该免费的 Visio 2007 外接程序可以为数据挖掘模型提供复杂的、可自定义的关系图,您可以在演示文稿或报表中使用它们。有关详细信息,请参阅 Data Mining Add-ins for Office 2007(Office 2007 数据挖掘外接程序)

返回页首