Data Quality Services(DQS)中的数据分析是分析现有数据源中的数据以及显示有关 DQS 活动中数据的统计信息的过程。 它提供自动化的数据质量测量。 DQS 剖析被集成到 DQS 知识管理和数据质量项目中。 它是动态且可调整的。 分析有两个主要目标:首先,指导你完成数据质量流程并支持决策,其次,评估流程的有效性。 DQS 分析过程具有以下优势:
数据分析提供源数据质量的深刻理解,并帮助识别数据质量问题。
数据分析评估数据质量过程的有效性,指导你进行知识发现、数据清理、匹配策略制定和匹配工作。
分析会在最相关的时间提供最相关的信息。
分析过程生成通知,这些通知强调可能要采取行动的重要统计信息或事件。 在许多情况下,DQS通知会指示某种情况,并建议采取措施来补救该情况。
通过剖析,您不仅可以使用 Data Quality Services 进行知识发现、清理和匹配,还可以用作分析的工具。 你可能想要创建一个知识库进行分析,并使用该知识库进行知识发现,从档案统计信息中判断知识库是否满足您的发现、清理和匹配需求。
概要分析的工作原理
剖析不会测量知识库的质量。 它测量源数据的质量。 性能分析提供统计数据,显示你在知识管理或数据质量项目中执行的特定操作对源数据的影响。 分析始终在您执行的特定活动的上下文中。 可以单击屏幕中的分析选项卡以显示分析数据,而无需离开您正在执行的活动的阶段。 分析表格在执行过程时实时填充,使您能够在执行过程中实时评估数据质量任务。 可以确定源数据在清理或去重之后是否有所改进,以及改进了多少。
所有分析结果数量表示某个值出现的次数,以及在许多情况下占总数的百分比,但唯一性指标除外。 唯一性指标指的是值的绝对数量,而不考虑这些值的出现次数。
剖析是 DQS 知识驱动解决方案的一部分。 它根据数据源字段和知识库域之间的映射提供有关知识库、匹配或数据清理过程的信息。 仅在映射完成后才执行分析;任何活动的映射阶段均不执行任何分析。 监控始终与活动紧密相关。 分析过程是在映射到域的数据上进行,而不是在域中的数据上进行。 剖析集成到以下活动的步骤中:
知识发现活动中的发现和管理域值步骤
清理和管理与查看结果的清理活动步骤
匹配策略和匹配策略活动的结果步骤
匹配活动的“匹配”和“导出”步骤
DQS 不提供域管理活动的分析统计信息。
按活动分析数据
DQS 分析使用标准数据质量维度来表示数据的质量:完整性(数据存在的程度)、准确性(数据可用于其预期用途的程度)和唯一性(不同值代表不同实体的程度)。 默认情况下,NULL 和空值被视为缺失,或降低完整性百分比;但是,还可以将其他值定义为 NULL 等效值,在这种情况下,它们也会被视为缺失。
数据分析为您提供评估流程所需的统计资讯,但您必须对这些统计资讯进行解读。 通过逐列查看统计信息,来理解性能分析所传达的内容。
DQS 活动具有不同的数据概况统计集,如下所示:
只有清理活动具有分析统计信息来获得准确性(按域的百分比)。 准确性受有效性、一致性、语法错误和域规则的影响。
只有“清理活动”具有分析统计信息,包括源中的正确、更正和建议以及按领域分类的更正和建议值(都是百分比)。
清理和知识发现活动具有有效性分析统计信息(按记录进行清理、按记录发现和域进行清理)。 匹配策略和匹配活动没有关于有效性的统计数据。
清理活动没有关于唯一性的剖析统计数据。 知识发现、匹配策略和匹配活动有关于源和域的独特性数量和百分比的分析统计数据。
有关与活动相关的特定分析统计信息的详细信息,请参阅以下主题中的分析部分:
在活动监视中分析数据
知识发现、匹配策略、匹配和清理活动的分析信息不仅可在数据质量客户端的活动页面中找到,还可以在活动监控中查看。 活动监控为您提供当前和过去活动的概览。 除了活动的属性和相关计算过程外,还可以在一个位置查看为每个活动生成的分析信息。 在活动表中选择一个活动,以显示下表中的分析结果。 还可以导出分析结果。 有关详细信息,请参阅 DQS 管理。
通知
除了通过分析收集和显示重要统计信息和指标外,DQS 还会生成通知(如果已启用),以指示何时可能需要根据显示的分析统计信息采取措施。 DQS 使用通知来强调有关数据源的重要事实,并显示当前活动相对于其执行目的的有效性。 通知提供了指示条件的提示和建议,并建议如何改进知识发现、数据清理或数据匹配活动。
DQS 通知用于通知您可能感兴趣的问题,或解决潜在问题。 你是否根据通知进行作取决于它是否与你的目的相关。 例如,假设 DQS 在数据清理未生成校正值或建议值时发布通知,而此时完整性和准确性均为 100%。 此通知将表明这个活动可能不需要运行。 但是,你是否选择运行活动是你的决定。
通知由工具提示指示,在 “分析 ”选项卡中具有感叹号。与通知关联的统计信息以红色表示通知的统计理由。
可以在“数据质量客户端主页的管理”部分的“常规设置”选项卡中启用(默认值)或禁用通知。 禁用通知后,不会显示工具提示,统计信息不着色为红色。 通过禁用通知,性能没有显著改善。 如果禁用通知,分析仍将正常运行。
有关与活动通知关联的特定条件,请参阅以下内容:
相关任务
任务说明 | 主题 |
---|---|
介绍如何在 DQS 中启用或禁用通知。 | 在 DQS 中启用或禁用分析通知 |