数据清理

数据清理是分析数据源中的数据质量的过程,手动批准/拒绝系统的建议,从而对数据进行更改。 数据质量服务(DQS)中的数据清理包括计算机辅助过程,用于分析数据如何符合知识库的知识,以及交互式过程,使数据管理员能够审查并修改计算机辅助过程的结果,以确保数据清理过程完全符合他们的期望。

数据管理员还可以在集成服务的打包过程中执行数据清理。 在这种情况下,数据专员将使用 Integration Services 中的 DQS 清理组件,该组件使用现有知识库自动执行数据清理。 有关详细信息,请参阅 DQS 清理转换

DQS 中的数据清理功能具有以下优势:

  • 标识数据源中不完整或不正确的数据(Excel 文件或 SQL Server 数据库),然后更正或提醒你有关无效数据的信息。

  • 提供两个步骤来净化数据:计算机辅助混合型。 计算机辅助过程使用 DQS 知识库中的知识来自动处理数据,并建议进行替换/更正。 下一步(交互式)允许数据专员在计算机辅助清理期间批准、拒绝或修改 DQS 提出的更改。

  • 使用域值、域规则和引用数据标准化和扩充客户数据。 例如,通过将“St.”更改为“Street”来标准化术语用法,通过将“1 Microsoft way Redmond 98006”更改为“1 Microsoft Way, Redmond, WA 98006”来填充缺失元素来扩充数据。

  • 为用户提供一个简单、直观且一致的类似向导的界面,用于在非常大的数据集中导航数据并检查错误。

下图显示了如何在 DQS 中完成数据清理:

DQS中的数据清理过程

计算机辅助清理

DQS 数据清理过程将知识库应用于要清理的数据,并建议对数据进行更改。 数据专员有权访问每个建议的更改,使他或她能够评估和更正这些更改。 若要执行数据清理,数据专员将继续执行如下操作:

  1. 创建数据质量项目,选择要对其分析和清理源数据的知识库,然后选择“ 清理 ”活动。 多个数据质量项目可以使用同一知识库。

  2. 指定要清理的源数据的数据库表/视图或 Excel 文件。 数据库或 Excel 文件可以是用于知识发现的数据库或 Excel 文件,也可以是不同的数据库或 Excel 文件。

    注释

    如果选择相同的数据源进行知识发现和清理活动,则不会对数据进行更改。 建议对示例数据运行知识发现,然后针对知识发现活动期间生成的知识清理源数据。

  3. 将要清理的数据字段映射到知识库中的相应域/复合域。 如果将字段映射到复合域,则字段和复合域之间会发生映射,而不是复合域中的各个域。 此外,映射字段的数据清理是根据为复合域指定的规则完成的,而不是针对复合域中的各个域执行。 有关复合域的详细信息,请参阅 DQS 知识库和域

  4. 单击“清理”页上的“开始”,运行计算机辅助清理过程。

数据清理过程查找数据实例与已知数据域值的最佳匹配项。 此过程将数据质量知识应用于所有源数据,这与知识发现过程不同,后者在示例数据的百分比上运行。

计算机辅助进程在数据质量客户端中显示用于交互式清理过程的数据质量信息。 除了遵守语法错误规则之外,DQS 还使用参考数据和高级算法使用 置信度对数据进行分类。 置信度表示 DQS 对于更正或建议的确定程度。 置信度基于以下阈值:

  • 自动更正阈值,如果 DQS 建议并自动进行更改时值超过该阈值,除非数据专员拒绝这些更改。 可以在“配置”屏幕的“常规设置”选项卡中指定自动更正阈值。 有关详细信息,请参阅 配置用于清理和匹配的阈值

  • 自动建议阈值,在低于自动更正阈值但高于此值时,DQS 将建议更改,并在数据专员批准时进行更改。 可以在“配置”屏幕的“常规设置”选项卡中指定自动建议阈值。 有关详细信息,请参阅 配置用于清理和匹配的阈值

任何置信度低于自动建议阈值的值由 DQS 保持不变,除非数据专员指定更改。

交互式净化

根据计算机辅助的清理过程,DQS 向数据专员提供有关更改数据的决定所需的信息。 DQS 对以下五个选项卡下的数据进行分类:

  • 建议:DQS 识别出置信度高于 自动建议阈值 但低于 自动更正阈值 的数值。 应查看这些值,并根据需要批准或拒绝。

  • 新增:DQS 没有足够的信息(建议)的有效值,因此无法映射到任何其他选项卡。此外,此选项卡还包含置信度低于 自动建议阈值 的值,但足以标记为有效。

  • 无效:在知识库中域被标记为无效的值,或者未能满足域规则或引用数据的值。 此选项卡还将包含用户在交互式清理过程中其他四个选项卡中拒绝的值。

  • 已更正:在自动清理过程中由 DQS 更正的值,因为 DQS 找到了置信度高于 自动更正阈值 的值的更正。 此选项卡还将包含用户在交互式清理期间在 “正确到 ”列中指定了正确值的值,然后通过单击“ 批准 ”列中的任意四个选项卡中的单选按钮获得批准。

  • 正确:找到的值正确。 例如,该值与域值匹配。 如果需要,可以通过拒绝此选项卡下的值来替代 DQS 清理,或在 “正确到” 列中指定备用单词,然后单击 “接受 ”列中的单选按钮。 此选项卡还将包含用户在交互式清理过程中批准的值,方法是单击“新建”或“无效”选项卡中的“批准”列中的单选按钮。

注释

“建议”、“ 更正”和“ 正确 ”选项卡中,DQS 根据相应的域值在“ 正确到” 列中显示域的前导值(如果适用)。

数据专员使用数据质量客户端查看 DQS 建议的更改,并确定是否实施这些更改。 他或她可以验证 DQS 指定的值是否确实正确。 他或她可以验证 DQS 已做出的更改,应具有很高的置信度。 他或她可以决定是否批准自动建议的更改。 他或她可以查看尚未更改的值,以防他或她想进行计算机辅助流程未发现的更改。

DQS 会将数据专员所做的任何更改与计算机辅助数据清理的结果合并。 这些更改将保留在项目中;但是,它们不会添加到知识库。 在数据清理期间,关联的知识库是只读的。

数据清理过程完成后,可以选择将处理的数据导出到 SQL Server 数据库中的新表、.csv 文件或 Excel 文件中。 执行清理的源数据将保持其原始状态。 数据专员可以使用单独的清理数据来更正实际源数据。

下图显示了如何使用 Data Quality 客户端应用程序完成数据清理:

数据质量客户端中的数据清理

前导值更正

前导值更正适用于具有同义词的域值,并且用户希望将其中一个同义词值用作前导值,而不是将其他值用于值的一致表示形式。 例如,“纽约”、“NYC”和“big apple”是同义词,用户希望使用“纽约”作为前导值,而不是“NYC”和“Big Apple”。 DQS 在清理过程中支持前导值更正,以帮助标准化数据。 只有在创建域时启用了域的前导值更正时,才会执行前导值更正。 默认情况下,除非在创建域时清除 了“使用前导值 ”复选框,否则所有域都会启用前导值更正。 有关此复选框的详细信息,请参阅 “设置域属性”。

标准化处理后的数据

可以选择是否根据为域定义的输出格式以标准化格式导出已清理的数据。 创建域时,可以选择在输出域中的数据值时将应用的格式。 有关为域指定输出格式的详细信息,请参阅“设置域属性”中的格式输出至列表

在清理数据质量项目向导的 “导出 ”页上导出已清理的数据时,可以通过选中“ 标准化输出 ”复选框来指定是否希望以标准化格式导出已清理的数据。 默认情况下,已清理的数据以标准化格式导出,即选中该复选框。 有关导出已清理数据的详细信息,请参阅 使用 DQS (内部) 知识清理数据

任务说明 主题
介绍如何为清理活动配置阈值。 为清理和匹配配置阈值
介绍如何使用 DQS 中内置的知识清理数据。 使用 DQS(内部)知识清理数据
介绍如何使用参考数据服务中的知识清理数据。 通过外部知识引用数据清洗数据
介绍如何清理复合域。 清理复合域中的数据

另请参阅

数据质量项目 (DQS)
数据匹配