Data Quality Services(DQS)中的数据质量项目是使用知识库通过执行 数据清理 和数据 匹配 活动,然后将生成的数据导出到 SQL Server 数据库或 .csv 文件来提高源数据的质量的方法。 可以将数据质量项目创建为清理项目或匹配项目以执行相应的活动。 可以使用同一知识库运行清理和匹配项目,因为数据清理和匹配的知识可以内置到同一知识库中。
数据质量项目具有以下优势:
使你能够使用 DQS 知识库中的知识对源数据执行数据清理。
使你能够使用知识库中的匹配策略对源数据执行数据匹配。
提供一个向导,指导你完成清理和匹配活动,并按照所选内容将数据导出到 SQL Server 数据库或 .csv 文件。 数据专员可以使用数据质量项目来运行和控制计算机辅助/交互式清理和数据匹配步骤。
数据质量项目:清理活动
清理数据质量项目使你能够基于知识库清理源数据。 DQS 中的数据清理活动是一个双重过程:
计算机 辅助 的数据清理过程,可针对知识库中的知识分析源数据,并建议进行更改。 已处理的数据由 DQS 分类(建议、新、无效、已更正及正确),并向用户显示以供进一步处理。
交互式清理过程,使数据专员能够批准、拒绝或修改计算机辅助数据清理过程提出的数据。
有关数据质量项目中的清理活动的详细信息,请参阅 数据清理。
数据质量项目:匹配活动
匹配的数据质量项目使你能够基于知识库中的匹配策略执行匹配活动,通过识别确切和近似匹配来防止数据重复,从而允许删除重复数据。 建议在数据上进行匹配之前先清理数据。 为此,做以下事情:
创建数据质量项目,选择“ 清理 ”活动,完成源数据上的数据清理活动,然后将其导出到 SQL Server 数据库中的表。
使用包含匹配策略的知识库创建另一个数据质量项目,选择 “匹配 ”活动,然后在 “映射 ”页中选择数据库和导出步骤 1 中清理数据的表。
完成已清理数据的匹配任务。
有关数据质量项目中的匹配活动的详细信息,请参阅 数据匹配。
数据分析和通知
在数据质量项目中运行清理和匹配活动时,可以查看有关 DQS 正在处理的数据的实时统计信息和信息。 数据分析可帮助你评估清理和匹配过程的有效性,并且可以确定数据清理或匹配有助于提高数据质量的程度。 DQS 分析提供两个数据质量维度: 完整性 (数据存在的程度)和 准确性 (数据可用于其预期用途的程度)。 此外,根据数据概况分析信息,将向用户显示可用于增强数据清理和数据匹配操作的通知。 有关数据分析和通知的详细信息,请参阅 DQS 中的数据分析和通知。
相关任务
任务说明 | 主题 |
---|---|
介绍如何创建数据质量项目。 | 创建数据质量项目 |
介绍如何管理数据质量项目(打开、解锁、重命名和删除)。 | 管理数据质量项目(打开、解锁、重命名和删除) |
介绍如何在数据质量客户端中打开 Integration Services 项目。 | 在数据质量客户端中打开 Integration Services 项目 |