借助数据质量服务(DQS)数据匹配过程,可以减少数据重复,并提高数据源中的数据准确性。 匹配分析单个数据源的所有记录中的重复程度,并返回比较每个记录集之间的匹配的加权概率。 然后,您可以决定哪些记录是匹配的,并针对源数据采取适当的措施。
DQS 匹配过程具有以下优势:
通过匹配,可以消除应相等的数据值之间的差异,确定正确的值并减少数据差异可能导致的错误。 例如,名称和地址通常是数据源的标识数据,尤其是客户数据,但数据可能会随着时间推移变得脏和恶化。 执行匹配以识别和更正这些错误可以使数据使用和维护更加容易。
通过匹配,可以确保那些等值但以不同格式或样式输入的值最终被标准化为一致的格式。
匹配标识确切和近似匹配项,使你可以在定义数据时删除重复数据。 您可以定义近似匹配实际上视为匹配的那个点。 定义要评估哪些字段进行匹配,哪些字段不是。
使用 DQS,可以使用计算机辅助进程创建匹配策略,根据匹配结果以交互方式修改它,并将其添加到可重用的知识库。
可以根据匹配策略和源数据的状态选择是否为从源复制到临时表的数据重新编制索引。 不重新编制索引可以提高性能。
可以与其他数据清理过程一起执行匹配过程,以提高整体数据质量。 还可以使用 Master Data Services 中内置的 DQS 功能执行重复数据删除。 有关详细信息,请参阅 Master Data Services 概述。
下图显示了如何在 DQS 中完成数据匹配:
如何执行数据匹配
与在 DQS 中的其他数据质量过程类似,通过构建知识库并在数据质量项目中执行匹配活动,按以下步骤进行操作:
在知识库中创建匹配策略
在数据质量项目的匹配活动中执行重复数据删除过程。
生成匹配策略
通过在知识库中创建匹配策略来定义 DQS 如何分配匹配概率,从而为执行匹配准备知识库。 匹配策略由一个或多个匹配规则组成,这些规则标识在 DQS 评估一条记录与另一条记录匹配程度时将使用哪些域,并指定每个域值在匹配评估中携带的权重。 在规则中指定域值是完全匹配还是可能完全相同,以及相似程度。 还可以指定域匹配是否是先决条件。
知识库管理向导中的匹配策略活动通过对每条记录应用匹配规则来分析样本数据,并在整个记录范围内逐一比较两条记录。 匹配分数大于指定最小值的记录在匹配结果中的群集中分组。 这些匹配结果不会添加到知识库;使用它们来优化匹配的规则。 创建匹配策略可以是基于匹配结果或分析统计信息修改匹配规则的迭代过程。
您可以指定一个域,以便在将数据从数据源加载到域时,对数据字符串进行规范化。 此过程包括将特殊字符替换为 null 或空格,这通常删除两个字符串之间的差异。 这可以提高匹配准确性,并且通常使匹配结果能够超过最小匹配阈值,如果没有规范化,则不会通过。
注释
如果两条记录的对应字段中有 Null 值,它们将被视为匹配。
匹配策略在映射到示例数据的域上运行。 可以指定在运行匹配策略时,是将数据从数据源复制到临时表并重新编制索引,还是不进行这些操作。 可以在生成知识库时和运行匹配项目时执行此作。 不重新编制索引可能会导致性能提高。 如果满足以下条件,则不需要重新编制索引:匹配策略未更改,并且尚未更新数据源、重新映射策略、选择新数据源或映射一个或多个新域。
创建每个匹配规则时都会保存在知识库中。 但是,仅当发布数据质量项目时,知识库才可用于数据质量项目。 此外,在发布知识库之前,其中的匹配规则不能由创建该知识库的用户更改。
运行匹配项目
DQS 通过比较源数据中的每一行与其他所有行,使用知识库中定义的匹配策略,并计算这些行匹配的概率,来执行数据重复数据删除。 在具有匹配类型的数据质量项目中实现了这一点。 匹配是数据质量项目中的主要步骤之一。 在数据清理后,最好执行这个过程,以确保要匹配的数据没有错误。 在运行匹配过程之前,可以将清理项目的结果导出到数据表或 .csv 文件中,然后创建一个匹配项目,在其中将清理结果映射到匹配项目中的域。
数据匹配项目由计算机辅助过程和交互式进程组成。 匹配项目将匹配策略中的匹配规则应用于要评估的数据源。 此过程评估任何两行在匹配分数中匹配的可能性。 只有当记录的匹配概率大于数据专员在匹配策略中设置的值时,该记录才会被视为匹配项。
当 DQS 执行匹配分析时,它会创建 DQS 认为匹配的记录群集。 DQS 会随机选出每个群集中的一条记录,识别为枢轴记录或主导记录。 数据专员会验证匹配结果,并拒绝任何不适合群集匹配的记录。 然后,数据专员会选择一个幸存者规则,DQS 将使用该规则来确定在匹配过程中幸存下来的记录,并替换匹配记录。 幸存者规则可以是“基准记录”(默认值)、“最完整且最长的记录”、“最完整的记录”或“最长的记录”。 DQS 根据哪个记录最符合幸存者规则中的标准或标准来确定每个群集中的幸存者(主)记录。 如果给定群集中的多个记录符合幸存者规则,DQS 会随机选择其中一条记录。 DQS 通过选择“显示非重叠群集”,可以选择显示具有共同记录的群集作为单个群集。 必须执行匹配过程,才能根据此设置显示结果。
可以将匹配过程的结果导出到 SQL Server 表或 .csv 文件。 可以两种形式导出匹配结果:第一种是匹配的记录和不匹配的记录,或者第二种是只包含群集的幸存者记录和不匹配结果的幸存者记录。 在幸存者记录中,如果将同一记录标识为多个群集的幸存者,该记录将只导出一次。
本节中
可以执行与 DQS 中的匹配相关的以下任务:
在匹配策略中创建和测试匹配规则 | 创建匹配策略 |
在数据质量项目中运行匹配操作 | 运行匹配项目 |