本主题介绍如何使用参考数据提供程序中的知识清理数据。 尽管运行清理活动的所有步骤在使用参考数据提供程序的知识清理数据时保持一致,如 “使用 DQS(内部)知识清理数据”中所述,本主题提供了有关在 Data Quality Services(DQS)中使用引用数据服务进行数据清理的具体信息。
使用 DQS 中的引用数据服务功能清理数据时,DQS 清理过程会将映射的域值作为批处理请求发送到引用数据服务提供程序。 引用数据服务使用以下信息进行响应:
建议的更正
置信度
有关映射域的其他信息。 参考数据还可以标准化、解析或用其他数据扩充源数据。 此信息在响应中的其他字段中提供。
从引用数据服务获取响应后,清理活动期间在 DQS 中发生以下情况:
根据使用引用数据服务的域映射期间指定的 自动更正阈值 和 最小置信度 值,根据置信度自动更正或建议域值。
注释
在将域映射到引用数据服务期间指定的阈值是在使用引用数据服务知识清理数据时应用的,而不是在“配置”部分的“常规设置”选项卡中指定的阈值。 有关为引用数据清理指定阈值的信息,请参阅 “将域或复合域附加到引用数据”中的步骤 9。
域值分为以下类别: 建议、 新建、 无效、 更正和 更正。
其他数据将附加在源数据之后,并且这些信息与已清理的数据一起可供导出使用。
在您开始之前
先决条件
必须在 DQS 知识库中将所需的域映射到相应的引用数据服务。 此外,知识库必须包含有关要清理的数据类型的知识。 例如,如果要清理包含美国地址的源数据,则必须将域映射到为美国地址提供高质量“数据的引用数据服务提供商。 有关详细信息,请参阅 将域或复合域附加到参考数据。
安全
权限
必须在DQS_MAIN数据库上具有dqs_kb_editor或dqs_kb_operator角色才能执行数据清理。
使用参考数据知识清理数据
我们将继续使用上一主题中映射的域,将域或复合域附加到引用数据,以及在 Azure 市场中使用 Melissa Data 服务。 现在,我们将使用相同的域来清理一些示例美国地址。 清理数据的步骤与 使用 DQS (内部) 知识的清理数据中所述的步骤相同。 但是,我们会在过程中在必要时提醒您注意。
创建数据质量项目,然后选择“ 清理 ”活动。 请参阅 “创建数据质量项目”。
在 地图 页上,将以下 4 个域与源数据中的相应列进行映射: 地址行、 城市、 州 和 邮政编码。 单击 “下一步” 。
注释
由于已映射 地址验证 复合域中的所有 4 个域,因此数据清理现在将在复合域级别完成,而不是在单个域级别完成。
在“ 清理 ”页上,单击“ 开始”运行计算机辅助清理过程。 清理过程结束后,单击“ 下一步”。
注释
在“ 清理 ”页上,DQS 以以下两种方式显示附加到引用数据服务的域的相关信息:
- “开始”按钮下方会显示一条消息:“域名<Domain1>、<Domain2>,... <DomainN>使用引用数据服务提供商清理。” 在此示例中,将显示以下消息:“域地址验证使用引用数据服务提供商清理。”
- 图标
在Profiler区域中显示,与附加到参考数据服务提供商的域相关。 在此示例中,该图标将针对 地址验证 复合域显示。
在 “管理和查看结果 ”页上,查看域值。 引用数据服务可以显示多个建议(如果可用),具体取决于在域与引用数据服务的映射期间在 “建议候选项 ”框中指定的最大建议数。 为以下美国地址显示两条建议,例如:
原始值:
地址栏 城市 国家 邮政编码 1 msft路 雷德蒙德 98052 建议的值:
地址栏 城市 国家 邮政编码 1 Microsoft Way 雷德蒙德 华盛顿州 (if referring to Washington) 西澳大利亚 (if referring to Western Australia) 98052 PO Box 1 雷德蒙德 华盛顿州 98073 注释
对于复合域,DQS 会用不同的颜色突出显示那些在计算机辅助清理过程中被更正的各个域。 例如,在这种情况下, 地址行 和 状态 域已更正,因此在青绿色中突出显示。
查看完所有域值后,单击“ 下一步 ”导出数据。
在 “导出” 页上,您会注意到,除了有关每个域(源、原因、置信度和状态)的清理活动的常规信息外,还有梅丽莎数据引用数据服务提供的其他信息,如您的地址的纬度和经度、县名称、地址类型(高层建筑、街道等)等等。
将数据导出到所需的目标(SQL Server、CSV 或 Excel),然后单击“ 完成 ”关闭项目。
重要
如果使用 64 位版本的 Excel,则无法将清理的数据导出到 Excel 文件;只能导出到 SQL Server 数据库或 .csv 文件。