使用 DQS(内部)知识进行数据清洗

本主题介绍如何在 Data Quality Services(DQS)中使用数据质量项目清理数据。 使用基于高质量数据集的 DQS 中内置的知识库对源数据执行数据清理。 有关详细信息,请参阅 生成知识库

数据清理在四个阶段执行:一个 映射 阶段,用于标识要清理的数据源,并将其映射到知识库中所需的域、DQS 将知识库应用于要清理的数据的计算机 辅助清理 阶段,并建议/对源数据进行更改、数据专员可以分析数据更改的 交互式清理 阶段、 并接受/拒绝数据更改,最后是允许导出已清理数据的 导出 阶段。 每个进程都在清理活动向导的单独页面上执行,使你可以来回移动到不同的页面,重新运行进程,并关闭特定的清理过程,然后返回到进程的同一阶段。 DQS 提供有关源数据的统计信息和清理结果,使你能够就数据清理做出明智的决策。

在您开始之前

先决条件

  • 必须为清理活动指定适当的阈值。 有关执行此作的信息,请参阅 配置用于清理和匹配的阈值

  • 要在数据质量服务器上提供一个 DQS 知识库,用于比较和清理源数据。 此外,知识库必须包含有关要清理的数据类型的知识。 例如,如果要清理包含美国地址的源数据,则必须具有针对美国地址的“高质量”示例数据创建的知识库。

  • 如果要清理的源数据位于 Excel 文件中,则必须在 Data Quality 客户端计算机上安装 Microsoft Excel。 否则,将无法在映射阶段中选择 Excel 文件。 Microsoft Excel 创建的文件可以扩展名为 .xlsx、.xls或 .csv。 如果使用 64 位版本的 Excel,则仅支持 Excel 2003 文件(.xls) ;不支持 Excel 2007 或 2010 文件(.xlsx)。 如果使用 64 位版本的 Excel 2007 或 2010,请将该文件另存为 .xls 文件或 .csv 文件,或改为安装 32 位版本的 Excel。

安全

权限

必须在DQS_MAIN数据库上具有dqs_kb_editor或dqs_kb_operator角色才能执行数据清理。

创建清理数据质量项目

必须使用数据质量项目来执行数据清理操作。 若要创建清洗数据质量项目,请执行以下步骤:

  1. 按照主题“ 创建数据质量项目”中的步骤 1-3 进行作。

  2. 在步骤 3.d 中,选择“ 清理 ”活动。

  3. 单击“ 创建 ”以创建清理数据质量项目。

这将创建清理数据质量项目,并打开清理数据质量向导的 “地图 ”页。

映射阶段

在映射阶段中,指定要清理的源数据的连接,并将源数据中的列与所选知识库中的相应域映射。

  1. 在清理数据质量向导的 “映射 ”页上,选择要清理的源数据: SQL ServerExcel 文件

    1. SQL Server:如果已将源数据复制到此数据库,请选择 DQS_STAGING_DATA 作为源数据库,然后选择包含源数据的相应表/视图。 否则,请选择源数据库和相应的表/视图。 源数据库必须与 Data Quality Server 位于同一 SQL Server 实例中,才能在 “数据库 ”下拉列表中使用。

    2. Excel 文件:单击“ 浏览”,然后选择包含要清理数据的 Excel 文件。 Microsoft Excel 必须安装在数据质量客户端计算机上,才能选择 Excel 文件。 否则,“浏览”按钮将不可用,并且您将在此文本框下收到“Microsoft Excel 未安装”的通知。 除此之外,如果 Excel 文件的第一行包含标题数据,请保持“使用第一行作为标题”复选框选中状态。

  2. “映射”下,通过从“ 源列 ”列中的下拉列表中选择源列,然后从同一行的“ ”列中的下拉列表中选择域,将源数据中的数据列映射到知识库中的相应域。 重复此步骤,使用知识库中的相应域映射源数据中的所有列。 如果需要,可以单击“ 添加列映射 ”图标将行添加到映射表。

    注释

    仅当 DQS 中支持源数据类型并与 DQS 域数据类型匹配时,才能将源数据映射到 DQS 域,以便执行数据清理。 有关支持的源数据类型的信息,请参阅 DQS 域支持的 SQL Server 和 SSIS 数据类型

  3. 单击 “预览数据源 ”图标可查看所选的 SQL Server 表或视图中的数据,或所选的 Excel 工作表。

  4. 单击“ 查看/选择复合域 ”以查看映射到源列的复合域的列表。 仅当至少有一个复合域映射到源列时,此按钮才可用。

  5. 单击“ 下一步 ”转到计算机辅助清理阶段(清理 页面)。

Computer-Assisted 清洗阶段

在计算机辅助清理阶段,运行自动化数据清理过程,以针对知识库中的映射域分析源数据,并做出/建议数据更改。

  1. 在数据质量向导的“ 清理 ”页上,单击“ 开始 ”以运行计算机辅助清理过程。 DQS 根据指定的阈值级别使用高级算法和置信度,以针对所选知识库分析数据,然后对其进行清理。 有关计算机辅助清理在 DQS 中如何进行的详细信息,请参阅数据清理中的计算机辅助清理。

    重要

    • 数据分析完成后, “开始” 按钮变为 “重启 ”按钮。 如果先前分析的结果尚未保存,请单击 “重启 ”将导致以前的数据丢失。 由于分析正在运行,请不要离开页面,否则分析过程将终止。

    • 如果用于清理项目的知识库是在创建清理项目之后才更新和发布的,单击开始后会提示你是否选择使用最新的知识库进行清理。 如果使用知识库创建了数据质量项目,通过单击“ 关闭”在中间关闭清理项目,然后在稍后的某个时间点重新打开数据质量项目以执行清理,则通常会发生这种情况。 同时,清理项目中使用的知识库已更新和发布。

      同样地,如果在上次运行计算机辅助清理后更新并发布了用于清理项目的知识库,单击重启会询问你是否使用最新的知识库来进行清理。

      在这两种情况下,单击“ ”以使用更新的知识库进行计算机辅助清理。 此外,如果当前映射与更新的知识库之间存在任何冲突(例如域已删除或域数据类型已更改),消息还会提示你修复当前映射以使用更新的知识库。 单击 “是 ”将转到 “地图 ”页,你可以在其中修复映射,然后继续执行计算机辅助清理。

  2. 在计算机辅助清理阶段,可以通过单击 “探查器 ”选项卡来打开探查器,以查看实时数据分析和通知。 有关详细信息,请参阅 探查器统计信息

  3. 如果对结果不满意,请单击“ 返回 ”以返回到 “映射 ”页,根据需要修改一个或多个映射,返回到“ 清理 ”页,然后单击“ 重启”。

  4. 计算机辅助清理过程完成后,单击“ 下一步 ”转到交互式清理阶段(“管理和查看结果 ”页)。

交互式清理阶段

在交互式清理阶段,可以看到 DQS 提出的更改,并通过批准或拒绝更改来决定是否实施这些更改。 在 “管理和查看结果 ”页的左窗格中,DQS 显示映射阶段前面映射的所有域的列表,以及计算机辅助清理阶段中针对每个域分析的源数据中的值数。 在 “管理和查看结果 ”页的右窗格中,根据遵守域规则、语法错误规则和高级算法,DQS 使用 置信度对五个选项卡下的数据进行分类。 置信水平指示 DQS 对更正或建议的确定程度,是基于以下阈值:

  • 自动更正阈值:具有高于此阈值的置信度的任何值都由 DQS 自动更正。 但是,数据管理员可以在交互式清理期间覆盖更改。 可以在“配置”屏幕的“常规设置”选项卡中指定自动更正阈值。 有关详细信息,请参阅 配置用于清理和匹配的阈值

  • 自动建议阈值:任何置信度高于此阈值但低于自动更正阈值的值都建议为替换值。 仅当数据专员批准更改时,DQS 才会进行更改。 可以在“配置”屏幕的“常规设置”选项卡中指定自动建议阈值。 有关详细信息,请参阅 配置用于清理和匹配的阈值

  • 其他:DQS 对低于自动建议阈值的任何值不作改变。

根据置信度,这些值显示在以下五个选项卡下:

选项卡 DESCRIPTION
建议 显示 DQS 找到置信度高于 自动建议阈值 但低于 自动更正阈值 的建议值的域值。

建议值显示在与原始值相对应的“校正至”列中。 可以通过单击上方网格中某个值对应的 “批准”“拒绝” 列中的单选按钮,接受或拒绝该值的所有实例的建议。 在这种情况下,接受的值将移动到 “更正” 选项卡,而被拒绝的值将移动到 “无效 ”选项卡。
新建 显示 DQS 没有足够的信息的有效域,因此无法映射到任何其他选项卡。此外,此选项卡还包含置信度低于 自动建议阈值 的值,但足以标记为有效。

如果认为值正确,请单击“ 批准 ”列中的单选按钮。 否则,请单击“拒绝”列中的单选按钮。 接受的值将移动到“正确”选项卡,拒绝的值将移动到“无效”选项卡。还可以根据值手动键入正确的值作为原始值的替换项,然后单击“批准”列中的单选按钮以接受更改。 在这种情况下,该值将移动到 “更正” 选项卡。
无效 显示知识库中标记为无效的域值或域规则失败的值。 此选项卡还包含用户在其他四个选项卡中拒绝的值。

但是,如果认为值正确,请单击“ 批准 ”列中的单选按钮。 接受的值将移动到“正确”选项卡。您还可以在“更正为”列中手动输入正确的值以替换原始值,然后单击“批准”列中的单选按钮以接受更改。 在这种情况下,该值将移动到 “更正” 选项卡。
纠正 显示 DQS 在自动清理过程中由 DQS 更正的域值,因为 DQS 找到了置信度高于自动更正阈值的值的更正。

更正后的值显示在“修正为”列中,与原始值对应。 默认情况下,批准列中与该值对应的单选按钮已被选中。 如果需要,可以通过单击 “拒绝 ”列中的单选按钮将其移动到 “无效 ”选项卡来拒绝建议的更正,或在“ 正确 到”列中手动键入正确的值,然后单击“ 批准 ”列中的单选按钮接受更改,然后将其移动到 “更正” 选项卡。
正确 显示已确认正确的域值。 例如,该值与域值匹配。 此选项卡还包含用户通过单击“新建”和“无效”选项卡中的“批准”列中的单选按钮批准的值。

默认情况下,“ 批准 ”列中的单选按钮将针对每个值选择。 但是,如果认为此选项卡中的值不正确,则可以针对值单击 “拒绝 ”列中的单选按钮以将其移动到 “无效 ”选项卡,或者手动键入正确的值作为值在“ 正确到 ”列中的值的替换值,然后单击“ 批准 ”列中的单选按钮接受更改, 并将其移动到 “更正” 选项卡。

以交互方式清理数据:

  1. 在清理数据质量向导的“ 管理和查看结果 ”页上,单击左窗格中的域名。

  2. 查看五个选项卡下的字段值,并按照前面所述采取适当的措施。

    • 右上方窗格显示所选域中每个值的以下信息:原始值、实例数(记录数)、用于指定另一个(正确)值的框、置信度(不适用于 “正确 ”选项卡下的值)、对值执行 DQS作的原因,以及批准和拒绝该值的更正和建议的选项。

      小窍门

      可以通过单击“ 批准所有术语 ”或“ 拒绝所有术语 ”图标,批准或拒绝右上方窗格中所选域中的所有值。 或者,可以右键单击所选域中的值,然后单击快捷菜单中 的“全部接受 ”或“ 全部拒绝 ”。

    • 下窗格显示右上方窗格中选择的域值的单个出现。 将显示以下信息:用于指定另一个(即正确的)值的输入框、置信度(对于“正确”选项卡下的值不可用)、对该值执行DQS操作的原因、批准和拒绝该值的更正和建议的选项,以及原始值。

  3. 如果在创建域名时为其启用了 拼写检查器 功能,则会在被识别为潜在错误的域名值下显示波浪形红色下划线。 为整个值显示下划线。 例如,如果“纽约”被拼错为“Neu York”,那么拼写检查器将在“Neu York”下显示红色下划线,而不仅仅是“Neu”。 如果右键单击该值,将看到建议的更正。 如果有 5 个以上的建议,可以在上下文菜单中单击 “更多建议 ”以查看其余建议。 与错误显示一样,建议是替换整个数值。 例如,在上一个例子中,“纽约”将被显示为建议,而不是仅显示“新”。 您可以选择其中一个建议,或者将一个值添加到字典中以显示该值。 值存储在用户帐户级别的字典中。 从拼写检查器上下文菜单中选择建议时,所选建议将被添加到 “更正为” 列。 但是,如果在校正到列中选择建议,则该列中的值将被所选建议替换。

    默认情况下,在交互式清理阶段中启用拼写检查器功能。 可以通过单击 “启用/禁用拼写检查器 ”图标,或在域值区域中右键单击,然后单击快捷菜单中的 Speller,在交互式清理阶段禁用 拼写检查器 。 若要再次启用它,请执行相同的操作。

    注释

    拼写检查功能仅在上窗格(域值)中可用。 此外,不能为复合域启用或禁用拼写检查器。 默认情况下,在复合域中,属于字符串类型并启用了拼写检查功能的子域将在互动清理阶段启用拼写检查功能。

  4. 在交互式清理阶段,您可以单击探查器选项卡开启探查器,以查看实时数据分析和通知。 有关详细信息,请参阅 探查器统计信息

  5. 查看所有域值后,单击“ 下一步 ”转到导出阶段。

导出阶段

在导出阶段,指定用于导出已清理数据的参数:导出的内容和位置。

  1. 在清理数据质量向导的 “导出 ”页上,选择用于导出已清理数据的目标类型: SQL ServerCSV 文件Excel 文件

    重要

    如果使用 64 位版本的 Excel,则无法将清理的数据导出到 Excel 文件;只能导出到 SQL Server 数据库或 .csv 文件。

    1. SQL Server:如果要在此处导出数据,请选择 DQS_STAGING_DATA 作为目标数据库,然后指定要创建的表名称来存储导出的数据。 否则,如果要将数据导出到其他数据库,请选择另一个数据库,然后指定将创建的表名称以存储导出的数据。 目标数据库必须与 Data Quality Server 位于同一 SQL Server 实例中,才能在 “数据库” 下拉列表中可用。

    2. CSV 文件:单击“ 浏览”,并指定要在其中导出已清理数据的 .csv 文件的名称和位置。 还可以键入 .csv 文件的文件名以及要导出清理数据的完整路径。 例如,“c:\ExportedData.csv”。 该文件保存在安装了 Data Quality Server 的计算机上。

    3. Excel 文件:单击“ 浏览”,并指定要导出清理数据的 Excel 文件的名称和位置。 还可以键入 Excel 文件的文件名以及要导出清理数据的完整路径。 例如,“c:\ExportedData.xlsx”。 该文件保存在安装了 Data Quality Server 的计算机上。

  2. 选中 “标准化输出 ”复选框,根据为域选择的输出格式标准化输出。 例如,将字符串值更改为全大写或将单词首字母大写。 有关指定域输出格式的信息,请参阅设置域属性中的输出格式设置列表。

  3. 接下来,选择数据输出:仅导出已清理的数据或导出已清理的数据以及清理信息。

    • 仅数据:单击单选按钮仅导出已清理的数据。

    • 数据和清理信息:点击单选框以导出每个域的以下数据:

      • <域>_Source:域中的原始值。

      • <域>_Output:域中已清理的值。

      • <域>_Reason:为纠正数值指定的原因。

      • <域>_Confidence:更正的所有术语的置信度级别。 它显示为等效于相应百分比值的十进制值。 例如,置信度为 95% 将显示为 .95000000。

      • <域>_Status:数据清理后域值的状态。 例如, 建议新建无效更正更正

      • 记录状态:除了具有每个映射域 的状态字段(<DomainName>_Status), “记录状态 ”字段还显示记录的状态。 如果记录中的任何域状态为 “新建 ”或“ 正确”,则 记录状态 设置为 “正确”。 如果记录中的任何域状态为 “建议”、“ 无效”或 “更正”,则 记录状态 将设置为相应的值。 例如,如果记录中的任何域状态为 “建议”,则 记录状态 设置为 “建议”。

        注释

        如果使用引用数据服务进行清理作,则有关域值的一些附加数据也可用于导出。 有关详细信息,请参阅 “使用引用数据清理数据”(外部)知识

  4. 单击“ 导出 ”将数据导出到所选数据目标。 如果选择:

    • SQL Server 作为数据目标,将在所选数据库中创建具有指定名称的新表。

    • CSV 文件 作为数据目标,将在数据质量服务器计算机上的位置创建一个 .csv 文件,其中包含前面在 CSV 文件名 框中指定的文件名。

    • Excel 文件 作为数据目标,将在 Data Quality Server 计算机上的位置创建一个 Excel 文件,其中包含前面在 Excel 文件名 框中指定的文件名。

  5. 单击“ 完成 ”关闭数据质量项目。

探查器统计信息

“探查器”选项卡提供用于指示源数据质量的统计信息。 分析有助于评估数据清理活动的有效性,并可能确定数据清理能够提高数据质量的程度。

探查器 ”选项卡按字段和域提供源数据的以下统计信息:

  • 记录:为数据清理活动分析了数据样本中的记录数

  • 正确的记录:找到多少条记录是正确的

  • 更正的记录:更正了多少条记录

  • 建议的记录:建议的记录数

  • 无效记录:有多少记录无效

字段统计信息包括:

  • 字段:源数据中字段的名称

  • :映射到该字段的域的名称

  • 更正的值:已更正的域值数

  • 建议的值:建议的域值数

  • 完整性:为清理活动映射的每个源字段的完整性

  • 准确性:为清理活动映射的每个源字段的准确性

DQS 分析提供两个数据质量维度: 完整性 (数据存在的程度)和 准确性 (数据可用于其预期用途的程度)。 如果剖析表明某个字段相对不完整,你可能需要将其从数据质量项目的知识库中移除。 分析可能无法为复合域提供可靠的完整性统计信息。 如果需要完整性统计信息,请使用单个域而不是复合域。 如果要使用复合域,可能需要创建一个知识库,其中包含用于分析的单个域,以确定完整性,并使用复合域创建另一个域进行清理过程。 例如,分析可能会显示使用复合域的地址记录的 95 个% 完整性,但其中一列的不完整程度可能更高,例如邮政(zip)代码列。 在此示例中,你可能想要使用单个域测量邮政编码列的完整性。 分析可能会为复合域提供可靠的准确性统计信息,因为可以同时测量多个列的准确性。 此数据的值位于复合聚合中,因此可能需要使用复合域来测量准确性。

如果不使用引用数据服务,准确性统计信息可能需要更多解释。 如果使用引用数据服务进行数据清理,你将对准确性统计信息具有信任级别。 有关使用引用数据服务清理数据的详细信息,请参阅 “使用引用数据清理数据”(外部)知识

清理通知

以下条件会导致通知:

  • 字段没有更正或建议。 你可能想要将其从映射中删除、首先运行知识发现或使用其他知识库。

  • 字段的更正或建议相对较少。 你可能想要将其从映射中删除、首先运行知识发现或使用其他知识库。

  • 领域的准确性非常低。 可能需要验证映射,或考虑首先运行知识发现。

有关分析的详细信息,请参阅 DQS 中的数据分析和通知