扫描数据映射中的数据源

在 Microsoft Purview 中, 注册数据源后,可以扫描源以捕获技术元数据、提取架构并将分类应用于数据。

本文介绍扫描任何数据源的基本步骤。

提示

每个源都有自己的扫描说明和先决条件。 有关最完整的扫描说明,请从 支持的源列表中选择 源并查看其扫描说明。

先决条件

查看 可在 Microsoft Purview 中注册和扫描的源列表。

必须先执行以下步骤,然后才能扫描数据源:

  1. 注册数据源,这实质上为 Microsoft Purview 提供数据源的地址,并将其映射到 Microsoft Purview 数据映射 中的集合或域
  2. 考虑网络, 并为方案选择正确的集成运行时配置
  3. 请考虑要用于连接到源的凭据。 所有 源页 都有一个 “扫描 ”部分,其中包含有关可用的身份验证类型的详细信息。

创建扫描

在以下步骤中,我们将使用 Azure Blob 存储 作为示例,并使用 Microsoft Purview 托管标识进行身份验证。

重要

以下是创建扫描的常规步骤,但应参阅 源页 ,了解特定于源的先决条件和扫描说明。

  1. 打开 Microsoft Purview 门户,导航到 “数据映射 ->数据源” ,在映射或表视图中查看已注册的源。

    提示

    如果数据映射具有大量已注册的源,则表视图的性能可能更高。

  2. 找到源并选择“ 新建扫描”。

  3. 输入扫描 的名称

  4. 对于 “凭据”,请选择身份验证方法。

  5. 选择用于扫描的当前域、集合或子集合。 你选择的集合或域将容纳扫描期间发现的元数据。

    注意

    扫描将始终与已注册的源位于同一域中,但可以选择子集合。

  6. 选择“ 测试连接”。 如果连接成功,请选择“ 继续”。 如果连接不成功,请参阅 故障排除

  7. 根据源,可以将扫描范围限定为特定的数据子集。 对于Azure Blob 存储,请通过选择列表中的相应项来选择文件夹和子文件夹。

    显示扫描窗口的范围的屏幕截图,其中选择了文件和文件夹。

  8. 选择扫描规则集。 扫描规则集包含扫描检查 的数据分类 类型。 可以选择系统默认 (,其中包含可用于源) 的所有分类、组织中的其他人创建的现有自定义规则集,或 内联创建新的规则集

    注意

    只能选择与源注册的域关联的凭据和扫描规则集。

  9. 选择扫描触发器。 可以设置计划或运行扫描一次。 详细了解支持的 计划选项

  10. 查看扫描并选择“ 保存并运行”。

计划扫描

设置扫描时,可以选择一次/按需运行扫描,或按定期计划运行扫描。 可以配置以下计划选项:

  • 时区:选择要与扫描计划保持一致的时区。 如果选择的时区观察到夏令时,触发器会自动调整差异。
  • 定期:可以选择 每日每周每月 扫描重复周期。
    • 每日重复:将重复周期设置为每 X 天,并指定当天的扫描开始时间。
    • 每周重复周期:将定期设置为每 X 周,选择一周中的一天或多天,并指定一天的扫描开始时间。
    • 每月重复周期:将重复周期设置为每 X 个月,选择按月天数或工作日,选择一个或多个天/工作日 (月份的) ,并指定扫描开始时间。
  • 开始重复时间:设置扫描计划开始的时间。
  • 指定定期结束日期 (可选) :如果要在一定时间后停止扫描,可以通过选择“检查”框来启用此选项,并提供结束日期。

“设置扫描触发器”页的屏幕截图。

查看扫描

根据数据源中的数据量,扫描可能需要一些时间才能运行,因此,下面介绍如何检查进度并在扫描完成时查看结果。

  1. 可以从集合、域或源本身查看扫描。

  2. 若要从集合或域中查看,请导航到数据映射中的 集合 ,然后选择“ 扫描”。

    集合页的屏幕截图,其中突出显示了“扫描”按钮。

  3. 选择扫描名称以查看详细信息。

    集合列表中扫描的屏幕截图,其中突出显示了最新的扫描名称。

  4. 或者,可以直接导航到其集合域中数据源,然后选择“查看详细信息”以检查扫描状态。

    数据映射的屏幕截图,其中突出显示了源的视图详细信息按钮。

  5. 扫描详细信息指示上次 运行状态 中的扫描进度,以及 扫描分类的资产数。

    源详细信息页的屏幕截图,其中突出显示了资产和扫描。

  6. “上次运行”状态更新为“正在进行”,并在整个扫描成功运行后更新为“已完成”

    源详细信息页的屏幕截图,其中显示了“正在进行”状态的扫描。

    源详细信息页的屏幕截图,其中显示了显示已完成状态的扫描。

管理扫描

扫描完成后,可以对其进行管理或再次运行。

  1. 从集合列表或源页中选择 “扫描名称 ”以管理扫描。

    源详细信息页的屏幕截图,其中突出显示了扫描名称链接。

  2. 可以再次 运行扫描编辑扫描删除扫描

    管理扫描页的屏幕截图,其中突出显示了“运行”、“编辑”和“删除”按钮。

  3. 可以运行完全扫描,这将扫描范围中的所有内容,但某些源也提供 增量扫描 。 增量扫描将仅扫描自上次扫描以来已更新的资源。 检查源页中的 “支持的功能 ”表,查看第一次扫描后,增量扫描是否可用于源。

    “立即运行扫描”按钮的屏幕截图,其中显示了完整扫描和增量扫描选项。

疑难解答

为扫描设置连接可能会很复杂,因为它是针对网络和凭据的自定义设置。

如果无法连接到源,请执行以下步骤:

  1. 查看 源页 先决条件,确保未错过任何内容。
  2. 查看源页的 “扫描 ”部分中的身份验证选项,确认是否已正确设置身份验证方法。
  3. 查看 排查连接问题
  4. 创建支持请求,以便我们的支持团队可以帮助你对特定环境进行故障排除。

后续步骤