了解 Microsoft Purview 中的光学字符识别

2025-06-26

光学字符识别 (OCR) 扫描使 Microsoft Purview 能够扫描图像中的敏感信息。 OCR 扫描是一项可选功能，必须在租户级别启用。启用后，选择要扫描图像的位置。图像扫描适用于 Exchange、SharePoint、OneDrive、Teams、Windows 和 macOS 设备。配置 OCR 设置后，现有数据丢失防护策略 (DLP) 、记录管理和内部风险管理 (IRM) 将应用于基于图像和文本的内容。例如，假设已配置 DLP 条件 内容包含敏感信息 ，并包含数据分类器，例如 信用卡 敏感信息类型 (SIT) 。在这种情况下，Microsoft Purview 会扫描所有选定位置的文本和图像中的信用卡数字。

工作流概览

阶段	所需项
根据需要创建 Azure 订阅	如果你的组织还没有针对租户的 Azure 即用即付订阅，则全局管理员需要首先创建一个 Azure 帐户。
估算 OCR 扫描费用	使用 OCR 成本估算器估算特定用例的预期费用。
设置即用即付计费以启用 OCR。	全局或 SharePoint 管理员必须按照在 Azure 中设置Microsoft Syntex计费中的说明添加 OCR 订阅。
配置 OCR 扫描设置	组织的合规性管理员为租户配置 OCR 设置。

先决条件

若要使用 OCR 扫描，组织的全局管理员需要验证 Azure 即用即付订阅是否已到位。如果没有，则需要按照创建初始 Azure 订阅中的说明进行设置

配置计费

启用 OCR 后，所有敏感信息类型和可训练的分类器都可以检测图像中的字符。

由于这是一项可选功能，因此全局管理员必须设置即用即付计费才能启用 OCR。请参阅在 Azure 中设置Microsoft Syntex计费中的说明，为 OCR 添加订阅。

注意

在 Microsoft Syntex 中输入计费信息后，合规性管理员可以在 Microsoft Purview 中配置 OCR，而无需任何额外的设置或许可要求。

可以在 Azure 中设置Microsoft Syntex计费页上找到 OCR 即用即付定价信息。

估算 OCR 扫描费用

每扫描 1,000 个项目，使用 OCR 的费用为 1.00 美元。扫描的每个图像计为一个事务。这意味着， (JPEG、JPG、PNG、BMP 或 TIFF 的独立映像) 每个映像计数为单个事务。这也意味着 PDF 文件 中的每个页面 单独收费。例如，如果 PDF 文件中有 10 页，则 PDF 文件的 OCR 扫描将计为 10 个单独的扫描。有关使用 OCR 成本估算器的信息，请参阅估算 OCR 成本。

注意

为了降低 OCR 成本，我们提供了以下缓存机制：通过 Microsoft Exchange 通过电子邮件发送的小图像（如徽标和签名）仅在租户的所有用户中扫描一次，并在 5 天的移动窗口内对每个唯一图像进行一次计费。对于终结点，缓存将保留 30 天。缓存是每个终结点设备的本地缓存，仅存储图像和图像哈希上标识的分类器，不存储客户数据。 Sharepoint 和 Onedrive 中没有独立映像的缓存机制。但是，在嵌入式文件类型中，如果仅更新文本，则不会再次扫描图像。

检查多个参数（包括图像流哈希、图像大小），以查看是否可以使用缓存。如果任何参数不匹配，则图像再次为 OCRed。

此外，每个扫描的图像都可以在数据丢失防护、内部风险管理、自动标记和记录管理等任意数量的策略中使用，无需额外付费。

重要

有关将 Microsoft Purview 数据丢失防护 (DLP) 功能与 PDF 文件配合使用的 Adobe 要求的信息，请参阅 Adobe：Acrobat 中的Microsoft Purview 信息保护支持文章。

配置 OCR 设置

登录到 Microsoft Purview 门户。
选择“设置”。
选择“ 光学字符识别 (OCR) ”以输入 OCR 配置设置。
选择要扫描图像的位置。
选择要从 OCR 扫描中包括或排除的组。
选择“ 完成”

下表列出了支持的位置和解决方案。

权限

用于创建和部署策略的帐户必须是其中一个角色组的成员

合规性管理员
合规性数据管理员
全局管理员
信息保护
信息保护管理员

注意

通常，OCR 设置在打开后大约一小时后生效。
有关 Microsoft Purview 通信合规性中的 OCR 功能的信息，请参阅创建和管理通信合规性策略。

支持的位置和解决方案

位置	支持的解决方案
Exchange	数据丢失防护信息保护：自动标记策略记录管理：自动应用保留标签策略¹
SharePoint 网站	数据丢失防护内部风险管理² 记录管理：自动应用保留标签策略¹
OneDrive 账户	数据丢失防护记录管理：自动应用保留标签策略¹
Teams 聊天和通道消息	数据丢失防护内部风险管理²
设备	数据丢失防护内部风险管理²

¹ 支持关键字和敏感信息类型。
² 考虑图像中存在的敏感信息类型和可训练分类器，以便进行风险评分。

支持的文件类型

此功能支持扫描以下文件类型中的图像，但需要注意以下要求：

位置	支持的文件类型
Exchange	JPEG、JPG、PNG、BMP、TIFF 和 PDF (扫描) 。 DOCX、PPTX、XLSX、RAR、TAR、ZIP、7z 和混合 PDF 中的嵌入图像 (包含可搜索文本和图像) ，每个文件最多扫描 20 个嵌入图像。
SharePoint 和 OneDrive	BMP、PNG、JPEG、JPG、JFIF、ARW、CR2、CRW、ERF、GIF、MEF、MRW、NEF、NRW、ORF、PEF、RAW、RW2、 RW1、SR2、TIF、TIFF、HEIC、HEIF、ARI、BAY、CAP、CR3、DCS、DCR、DRF、EIP、FFF、IIQ、K25、KDC、MOS、PTX、PXN、RAF、RWL、SRF、SRW、X3F、DNG、PDF (扫描和混合包含可搜索文本和图像) DOCX 中的嵌入图像， PPTX、XLSX
Teams、Windows 和 macOS 终结点	JPEG、JPG、PNG、BMP、TIFF 和 PDF (图像仅)

映像要求

文件大小： 对于 Exchange 和 Teams，图像文件必须不超过 20 MB。对于 SharePoint、OneDrive 和 Windows 以及 macOS 终结点，最大图像文件大小为 50 MB。

图像分辨率： 图像分辨率必须至少为 50 x 50 像素，且不大于 16,000 x 16,000 像素。

重要

仅扫描启用 OCR 后上传的图像。
OCR 将仅提取前 200 万个字符的文本。
默认情况下，传入电子邮件 (来自组织外部) 用户的电子邮件、内部邮件 (组织用户) 内共享的电子邮件，以及发送给组织外部用户) 的传出电子邮件 (电子邮件都受到 OCR 扫描。若要从 OCR 扫描中排除传入邮件，请将 OCR 设置从 “所有发件人组 ”的默认范围更改为 “特定发件人组 ”，并指定希望 OCR 扫描的内部组。若要将 OCR 扫描限制为仅在组织外部发送的邮件，请选择“ 高级设置 (仅 Exchange) ” 下的选项。选中此复选框后，传入邮件或任何内部通信都不会是 OCRed。有关更改配置的信息，请参阅配置 OCR 设置。
Exchange 中的映像不支持数据丢失防护策略提示。
如果在终结点数据丢失防护设置中排除路径，OCR 将不会扫描这些文件夹中的图像。
当为 Windows 和 macOS 设备启用 OCR 时，设备将开始向云发送消息进行扫描。默认带宽限制是每台设备每天 1,024 MB 的数据。一旦达到此每日限制，OCR 将停止扫描图像。如果要继续扫描图像，可以增加带宽限制。
对于终结点设备，需要确保任何网络设置都不会妨碍 OCR，并且应存在允许 blob.core.windows.net 终结点的通配符
对于 Exchange，支持 DOCX、PPTX、XLSX、RAR、TAR、ZIP、7z 和混合 PDF (包含可搜索文本和图像的嵌入式图像) ，每个文件最多扫描 20 个嵌入图像

支持的语言

OCR 扫描支持 150 多种语言。

摘要

若要使用 OCR，必须设置Microsoft Syntex即用即付计费。 (无需自行设置Microsoft Syntex。)
配置 OCR 发生在租户级别，因此配置 OCR 后，它可供整个 Microsoft Purview 堆栈使用。
无需为 OCR 创建单独的数据分类器。配置 OCR 后，现有敏感信息类型、基于精确数据匹配的敏感信息类型、可训练的分类器和指纹 SCT 将扫描图像以及文档和电子邮件。

通过