光学字符识别 (OCR) 扫描使 Microsoft Purview 能够扫描图像中的敏感信息。 OCR 扫描是一项可选功能,必须在租户级别启用。 启用后,选择要扫描图像的位置。 图像扫描适用于 Exchange、SharePoint、OneDrive、Teams、Windows 和 macOS 设备。 配置 OCR 设置后,现有数据丢失防护策略 (DLP) 、记录管理和内部风险管理 (IRM) 将应用于基于图像和文本的内容。 例如,假设已配置 DLP 条件 内容包含敏感信息 ,并包含数据分类器,例如 信用卡 敏感信息类型 (SIT) 。 在这种情况下,Microsoft Purview 会扫描所有选定位置的文本和图像中的信用卡数字。
工作流概览
阶段 | 所需项 |
---|---|
根据需要创建 Azure 订阅 | 如果你的组织还没有针对租户的 Azure 即用即付订阅,则全局管理员需要首先创建 一个 Azure 帐户。 |
估算 OCR 扫描费用 | 使用 OCR 成本估算器 估算特定用例的预期费用。 |
设置即用即付计费以启用 OCR。 | 全局或 SharePoint 管理员必须按照在 Azure 中设置Microsoft Syntex计费中的说明添加 OCR 订阅。 |
配置 OCR 扫描设置 | 组织的合规性管理员为租户配置 OCR 设置。 |
先决条件
若要使用 OCR 扫描,组织的全局管理员需要验证 Azure 即用即付订阅是否已到位。 如果没有,则需要按照创建初始 Azure 订阅中的说明进行设置
配置计费
启用 OCR 后,所有敏感信息类型和可训练的分类器都可以检测图像中的字符。
由于这是一项可选功能,因此全局管理员必须设置即用即付计费才能启用 OCR。 请参阅在 Azure 中设置Microsoft Syntex计费中的说明,为 OCR 添加订阅。
注意
在 Microsoft Syntex 中输入计费信息后,合规性管理员可以在 Microsoft Purview 中配置 OCR,而无需任何额外的设置或许可要求。
可以在 Azure 中设置Microsoft Syntex计费页上找到 OCR 即用即付定价信息。
估算 OCR 扫描费用
每扫描 1,000 个项目,使用 OCR 的费用为 1.00 美元。 扫描的每个图像计为一个事务。 这意味着, (JPEG、JPG、PNG、BMP 或 TIFF 的独立映像) 每个映像计数为单个事务。 这也意味着 PDF 文件 中的每个页面 单独收费。 例如,如果 PDF 文件中有 10 页,则 PDF 文件的 OCR 扫描将计为 10 个单独的扫描。 有关使用 OCR 成本估算器的信息,请参阅 估算 OCR 成本。
注意
为了降低 OCR 成本,我们提供了以下缓存机制:通过 Microsoft Exchange 通过电子邮件发送的小图像(如徽标和签名)仅在租户的所有用户中扫描一次,并在 5 天的移动窗口内对每个唯一图像进行一次计费。 对于终结点,缓存将保留 30 天。 缓存是每个终结点设备的本地缓存,仅存储图像和图像哈希上标识的分类器,不存储客户数据。 Sharepoint 和 Onedrive 中没有独立映像的缓存机制。 但是,在嵌入式文件类型中,如果仅更新文本,则不会再次扫描图像。
检查多个参数(包括图像流哈希、图像大小),以查看是否可以使用缓存。 如果任何参数不匹配,则图像再次为 OCRed。
此外,每个扫描的图像都可以在数据丢失防护、内部风险管理、自动标记和记录管理等任意数量的策略中使用,无需额外付费。
重要
有关将 Microsoft Purview 数据丢失防护 (DLP) 功能与 PDF 文件配合使用的 Adobe 要求的信息,请参阅 Adobe:Acrobat 中的Microsoft Purview 信息保护支持文章。
配置 OCR 设置
- 登录到 Microsoft Purview 门户。
- 选择“设置”。
- 选择“ 光学字符识别 (OCR) ”以输入 OCR 配置设置。
- 选择要扫描图像的位置。
- 选择要从 OCR 扫描中包括或排除的组。
- 选择“ 完成”
下表列出了支持的位置和解决方案。
权限
用于创建和部署策略的帐户必须是其中一个角色组的成员
- 合规性管理员
- 合规性数据管理员
- 全局管理员
- 信息保护
- 信息保护管理员
注意
通常,OCR 设置在打开后大约一小时后生效。
有关 Microsoft Purview 通信合规性 中的 OCR 功能的信息,请参阅创建和管理通信合规性策略。
支持的位置和解决方案
位置 | 支持的解决方案 |
---|---|
Exchange | 数据丢失防护 信息保护: 自动标记策略 记录管理: 自动应用保留标签策略1 |
SharePoint 网站 | 数据丢失防护 内部风险管理2 记录管理: 自动应用保留标签策略1 |
OneDrive 账户 | 数据丢失防护 记录管理: 自动应用保留标签策略1 |
Teams 聊天和通道消息 | 数据丢失防护 内部风险管理2 |
设备 | 数据丢失防护 内部风险管理2 |
1 支持关键字和敏感信息类型。
2 考虑图像中存在的敏感信息类型和可训练分类器,以便进行风险评分。
支持的文件类型
此功能支持扫描以下文件类型中的图像,但需要注意以下要求:
位置 | 支持的文件类型 |
---|---|
Exchange | JPEG、JPG、PNG、BMP、TIFF 和 PDF (扫描) 。 DOCX、PPTX、XLSX、RAR、TAR、ZIP、7z 和混合 PDF 中的嵌入图像 (包含可搜索文本和图像) ,每个文件最多扫描 20 个嵌入图像。 |
SharePoint 和 OneDrive | BMP、PNG、JPEG、JPG、JFIF、ARW、CR2、CRW、ERF、GIF、MEF、MRW、NEF、NRW、ORF、PEF、RAW、RW2、 RW1、SR2、TIF、TIFF、HEIC、HEIF、ARI、BAY、CAP、CR3、DCS、DCR、DRF、EIP、FFF、IIQ、K25、KDC、MOS、PTX、PXN、RAF、RWL、SRF、SRW、X3F、DNG、PDF (扫描和混合包含可搜索文本和图像) DOCX 中的嵌入图像, PPTX、XLSX |
Teams、Windows 和 macOS 终结点 | JPEG、JPG、PNG、BMP、TIFF 和 PDF (图像仅) |
映像要求
文件大小: 对于 Exchange 和 Teams,图像文件必须不超过 20 MB。 对于 SharePoint、OneDrive 和 Windows 以及 macOS 终结点,最大图像文件大小为 50 MB。
图像分辨率: 图像分辨率必须至少为 50 x 50 像素,且不大于 16,000 x 16,000 像素。
重要
- 仅扫描启用 OCR 后上传的图像。
- OCR 将仅提取前 200 万个字符的文本。
- 默认情况下,传入电子邮件 (来自组织外部) 用户的电子邮件、内部邮件 (组织用户) 内共享的电子邮件,以及发送给组织外部用户) 的传出电子邮件 (电子邮件都受到 OCR 扫描。 若要从 OCR 扫描中排除传入邮件,请将 OCR 设置从 “所有发件人组 ”的默认范围更改为 “特定发件人组 ”,并指定希望 OCR 扫描的内部组。 若要将 OCR 扫描限制为仅在组织外部发送的邮件,请选择“ 高级设置 (仅 Exchange) ” 下的选项。 选中此复选框后,传入邮件或任何内部通信都不会是 OCRed。 有关更改配置的信息,请参阅 配置 OCR 设置。
- Exchange 中的映像不支持数据丢失防护策略提示。
- 如果在终结点数据丢失防护设置中 排除路径 ,OCR 将不会扫描这些文件夹中的图像。
- 当为 Windows 和 macOS 设备启用 OCR 时,设备将开始向云发送消息进行扫描。 默认带宽限制是 每台设备每天 1,024 MB 的数据。 一旦达到此每日限制,OCR 将停止扫描图像。 如果要继续扫描图像,可以增加带宽限制。
- 对于终结点设备,需要确保任何网络设置都不会妨碍 OCR,并且应存在允许 blob.core.windows.net 终结点的通配符
- 对于 Exchange,支持 DOCX、PPTX、XLSX、RAR、TAR、ZIP、7z 和混合 PDF (包含可搜索文本和图像的嵌入式图像) ,每个文件最多扫描 20 个嵌入图像
支持的语言
OCR 扫描支持 150 多种语言。
摘要
- 若要使用 OCR,必须设置Microsoft Syntex即用即付计费。 (无需自行设置Microsoft Syntex。)
- 配置 OCR 发生在租户级别,因此配置 OCR 后,它可供整个 Microsoft Purview 堆栈使用。
- 无需为 OCR 创建单独的数据分类器。 配置 OCR 后,现有敏感信息类型、基于精确数据匹配的敏感信息类型、可训练的分类器和指纹 SCT 将扫描图像以及文档和电子邮件。