OCR(光学字符识别)
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即将图像中的文字转换成文本格式的过程。通过 OCR 功能,扫描 PDF 文档中的文字可以变成可搜索和编辑的状态。
对当前文件执行 OCR
请注意在含有可呈现的文本(由计算机产生置于图片图层之上的文本)的页面不能执行 OCR。
-
在Right PDF中打开您要执行 OCR 的 PDF 文件。
-
选择“高级”>“OCR” 并选择“当前文件”。
-
在“OCR 文本识别”对话框中,根据需要调整 OCR 设置:
-
页面范围:选择要识别所有页面、当前页面或指定范围页面。
-
自动矫正页面:勾选此项后,Right PDF macOS会自动调整页面方向。
-
PDF类型:选择输出PDF类型。
-
MRC压缩:设置压缩级别。压缩越高,文件越小,质量就越差。MRC将文本元素与图片或背景分开,并对每个元素应用最佳压缩。
-
识别文本语言:选择OCR的语言。为了达到最佳的OCR准确性,请仅勾选文档包含的语言。注意选择多种语言时有以下限制:
-
自动语言检测:勾选后,Right PDF macOS将会自动为每页分配检测到的语言。
-
点击“确定”,开始执行。
多个文件执行OCR
-
选择“高级”>“OCR”,然后选择“多个文件”。
-
在“OCR 文本识别”对话框中,浏览并选择要执行OCR 的文件,然后点击“确定”。
-
添加文件…:将一个或多个文件添加到列表中(使用Command 键可同时选取多个文件)。
-
添加文件夹…:将一个文件夹中的所有文件同时添加到列表中。
-
删除:选择一个文件或按住Command键点选多个文件,点击“删除”即可将它们从文件列表中删除。
-
包括当前打开文件:勾选即可将所有当前打开的PDF 文档加入到文件列表中。
-
点击“设置”,在弹出对话框中可以修改OCR设置。
-
点击“确定“,打开“输出选项”对话框,您可以指定输出PDF 文档的保存位置和命名方式。
-
点击”确定“。开始执行。
发现可疑元素
执行“发现可疑元素”功能会查找潜在的OCR 识别错误并提供修正文本的选项。原始扫描文档越清晰,所出现的可疑元素也越少。按照下列步骤查找和替换OCR 可疑元素:
-
打开执行完OCR 的文档。OCR 操作过程详见对当前文件执行OCR 或多个文件执行OCR。
-
选择“高级”>“发现可疑元素”,并选择以下任一项:
-
在“查找要素”对话框中点击“查找”即可高亮显示可疑元素。可疑元素会被标记在页面上并显示在“源文档”(A)中。您可以使用下列选项处理可疑元素:
注:“发现可疑元素”功能只有当执行OCR时选择可搜索时才能使用。
