OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即将图像中的文字转换成文本格式的过程。通过 OCR 功能,扫描 PDF 文档中的文字可以变成可搜索和编辑的状态。


对当前文件执行 OCR

请注意在含有可呈现的文本(由计算机产生置于图片图层之上的文本)的页面不能执行 OCR。

  1. 在Right PDF中打开您要执行 OCR 的 PDF 文件。

  2. 选择“高级”>“OCR” 并选择“当前文件”。

  3. 在“OCR 文本识别”对话框中,根据需要调整 OCR 设置:

    • 页面范围:选择要识别所有页面、当前页面或指定范围页面。

    • 自动矫正页面:勾选此项后,Right PDF macOS会自动调整页面方向。

    • PDF类型:选择输出PDF类型。

      • 可供搜索:文本图像转换为可搜索的文本。

      • 可搜索和编辑:文本图像转换为可搜索可编辑的文本。

      • MRC PDF文档:图像进行MRC压缩。

      • 可搜索的MRC:图像进行MRC且文本图像转换为可搜索的文本。

    • MRC压缩:设置压缩级别。压缩越高,文件越小,质量就越差。MRC将文本元素与图片或背景分开,并对每个元素应用最佳压缩。

    • 识别文本语言:选择OCR的语言。为了达到最佳的OCR准确性,请仅勾选文档包含的语言。注意选择多种语言时有以下限制:

      • 仅选择一种亚洲语言或使用拉丁字母或西里尔字母的一种或多种语言。

      • 亚洲语言不能与其他语言混用。
        提示:如果您的文档超过了这些限制,请选中”自动语言检测“复选框。

    • 自动语言检测:勾选后,Right PDF macOS将会自动为每页分配检测到的语言。

  4. 点击“确定”,开始执行。


多个文件执行OCR

  1. 选择“高级”>“OCR”,然后选择“多个文件”。

  2. 在“OCR 文本识别”对话框中,浏览并选择要执行OCR 的文件,然后点击“确定”。

    • 添加文件…:将一个或多个文件添加到列表中(使用Command 键可同时选取多个文件)。

    • 添加文件夹…:将一个文件夹中的所有文件同时添加到列表中。

    • 删除:选择一个文件或按住Command键点选多个文件,点击“删除”即可将它们从文件列表中删除。

    • 包括当前打开文件:勾选即可将所有当前打开的PDF 文档加入到文件列表中。

  3. 点击“设置”,在弹出对话框中可以修改OCR设置。

  4. 点击“确定“,打开“输出选项”对话框,您可以指定输出PDF 文档的保存位置和命名方式。

    • 目标文件夹:选择将输出PDF 文档保存到“同源文件夹”或是“指定的文件夹”。

    • 文件命名:选择“保留原始文件名”或是“添加到原始文件名”。如果选择后者,请在“之前插入”和“之后插入”文本框中输入字段,输出文档将以“插入文本+源文件名称+插入文本.pdf”的形式命名;如果选择“保留原始文件名”,需要同时勾选“覆盖现有文件”,输出PDF 文档会覆盖源文档。

  5. 点击”确定“。开始执行。


发现可疑元素

执行“发现可疑元素”功能会查找潜在的OCR 识别错误并提供修正文本的选项。原始扫描文档越清晰,所出现的可疑元素也越少。按照下列步骤查找和替换OCR 可疑元素:

  1. 打开执行完OCR 的文档。OCR 操作过程详见对当前文件执行OCR多个文件执行OCR

    • 注意:发现可疑元素功能只有当您将扫描文档的文字转为可搜索时才可使用。使文字变为被搜索时,仍可保持原始扫描文件的外观。

  2. 选择“高级”>“发现可疑元素”,并选择以下任一项:

    • OCR 首个可疑元素:识别第一个可疑的元素。在“查找要素”对话框中点击“查找”按钮即可高亮第一个可疑元素。

    • OCR 所有可疑元素:高亮显示所有可疑的元素。双击可疑元素,在“查找要素”对话框中可以进行修正。

  3. 在“查找要素”对话框中点击“查找”即可高亮显示可疑元素。可疑元素会被标记在页面上并显示在“源文档”(A)中。您可以使用下列选项处理可疑元素:

    • 点击“接受和查找”(B),确认正确并移至下一个可疑元素。若认为识别有误,可以在OCR 文本框中输入正确的文本,然后点击“接受和查找”。

    • 点击“查找下一个”(C)即可移至下一个可疑元素。

    • 如果可疑元素不是一个字,请点击“不是文本”(D)。

注:“发现可疑元素”功能只有当执行OCR时选择可搜索时才能使用。