OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即将图像中的文字转换成文本格式的过程。通过OCR功能,扫描PDF文档中的文字可以变成可搜索和编辑的状态。


当前文件执行OCR

对当前打开的文档执行OCR文本识别。请注意在含有可呈现的文本(由计算机产生置于图片图层之上的文本)的页面不能执行OCR。具体操作步骤如下:

  1. 在Right PDF Editor中打开您要执行OCR的PDF文件。

  2. 选择“高级”>“识别文本”>“OCR” 并选择“当前文件”。

  3. 在“OCR文本识别”对话框中,按照您的喜好调整OCR设置:

    • 页面范围:选择要辨识所有、当前页面或页面范围。

    • 自动矫正页面:勾选此项后,Right PDF Editor会自动调整页面方向。

    • PDF类型:选择输出PDF类型。

      • 可供搜索:文本图像转换为可搜索的文本。

      • 可搜索和编辑:文本图像转换为可搜索可编辑的文本。

      • MRC PDF文档:图像进行MRC压缩。

      • 可搜索的MRC:图像进行MRC且文本图像转换为可搜索的文本。

    • MRC压缩:设置压缩级别。压缩越高,文件越小,质量就越差。MRC将文本元素与图片或背景分开,并对每个元素应用最佳压缩。

    • 识别文本语言:选择OCR的语言。为了达到最佳的OCR准确性,请仅勾选文档包含的语言。注意选择多种语言时有以下限制:

      • 仅选择一种亚洲语言或使用拉丁字母或西里尔字母的一种或多种语言。

      • 亚洲语言不能与其他语言混用。
        提示:如果您的文档超过了这些限制,请选中”自动语言检测“复选框。

    • 自动语言检测:勾选后,Right PDF Editor将会自动为每页分配检测到的语言。

  4. 点击“确定”,开始执行。


多个文件执行OCR

  1. 选择“高级”>“识别文本”>“OCR” ,然后选择“多个文件”。

  2. 在“OCR文本识别”对话框中,浏览并选择要执行OCR的文件,然后点击“确定”。

    • 添加文件…:将一个或多个文件添加到列表中(使用Ctrl键可同时选取多个文件)。

    • 添加文件夹…:将一个文件夹中的所有文件同时添加到列表中。

    • 删除:选择一个文件或按住Ctrl键点选多个文件,点击“删除”即可将它们从文件列表中删除。

    • 包括当前打开文件:勾选即可将所有当前打开的PDF文档加入到文件列表中。

  3. 在“输出选项”对话框中,指定输出PDF文档的保存位置和命名方式。

    • 目标文件夹:选择将输出PDF文档保存到“同源文件夹”或是“指定的文件夹”。

    • 文件命名:选择“保留原始文件名”或是“添加到原始文件名”。如果选择后者,请在“之前插入”和“之后插入”文本框中输入字段,输出文档将以“插入文本+源文件名称+插入文本.pdf”的形式命名;如果选择“保留原始文件名”,需要同时勾选“覆盖现有文件”,输出PDF文档会覆盖源文档。

  4. 点击“确定”,在“OCR文本识别-设置”对话框中,可以进行以下设置:

    • 自动矫正页面:勾选此项后,Right PDF Editor会自动调整页面方向。

    • PDF类型:选择输出PDF类型。

      • 可供搜索:文本图像转换为可搜索的文本。

      • 可搜索和编辑:文本图像转换为可搜索可编辑的文本。

      • MRC PDF文档:图像进行MRC压缩。

      • 可搜索的MRC:图像进行MRC且文本图像转换为可搜索的文本。

    • MRC压缩:设置压缩级别。压缩越高,文件越小,质量就越差。MRC将文本元素与图片或背景分开,并对每个元素应用最佳压缩。

    • 识别文本语言:选择OCR的语言。为了达到最佳的OCR准确性,请仅勾选文档包含的语言。注意选择多种语言时有以下限制:

    • 仅选择一种亚洲语言或使用拉丁字母或西里尔字母的一种或多种语言。

      • 亚洲语言不能与其他语言混用。

      • 自动语言检测:勾选后,Right PDF Editor将会自动为每页分配检测到的语言。
        提示:如果您的文档超过了这些限制,请选中”自动语言检测“复选框。

  5. 点击“确定”,开始执行。若页面含有可转译的文字,将会提示您OCR无法辨识由计算机产生的文字。


发现可疑元素

执行“发现可疑元素”功能会查找潜在的OCR识别错误并提供您修正文本的选项。原始扫描文档越清晰,所出现的可疑元素也越少。按照下列步骤查找和替换OCR可疑元素:

  1. 打开一个想要执行OCR的扫描文档。请确定您已制作备份并且会在备份上执行OCR。

  2. 选择“高级”>“识别文本”>“OCR” 后,根据需要从下拉菜单中选择“当前文件”或“多个文件”。然后决定是否要使文字变为可被搜索或可被搜索和编辑。如需更多信息,详见当前文件执行OCR
    注意:发现可疑元素功能只有当您将所扫描文件的文字变为可被搜索时才可使用。使文字变为可被搜索时,仍可保持原始扫描文件的外观。

  3. 现在文件的文字已可被搜索。您可开始使用“发现可疑元素”功能来查看是否有OCR引擎无法正确识别的内容,并做出必要的修正。选择“高级”>“识别文本”>“发现可疑元素” 并依据您实际需求选择以下任一选项:

    • 首个OCR可疑元素:识别第一个可疑的元素。在“查找要素”对话框中点击“查找”按钮即可高亮第一个可疑元素。

    • 所有OCR可疑元素:高亮显示所有可疑的元素。双击可疑元素,在“查找要素”对话框中可以进行修正。

  1. 在“查找要素”对话框中点击“查找”即可高亮显示可疑元素。可疑元素会被标记在页面上并显示在“源文档”(A)中。您可以使用下列选项处理可疑元素:

    • 点击“接受和查找”(B),确认正确并移至下一个可疑元素。若认为识别有误,可以在OCR文本框中输入正确的文本,然后点击“接受和查找”。

    • 点击“查找下一个”(C)即可移至下一个可疑元素。

    • 如果可疑元素不是一个字,请点击“不是文本”(D)。