OCR(光学字符识别)
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即将图像中的文字转换成文本格式的过程。通过OCR功能,扫描PDF文档中的文字可以变成可搜索和编辑的状态。
当前文件执行OCR
对当前打开的文档执行OCR文本识别。请注意在含有可呈现的文本(由计算机产生置于图片图层之上的文本)的页面不能执行OCR。具体操作步骤如下:
-
在Right PDF Editor中打开您要执行OCR的PDF文件。
-
选择“高级”>“识别文本”>“OCR”
并选择“当前文件”。
-
在“OCR文本识别”对话框中,按照您的喜好调整OCR设置:
-
页面范围:选择要辨识所有、当前页面或页面范围。
-
自动矫正页面:勾选此项后,Right PDF Editor会自动调整页面方向。
-
PDF类型:选择输出PDF类型。
-
MRC压缩:设置压缩级别。压缩越高,文件越小,质量就越差。MRC将文本元素与图片或背景分开,并对每个元素应用最佳压缩。
-
识别文本语言:选择OCR的语言。为了达到最佳的OCR准确性,请仅勾选文档包含的语言。注意选择多种语言时有以下限制:
-
自动语言检测:勾选后,Right PDF Editor将会自动为每页分配检测到的语言。

-
点击“确定”,开始执行。
多个文件执行OCR
-
选择“高级”>“识别文本”>“OCR”
,然后选择“多个文件”。
-
在“OCR文本识别”对话框中,浏览并选择要执行OCR的文件,然后点击“确定”。
-
添加文件…:将一个或多个文件添加到列表中(使用Ctrl键可同时选取多个文件)。
-
添加文件夹…:将一个文件夹中的所有文件同时添加到列表中。
-
删除:选择一个文件或按住Ctrl键点选多个文件,点击“删除”即可将它们从文件列表中删除。
-
包括当前打开文件:勾选即可将所有当前打开的PDF文档加入到文件列表中。
-
在“输出选项”对话框中,指定输出PDF文档的保存位置和命名方式。
-
点击“确定”,在“OCR文本识别-设置”对话框中,可以进行以下设置:
-
自动矫正页面:勾选此项后,Right PDF Editor会自动调整页面方向。
-
PDF类型:选择输出PDF类型。
-
MRC压缩:设置压缩级别。压缩越高,文件越小,质量就越差。MRC将文本元素与图片或背景分开,并对每个元素应用最佳压缩。
-
识别文本语言:选择OCR的语言。为了达到最佳的OCR准确性,请仅勾选文档包含的语言。注意选择多种语言时有以下限制:
-
仅选择一种亚洲语言或使用拉丁字母或西里尔字母的一种或多种语言。
-
点击“确定”,开始执行。若页面含有可转译的文字,将会提示您OCR无法辨识由计算机产生的文字。

发现可疑元素
执行“发现可疑元素”功能会查找潜在的OCR识别错误并提供您修正文本的选项。原始扫描文档越清晰,所出现的可疑元素也越少。按照下列步骤查找和替换OCR可疑元素:
-
打开一个想要执行OCR的扫描文档。请确定您已制作备份并且会在备份上执行OCR。
-
选择“高级”>“识别文本”>“OCR”
后,根据需要从下拉菜单中选择“当前文件”或“多个文件”。然后决定是否要使文字变为可被搜索或可被搜索和编辑。如需更多信息,详见当前文件执行OCR。
注意:发现可疑元素功能只有当您将所扫描文件的文字变为可被搜索时才可使用。使文字变为可被搜索时,仍可保持原始扫描文件的外观。
-
现在文件的文字已可被搜索。您可开始使用“发现可疑元素”功能来查看是否有OCR引擎无法正确识别的内容,并做出必要的修正。选择“高级”>“识别文本”>“发现可疑元素”
并依据您实际需求选择以下任一选项:

-
在“查找要素”对话框中点击“查找”即可高亮显示可疑元素。可疑元素会被标记在页面上并显示在“源文档”(A)中。您可以使用下列选项处理可疑元素:
