用OCR软件进行扫描识别文本的技巧--688IT编程网

用OCR软件进行扫描识别文本的技巧

扫描仪的一个重要功能就是通过OCR软件（即文字识别软件）将扫描后的文字图像转换成文本格式的文件，使文字处理软件能够调用处理。这样可以大大提高文字录入速度，极大地提高工作效率。目前，文字识别软件主要有《尚书OCR》、《汉王OCR》和《紫光OCR》等几种。

不过，我们在进行文字识别时经常会遇到识别率低的问题，其原因除了被识别稿件有问题外，主要还是我们没有掌握好扫描及OCR识别软件的使用技巧。那么进行文字识别时有哪些技巧呢？

一、根据识别稿的质量进行处理

进行扫描识别时，在可能的情况下应尽量选择清晰度与洁净度都很高的识别稿，识别稿的清晰度与洁净度的不同会使扫描后的识别率有很大差距。对一般的印刷稿、打印稿等质量较好的文稿进行识别，只要掌握好方法与技巧，其识别率一般可达到98％以上。而对报纸、杂志等清晰度不佳的原稿进行识别，无论使用何种识别软件都难以达到很高的识别率。

1.对一些带有下划线、分隔线等符号的文本原稿，有些OCR软件是识别不出的，一般会出现乱码。如果必须扫描带有这些符号的原稿，一是要确保使用的识别软件能够识别这些符号。二是使用工具擦掉这些特殊符号，使识别软件能正确识别这些文字。

如果扫描后的文档中含有OCR软件不能识别的图像、图形和一些特殊符号，可以考虑使用“擦拭”工具将文档中的图像、图形和一些特殊符号擦除，同时将图像上一些杂点也一并去除。使图像中除了文字没有多余的东西，这可以大大提高识别率并减少识别后的修改工作。

2.在扫描识别报纸或纸张较薄的文稿时，扫描时稿件背面的文字通常会透过纸张造成错字或乱码，使识别率大大降低。在对这类原稿扫描时，我们可以在原稿的背面覆盖一张黑纸，在进行正式扫描时，适当增加扫描对比度或亮度，即可有效提高识别率。

3.对于一些图文混排的原稿，扫描成一幅图像进行全区识别会严重影响OCR软件的识别率。我们可以根据实际情况将扫描后的版面切分成多个区域后再识别，切分区域的原则是：将图形、图像排除在区域之外（图1），尽量把文字字体、字号一致的划在一个区域内，不要嫌这个过程烦琐而选用自动切分区域，手动选取扫描区域会有更好识别效果，还应注意各识别区域不能有交叉情况。

图1 版面切分

二、扫描识别稿的操作技巧

1.首先要保持工作环境的清洁，扫描仪的玻璃板以及若干个反光镜片及镜头，其中任何一部分脏污都会影响扫描文字图像的效果。因此，保持扫描仪的清洁是确保文字图像扫描质量及识别率较高的重要前提。

2.扫描仪在刚开启时，光源的稳定性较差，而且光源的温也没有达到正常工作所需的温，所以开始扫描以前最好先让扫描仪预热一段时间。

3.在放置扫描原稿时，把扫描的文字材料摆放在扫描起始线正中，可以最大限度地避免由于光学透镜导致的失真而影响识别率。

4.扫描后的文字图像经常会有一定角度的倾斜，出现这种情况必须在扫描后使用自动或手动旋转工具进行纠正，OCR软件一般都设有自动纠偏和手动纠偏工具。否则OCR识别软件会将水平笔画当作斜笔画处理，识别率会下降很多。如果扫描后的文字图像倾斜角度超过15°，倾斜校正会产生较大的失真和误差，从而严重影响识别率，这种情况建议摆正原稿重新扫描。

三、扫描参数的设置

扫描参数的设置主要包括分辨率的设置及亮度和对比度的设置。

1.一般来讲，分辨率越高识别率也就会越高。但这也不是绝对的，对于一些过大过粗的字体，设置过高的分辨率，识别率可能会降低，而且设置高分辨率后，扫描速度会大大降低。根据实际经验，1、2、3号字的文稿推荐使用200dpi，4、小4、乱码文字生成

5号字的文稿推荐使用300dpi，小5、6号字的文稿推荐使用400dpi，7、8号字的文稿推荐使用600dpi（图2）。

图2 选择分辨率

2.扫描时适当地调整好亮度和对比度值，对识别率的高低影响很大，在进行扫描亮度和对比度的设定时（图3），以扫描后的图像中文字的笔画较细、均匀，且没有明显断点为准。如果扫描后的文字图像存在黑点、黑斑或文字线条很粗很黑，分不清笔画，说明亮度值太小，应该增加亮度值再重新扫描。如果文字线条凹凸不平，有断线甚至图像中汉字轮廓严重残缺时，说明亮度值太大，应减小亮度后再重新扫描。如果要扫描质量比较差的文稿，比如报纸，扫描出的图像可能会出现大量的黑点，而且在字体的笔画上也会出现粘连现象，为获得较好的识别结果，必须仔细进行亮度和对比度值的调整，反复扫描多次才能获得比较理想的效果。

图3 扫描亮度和对比度的设定

四、识别后的处理工作

1.文字校正

文字校正是OCR识别工作中比较烦琐的一步。一般OCR软件对可能出现错误的文字，会显示出蓝标记，请用户确认。但在没有提示出错的地方，也有可能出错。所以大家在校对时应该通读一遍，以提高文字录入的准确率。

2.识别后文本的保存

如果把识别后的文本简单复制粘贴到Word中保存处理，就需要去掉多余的硬回车，这样会非常麻烦。正确方法是：先将识别后的文本存盘，在存盘时设置为软回车就行了。对于《紫光OCR》，则需要在识别完成后，选择文件菜单下的导出命令，将存储类型选为TXT，段内回车字符选为无。注意：一定不要直接存盘，否则不能自动去掉文章的硬回车。《尚书OCR》、《汉王OCR》和《紫光OCR》都提供了段内去除硬回车的功能。

文本王OCR软件技巧：将PDF中的图文导至WORD文档

文本王在推广过程中，其OCR软件一直是以配套捆绑方式附赠。掌握文本王OCR软件的使用技巧，对大家节省时间和精力做事，是很有帮助的。下面就是一例文本王OCR软件使用实例：将PD F中的图文导至W ORD文档。

有位网友咨询说，我在PDF文档里面有一本书，是用文本王传上去的。现在想知道有没有什么办法可以导出里面的文字，或者有什么好用的软件来分辨文字?关于这个问题，专家给她作了解答。

一、先用Adobe Acr obat中的导出功能，将这个文件导出为图像。做法：在上面菜单上选文件>导出>提取图像为>JPEG文件（其他二种也行，JPEG文件比较小），再按提示，选择一个适当的文件夹，保存图像。这种方法保存下来的一张张图片，比你一页页保存省力多了，而且保留了原文件的全部信息。

小提示：Adobe Acrobat Reader 是一个查看、阅读和打印PDF 文件的最佳工具。Adobe Acrobat 软件是一种高效的桌面工具，可实现不同的硬件平台和软件应用程序之间的信息共享，不受软件版本的不同和安装的字体的影响。

二、再用OCR文字识别软件识别。

OCR（光学字符识别）软件是专门用来识别图像文字的。可以将扫描到的图像格式的文字转化成可编辑的文字。就我个人经验看，众多的OCR软件中，汉王文本王比较好。它能批量识别，识别率高，可以直接生成wor d文档，能精确版面还原等，比较方便。

小提示：OCR（光学字符识别）软件是用来进行文字识别的。你用汉王文本王得到图像后，用它就可以将上面的图像文字识别转化为可以在Word等软件中进行编辑的文字。OCR软件与文本王、打印机不存在依赖关系。

汉王PDF OCR使用说明

《汉王PDF OCR》V8.0 版权属于汉王科技股份有限公司所有。本公司免费授权您非商业用途任意使用和复制本软件，包括在任意多台计算机上同时使用本软件。但在未经许可的情况下，不得将本软件用于商业用途。未经汉王科技股份有限公司许可与授权，不得擅自更改该软件的内容及其产品包装。

本软件受版权法和国际条约的保护。

产品特点

汉王PDF OCR是汉王OCR 6.0 和尚书七号的升级版，本软件新增打开与识别PDF文件功能，支持文字型PDF的直接转换和图像型PDF的OCR识别：既可以采用OCR的方式，将PDF文件转换为可编辑文档；也可以采用格式转换的方式直接转换文字型PDF文件为文本。

本软件系统应用OCR（Optical Character Recognition）技术，为满足书籍、报刊杂志、报表票据、公文档案等录入需求而设计的软件系统。

目前，许多信息资料需要转化成电子文档以便于各种应用及管理，但因信息数字化处理的方式落后，不但费时费力，而且资金耗费巨大，造成了大量文档资料的积压，因此急需一种快速高效的软件系统来满足这

688IT编程网

用OCR软件进行扫描识别文本的技巧

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

用OCR软件进行扫描识别文本的技巧

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式