总结了五种将图片文本转换成可编辑word的方法希望对大家有用:
在介绍之前先介绍几款常用的转换软件:汉王OCRMicrosoft Office Document Imaging、尚书七号、慧视小灵鼠、新版紫光9.0
方法一:
工具/原料
使用工具:扫描仪或者数码相机 电脑
使用软件:Microsoft Office Word Adobe Acrobat 7.0 Professional 扫描软件 CAJViewer 7.1
关键词:如何将纸质文件或图片转换成word文字
步骤/方法
1. 首先,先确认你的计算机安装以下设备:扫描仪。如果没有扫描仪,也可以使用数码相机。扫描仪可以将纸质文件扫描到计算机中。
2. 其次,要确认你的计算机安装如下软件:扫描仪配备的扫描软件,Microsoft Office WordAdobe Acrobat 7.0 Professional(版本7.0或者几点零的都没关系,但是确认要安装这个,只安装Adobe Acrobat 7.0 Reader 版本的是不行的),CAJViewer 7.1软件,如果这些软件没有,可以到网络上下载。用百度或者迅雷狗狗搜都行(本人认为狗狗搜索的软件相对安全好用一些);下载完以后安装即可。
3. 安装Adobe Acrobat 7.0 Professional软件以后,在打印的时候,会出现一个Adobe PDF的打印机,可以将文件打印成*.pdf的文件。这个也比较关键,因为本文所说的软件,支持打开*.pdf文件而不支持*.JPG或者*.doc文件正则匹配指定字符串以后的内容.
4. 下面开始转换的具体步骤。
首先,把纸质文件转换成*.JPG的文件,不管用用扫描仪扫描,还是数码相机拍照片。文件要是黑白格式的,且文字最好横平竖直的,不要七扭八歪的哦。
打开Microsoft Office Word,新建一个word文件,然后选择 “插入->图片,在文档中插入你扫描号的图片,做成一页。
5. 插入图片后调整好版面,保存不保存皆可。
然后选择 “文件->打印,在打印机选项中,选择Adobe PDF的打印机,确定后,选择输出文件的名字就行了。

另外,对于*.JPG文件,直接右键点击文件,也有一个Adobe PDF”的选项,直接点击转换即可。

转换完成以后,就可以进行下一步识别了。
6. 打开CAJViewer 7.1软件,打开你刚才存储好的*.PFD文件,
在菜单栏的左上角,有一个文字识别的快捷工具,点击文字识别,鼠标变成十字空心,然后用鼠标选中想要转换的文字就行了。

如上图,文字识别的工具。
选中以后,会弹出一个对话框,就是将文字转换好了。

这时,你可以选择复制到剪贴板,或者发送到WPS/Word”选项,然后就可以到word文件中了。
word中,再进行一下字体、行间距的排版,就OK了,简单吧!
经过本人多次使用,成功率100%
注意事项
不过,此方法适用于文字符号,表格识别以后到word中,都是制表符,不能自动生成表
格,就不好用了,哈哈。
首先,先确认你的计算机安装以下设备:扫描仪。如果没有扫描仪,也可以使用数码相机。扫描仪可以将纸质文件扫描到计算机中。
其次,要确认你的计算机安装如下软件:扫描仪配备的扫描软件,Microsoft Office WordAdobe Acrobat 7.0 Professional(版本7.0或者几点零的都没关系,但是确认要安装这个,只安装Adobe Acrobat 7.0 Reader 版本的是不行的),CAJViewer 7.1软件,如果这些软件没有,可以到网络上下载。用百度或者迅雷狗狗搜都行(本人认为狗狗搜索的软件相对安全好用一些);下载完以后安装即可。
方法二:word 2003 软件进行转换具体如下:
一、将JPGJPEGBMP 等文字图片 转换成 Word 格式(转换成txt格式)
 
如果你安装了Microsoft Office2003  了吧!!
(一般的 office 2003 都会自备这款主件——这里就不另上传该office2003 软件了)

1、无论你的文字图片格式如何,
请把 该文字图片的 格式 另存为TIFF格式图片,
2、在 开始菜单 所有程序 Microsoft Office Microsoft Office工具 Microsoft Office Document Imaging 打开,
再, 文件 打开 “到你的转换格式后的图片文”→ 工具 进行OCR识别,
发送到WORD中编辑保存即可。
3、成 word  格式后 ,就可以根据需要,另存为 txt  格式 了!! 

注:如果没有到Microsoft Office Document Imaging”项,使用Office 2003安装光盘中的添加/删除组件更新安装该组件,选中 Office 工具 Microsoft DRAW转换器。

(怎么说呢,这个方法我试过,用这种方法转换的文字 里面还会存在 识别错误,所以,转换完后,还是要检查输出文字的正确性while循环的特点是)
方法三:具体操作如下:
具体的我给你说:
在扫描仪发展史上,文字识别软件(OCR)的出现,实现了将印刷文字扫描得到的图片转化为文本文字的功能,提供了一种全新的文字输入手段,大大提高了用户工作的效率,同时也为扫描仪的应用带来了进步。从此,扫描仪不再仅仅是图形、图像的输入工具,它真正的成为了电子化办公的有机组成部分。随之而来的是,扫描仪在金融、证券、政府等领域普遍应用,为人们摆脱纸制文档束缚,真正实现无纸化办公铺平了道路。
目前在中国市场上销售的每一款Microtek扫描仪产品,都附赠了尚书六号文字识别软件。在颇具美名的尚书五号文字识别软件基础上,尚书六号又有了许多新的突破。它一改以前文字识别软件只能对黑白二图像进行识别的限制,可以对彩、灰度图像文件直接进行识别;尚书六号支持更多的扫描文件格式,例如TIFFBMPJPG格式;与此同时,尚书六号完善了表格识别功能,各式各样的表格几乎都可以原封不动的由图片格式转变为可以自由编辑的文字格式。最值得一提的是,尚书六号还加入了人性化设计,在软件安装完毕后,程序组图标里面会自动出现尚书六号说明,借助这本用户手册,即使是初学者也可以迅速掌握软件的使用。
下面结合Microtek扫描仪的驱动软件ScanWizard 5,详细介绍如何配合尚书六号OCR
件做好文字识别工作:
Step1:扫描图像文件
建议首先点击桌面上ScanWizard 5软件的图标,进入Microtek扫描仪驱动软件的界面,直接进行扫描工作,而不需要启动其他的扫描程序或图像编辑程序,这样可以大大加快扫描进程。同时,注意将ScanWizard 5软件切换到高级工作模式(如图1所示),以便于用户检查扫描仪工作时的分辨率。在文字识别时,推荐使用的扫描分辨率设定在300ppi,彩模式可以选择RGB或者灰阶,选择扫描到的文件格式是TIF或者JPG两者都可以,然后将扫描得到的文件保存在用户确定的目录下面。
Step2:打开尚书六号读取扫描好的图像文件
Step3:被识别图片的预处理
被识别图片的预处理工作主要包括倾斜校正设定正确识别区域两个步骤。在进行倾斜校正时,可按下工具栏的最下面的一个图像倾斜校正工具按钮。系统会自动弹出一个对话框,提示需要校正的角度,此时按下按钮,系统就给予图片做水平的倾斜校正。在此需要特别注意,自动倾斜校正功能只能对原稿做±2.8度的倾角的校正,如果原稿的倾斜角度大于2.8度,系统会建议用户重新扫描稿件,以提高识别率。
如何正确设定识别区域,也是一个值得用户注意的地方:如海尔一文,实际是分成两个栏目进行阅读的,所以在设定识别区域的时候,注意需要将这个两个栏目分别圈定,也就是设定两个识别区域(如图2所示)。同时,对于一些文字稿件,如果在中间插有图片的时候,建议采用绕开的方式,对所环绕的文字分别进行识别区域的设定。此外,对于表格类的图片,为了将标题栏也能识别进去,建议将表格部分整个框选,同时标题作为一个单独的框选区域。
Step4:开始进行识别
在开始识别的时候,应注意识别软件的设定值是否正确,尤其注意识别字集的选择问题:如果要识别简体中文,请选择简体字集;如果要识别繁体中文,请选择繁体字集;在选择纯英文字集时,可以大幅提升英文字母的识别率。同时,简体字集繁体字集也具有较强的识别英文的能力。
Step5:识别校对完成后,进行保存
尚书六号文字识别软件中,存盘格式(也就是文件保存的类型)有四种,分别是:WordTextCSVHTML。直接用Word格式保存时,可以用微软的Word软件打开,它可以相对比较完整的保存排版格式;但建议用户一般可选择Text(纯文本)格式保存,因
为这种格式可以用几乎所有文档编辑器打开;如果用户进行表格识别,识别结果可以选择保存为CSV格式,这样用EXCEL就能够直接打开;而HTML格式是针对网页设计使用的,用IE等网络浏览器或网页编辑器可以打开
方法四:在使用OCR软件识别前,可用用图片处理软件(例如:photoshop)处理一下,转换成黑白模式,并适当加大对比度,可以大大提高识别率。
图片文字提取(OCR)图解教程hi.baidu/yiyoo/blog/item/91fd61f0d11d0eafa50f5269.html


Microsoft Office Document Imaging(office2003中内含)
OFFICE中有一个组件document image,功能一样的强大。不仅扫描的文字图片,连数码相机拍的墙上的宣传告示上的字都能提取出来。

第一步 打开带有文字的图片或电子书籍等,到你希望提取的页面,按下键盘上的"ALT+打印屏幕键(PrintScreen"进行屏幕取图,或者用其他抓图软件。保存成tif
式。
文件格式转换app第二步 我们需要安装Microsoft Office Document Imaging”的组件,点mod函数与mid函数区别开始程序Microsoft OfficeMicrosoft Office 工具 ”,在 Microsoft Office 工具matlab画图配” 里点 Microsoft Office Document Imaging 然后打开图片,到OCR识别工具(像眼睛),点击此工具,开始安装,这个时候就需要你把光盘(或虚拟光驱)的office安装文件。
第三步 Microsoft Office Document Imaging打开图片,用OCR工具(图中红筐圈部分)选取你要提取的文字,然后点右键,选择-复制到word或者记事本。



或用摄像头作扫描仪输入文字:

我们平时使用的摄像头大家好象只用作聊天了吧
其实它的作用也是很广泛的.好多的朋友在写论文,资料的时候总是要用一些书上的资料.总是到打印社进行扫描打印,其实我们的摄像头就可以解决这个问题.
代码编程入门txt,安装Microsoft office 2003 (仅以office 2003为例。其它版本office均可)
,打开开始Microsoft officeMicrosoft office工具Microsoft office Document scannging”,如果该项未安装,系统则会自动安装。此时会弹出扫描新文件对话框,单击[扫描仪]按钮,在弹出的对话框中选中摄像头,并选中在扫描前显示扫描仪驱动复选框,再选中黑白模式,并选中换页提示扫描后查看文件两项。
,再单击[扫描]按钮即可进行扫描,在扫描过程中会弹出一个对话框,选中[格式]按钮,在输出大小中选择600×480分辨率,然后将文稿放平,反复调节摄像头的焦距和位置,使画面达到最佳效果,点击[捕获]按钮即可得到图片画面,该图片会显示在图例框中,
,选中该图片,点击[发送]按钮会开始扫描该图片中的文字,扫描完成后点[完成]按钮,然后系统会自动打开识别程序Microsoft Office Document Imaging,用该文件就可以识别了。
完成后可以选中全文,鼠标右击后选中将文本发送到Word”项,则所选内容便会被Word打开并可以进行编辑了
但,识别效果与摄像头扫描质量有关。自己多测试一下。
补充:根据我的经验,效果会令你失望,具体的补正办法:
1: 是在photoshop中打开图片,并打开动作调板,利用历史记录功能为你自动化处理,每分钟约25张图片,新建组>新建动作>开始记录>图像>调整>可选颜>将中性,黑以外的所有颜的除黑以外的值都调为-100,将中性,黑中的除黑以外的所有颜调为-100,黑各+100,这样就等于把文字从图像中抠了出来,然后执行一下减少杂滤镜,文字中的杂点都被洗掉了,再存储这个图片并关闭这个图片,存储这个动作.(注意这个是可以根据你的图片调的,没有规定的,满意为止,可能调一张图片的时间需要几分钟,但是调好一张等于全部调好了)
2. 执行文件>自动>批处理>选择源文件夹和目标文件夹就进行了自动化批处理,最后用OCR软件识别,我的资料空间有我买扫描仪送的随机OCR正版软件永久免费使用,最后建议如果有大量的图片这样做是很合算的,如果量太少就有点没必要,扫描的电子书我做的多了,深有体会,几张图片就用极点五笔,多快好省!自己体会去。
方法五:
二把PDF转换成Word的方法
Adobe Acrobat 7.0 Professional 是编辑PDF的软件。
Adobe Acrobat 7.0 Professional 打开他另存为WORD试试看。
或者用ScanSoft PDF Converte,安装完成后不须任何设置,它会自动整合到Word中。当我们在Word中点击打开菜单时,在打开对话框的文件类型下拉菜单中可以看到PDF”选项,这就意味着我们可以用Word直接打开PDF文档了!
ScanSoft PDF Converter的工作原理其实很简单,它先捕获PDF文档中的信息,分离文字、图片、表格和卷,再将它们统一成Word格式。由于Word在打开 PDF文档时,会将PDF格式转换成DOC格式,因此打开速度会较一般的文件慢。打开时会显示PDF Converter转换进度。转换完毕后可以看到,文档中的文字格式、版面设计保持了原汁原味,没有发生任何变化,表格和图片也完整地保存下来了,可以轻松进行编辑。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。