如何从图片中提取文字
如何从图片中提取文字2011-05-19 13:30
现在许多网站都有电子书下载,常见的格式有exe、chm、pdf等。为了保
护作者的权益,这些电子书可以看,但是其中的内容却不能进行复制,因为它
就像一幅图片一样。如果我们需要使用这些资料中的文本内容的话,是不是就
一定要重新输入一遍呢?当然不用这么麻烦。下面就为大家介绍将这些内容从资料中提取出来的方法。
用SnagIt工具进行文字提取。
SnagIt是一款功能强大的图片捕捉工具,但是很多朋友可能不知道,它还
有文字捕捉的功能,能将文字从图片中提取出来。
SnagIt(屏幕捕捉程序)v8.1绿版:
SnagIt当前版本为7.02,大小为8903KB,下载地址可以在到,补
丁可以在到。
启动SnagIt,选择菜单"输入/区域",选择菜单"工具/文字捕获",然后我
们打开要捕捉的文件窗口,按下捕捉快捷键,选定捕捉区域即可捕捉到文字。
在左侧选中"窗口文字"(如图),在左侧选择输入位置(比如屏幕、区域、窗口等),输出位置(比如打印机、剪贴板、文件等)。设置完成后,.回到要捕捉文
字的文件窗口,按下"捕获"快捷键,即可将文字提取出来。
接着用相应工具重排文字。此时我们发现提取的文字可能会有很多空格或
段落错乱等现象,而且字号、字体等不合自己的心意。这时我们可以用熟悉的WPS或Word软件进行重新编排。我们以WPSOffice2003为例看看如何对付提取
后文章的编排:用WPSOffice2003打开提取文章;然后选择"工具"菜单下的"文字"/"段落重排",这时你会看到提取文章重新进行排版;接下来选择"工具"菜
单下的"文字"/"删除段首空格"命令,使得文章的每段参差不齐的行首空格被删除;再选择"工具"菜单下的"文字"/"增加段首空格",文章变为正常的书写格式;
提取文章一般都留有空段,为删除这些空段,继续选择"工具"菜单下的"文字"/"删除空段"命令,这时文章完全变为我们所要的形式;用你熟悉的界面任意编辑文章吧。
用Office 2003提取图片中的文字
后,保存为.jpg格式
[图3]保存后的.jpg图片
图1、图2、图3是假设在浏览网页时,遇到含有文字的图片,利用腾讯TT截图功能,在Photoshop粘贴生成.jpg文件;当然,也可以使用键盘上的PrintScan键截图后,打开附件里的画图,进行粘贴生成.jpg文件。
2."尚书六号"的界面
3.导入需要提取的图片
[图5]点击"文件",选择"打开图象页"
[图6]选择刚才保存的sample.jpg并点击"打开"
[图7]"尚书六号"自动识别的三个选框
4.提取文字并保存文本
[图8]不修改默认设置,直接点击"识别"后,弹出的界面
[图9]将框内的文字选中,并复制到文本文件或Word文档进行个别错字修正
Free-ORC
是一个非常好的免费在线服务,可以讲图片或者PDF中的文字提取出来,支持的文件有PDF,JPG,GIF,TIFF,BMP or PNG,可以识别出6种文字:English,German,french,Italian,Dutch and Spanish(英语,德语,法语,荷兰语和西班牙语)
介绍:
Free-OCR is afree online OCR(Optical Character
Recognition)tool.You can use this to perform OCR on any image you supply.
This service is free,no registration necessary.We also do not
need your email address.
Just upload your image files.Free-OCR takes either
PDF,JPG,GIF,TIFF or BMP format.
The only restriction is that the images must not be larger than
2MB,no wider or higher than 5000 pixels and there is alimit of 10 image uploads per hour.
使用方法很简单,打开首页,在UPLOAD image for OCR下面点Browse选
择带有文字的图片。如下图:
字体免费需要下载什么OCR是完全免费的,不过有以下限制:
1、图片文件最大限制在2MB
2、只能从图片和扫描文件提取文字
3、只支持PDF,JPG,GIF,TIFF,BMP,PNG这几种图片格式
4、只能识别6种语言,还不包括中文,对于中国的朋友是致命的。
5、免费并且不需要注册
免费资源信息网推荐资源,转载请注明出处XP
能够适应超过一百种Windows字体。
TH-OCR XP能够识别全部简体国标一二级6763个字符,繁体13000多字符。
TH-OCR XP
能够识别彩图象,并转换成带有彩图片的RTF格式(WORD可编辑)。
TH-OCR XP
支持多任务,可以在识别一篇文章的同时扫描或编辑其它文档。
TH-OCR XP
中对于每个区域可以设定不同的字体,例如一篇文档中的大段英文可以设
为英文识别,以提高识别率。
按住Ctrl键用鼠标拖动,可以移动区域。
按住Shift键用鼠标点取,可以选择多个区域,一起设置字符集和类型。
按住Shift键用鼠标右键拉直线可以进行手动倾斜校正。
版面分析前根据实际情况选择"报纸版面"或"杂志版面"可以提高版面分析
正确性。
对一般文本识别扫描分辨率用300DPI比较合适,识别小于5号的字可选
400DPI。
选择"简体全字集"或"繁体全字集",能够识别更多的字体和全部字符集,
但识别速度较慢。
Perfect PDF Reader 5|提取PDF图片/文字Adobe Reader软件介绍已经推出了很多的版本,即使现在已经到了9.1,增加了很多的功能,但是我们还是
有更加好的选择.Perfect PDF Reader对于Windows用户来说,可能是个很诱
人的选择哦。除了增加了明显的开放接口,Perfect PDF也加入了一些特别有用
的功能.譬如说有三种不同的查看方式:标准,阅读模式,全屏模式。
Perfect PDF同样让从文件中提起出图片和文字变得容易.可以选择,复制,粘贴到任何地方,甚至用于图形输出.当然也可以修改你的文件。
当然,对于某些shell,至少说是个小小的图标-比如"另存为"按钮.虽然不影响功能的使用,但是却不适合人们日渐提升的审美观。
Perfect PDF Reader功能:
打开,阅读,显示任何的PDF文件
打印pdf文件
以纯文本输出
输出网页为pdf(Adobe Reader中没有此功能!)
大量的导航放大和显示模式
旋转
通过email发送
提取文本图像
剪切板
搜索
填写保存pdf表格(Adobe Reader中没有的功能!)
数字签名
在线更新升级
Perfect PDF Reader是免费的软体,有32位,64位版本.要求Visual C++2008 runtimes。当然,在安装的时候会提醒你并且自动下载安装。最后,是英文的哦,当然很好用。
Free of charge:quick and easy read and display PDF documents!

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。