基于Android的手机OCR识别技术设计与实现
朱怀中
【摘 要】The working principles of OCR word processing and identification as well as the advantages of OCR when used on mobile platforms are introduced. A program of the Secretary software on the Android-based phone is designed. This software uses OCR technology to indentify Chinese and English agenda. Emphasis is put on the anal- ysis of the functions of the OCR recognition software. A scheme is designed to achieve the program and finally the OCR schedule reminding function is realized. After testing the software system functions, the results show that the OCR recognition software can complete the daily character identification and extraction function.%介绍了OCR文字处理和识别的工作原理,以及OCR运用在手机平台的优越性。设计了基于Android的OCR中英文识别日程小秘书软件,重点对OCR识别软件的功能进行分析,并设计实现方案,最终完成了OCR日程提醒功能。经过对软件系统功能的测试,结果表明,OCR识别软件在功能上能完成日常的文字识别与提取。
【期刊名称】《电子科技》
【年(卷),期】2012(025)009
【总页数】5页(P45-48,51)
【关键词】Android;OCR;日程提醒;文字识别
【作 者】朱怀中
【作者单位】上海天华学院计算机系,上海201815
【正文语种】中 文
【中图分类】TP391.41
光学字符识别(Optical Character Recognition,OCR),其工作原理为通过扫描仪、照相机等光学设备,将整页文本图像输入计算机,将文档资料转换成黑白点阵的图像文件,然后通过OCR识别软件将图像中的文字转换成文本格式,以便进一步信息处理。Android是Goo
gle公司于2007年l 1月5日推出的一个手机平台,是一个真正意义上的开放并不依赖于设备的移动应用综合平台,它包括操作系统、用户界面和应用程序。由于它的开放性,任何人都可以编写自己的应用程序并在手机上使用[1]。
设计开发的OCR日程提醒小秘书软件,在实用性方面体现出其优越性、便捷性、系统性和易操作性。OCR日程提醒软件的优越性在于该软件运行在Android平台手机上,方便随身携带,可以随时随地使用;运用先进的OCR图片文字识别技术,利用手机便捷的照相机功能,获取文档资料的图像文件,方便用户能快速记录下各种纸质通知等重要信息,避免繁琐的输入和存储相关内容操作;用户使用该软件能够系统的管理图片以及日程信息,按时按点地对已添加的信息进行提醒;手机平台的可操作性使用户能明确、简明的操作该软件[2]。设计开发的日程提醒小秘书功能,贴合实际需求,对重要事件和重要时间的提醒有了更加完善的管理。
1 系统需求与设计
1.1 需求分析
目前市场上,可以搜索到相关OCR文字识别的应用软件,但基本都是运用在电脑上的,较少运用在手机上。在日常生活中人们或多或少都会收到或看到纸质通知、请柬等类似带有时间点的信息,不能快速地记录下来。为方便每次遇到此类情况,只需要通过对通知、请柬等拍摄照片,就可快速、方便地存储于手机内,并将图片上的文字信息转化成文字内容,同时将通知、请柬等上面的时间日期直接添加至手机的日程提醒中去。由于目前市场上几乎没有此类能把纸质的通知通过照片拍摄并对内容进行文字处理,同时可以同步添加至日程提醒中的软件,为此开发了基于Android手机开发了OCR日程小秘书软件。该软件根据用户日常遇到的日程安排问题,如会议的时间、各类通知的时间、请柬的时间等,使用户能较快地把相关时间日期节点记录于手机中,并且添加至日程提醒中,避免不必要的损失。
1.2 功能模块设计
OCR日程小秘书软件的设计主要从生成影像模块、图像处理模块、文字识别模块、文字编辑模块、日期提醒模块这5方面来考虑的,具体如下:
(1)生成影像模块。OCR日程小秘书软件是运用打开手机上的摄像头,通过用户对各种纸质
通知、请柬等有时间点的信息进行拍照,获取需要处理的图片。或者通过手机中已有的图片,获取所需要处理的图片。
eclipse android(2)图像处理模块。主要具有文稿扫描、图像缩放、图像旋转等功能。OCR日程小秘书软件是通过对所获取的图片,通过拍摄后,形成图像文件,图像处理可以对获取的图像进行一般操作,如放大缩小等。若所获取图像的位置不正,可以通过用户自行旋转或手工旋转图像,目的是为文字识别创造有力的条件,使识别率更高。
(3)文字识别模块。是本款软件文字识别的核心部分。文字识别模块主要对所获取的汉字进行“阅读”,但不能一目多行,必须对文字域进行逐行切割。对于汉字也是逐字辨认,即单字识别,再进行归一化。文字识别模块通过对不同样本汉字的特征进行提取,完成识别,自动查可疑字,具有前后联想等功能。OCR日程小秘书软件通过对图片识别后,进行特定关键字的搜索后,提取与此关键字相关的信息。
(4)文字编辑模块。主要对OCR识别后的文字进行修改和编辑。如系统识别认为有误,则可通过用户对所识别的文字进行编辑。对文字的错误,则可提供相似的文字供选择,选择编辑器供输出等。
(5)日期提醒模块。主要是为用户提供时间的提醒,使用户能够对日程的安排。OCR日程小秘书软件,将所获取的特定内容信息,放入日程提醒的对应位置。日程提醒中的时间设定即为所拍摄的通知等图片上的时间和日期、内容等。这些信息都已经预先设定,用户只需设定些其他的项目即可添加至日程提醒中,以提醒用户避免错过重要事件。
2 OCR文字识别技术实现的原理
实现OCR识别系统,需要转换拍摄的影像,将影像内的图像继续保存,将表格内的资料及影像内的文字一律变成计算机文字,减少影像资料的储存量。对于识别出的文字可再次分析与使用,节省了因键盘输入的人力与时间。从影像到结果输出,需要经过图像文字转换、图像的二值化、单字切割、文字特征抽取、比对识别、以及人工校正,最后将识别结果输出[3]。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。