利用Acrobat软件生成文本型PDF文件
作者:马云彤
来源:《今传媒》2013年第12期
作者:马云彤
来源:《今传媒》2013年第12期
摘 要:我国网络期刊文献大都采用PDF格式,且以文本型(矢量模式)为主,但也有部分为图片型(光栅模式)PDF文献。图片型PDF文献无法复制、搜索、取词,也不支持在线实时检索、学术不端检测等功能。利用Adobe Acrobat Professional 10.0可对扫描或其他方式生成的图片型PDF文献进行页面裁剪、OCR文本识别及页面校正,从而可以获得页面整洁、端正的文本型PDF文献。
关键词:Adobe Acrobat Professional 10.0;OCR文本识别;文本型;图片型
中图分类号:TP391.1 文献标识码:A 文章编号:1672-8122(2013)12-0105-02
我国网络期刊出版采用的文件格式主要有CAJ、PDF和HTML三种[1],其中大多数为PDF格式[2]。PDF是世界上期刊网络版通用格式[3],我国的中国知网(CNKI)和国家科技图书文献中心(NSTL)也都提供PDF格式的期刊文献。生成PDF文档的常用方法包括通过其他软件
中转和通过虚拟打印机。目前期刊编辑部广泛使用北大方正书版排版软件,可以直接或间接生成文本型PDF文献,其文字为矢量模式,可以进行选择复制、搜索查、金山词霸取词等操作。但在缺少原始电子文件时,则需以扫描样刊的方式生成图片型PDF文献。图片型PDF文件整个页面为一个光栅图像,其中的文字不能被选中 [4-5],不仅无法复制、搜索、取词,也不支持在线实时检索、学术不端检测等功能,也常会出现边缘有多余文字以及页面不正等情况,从而影响到读者对文献的阅读利用和数据库系统的正常运行。本文利用Adobe Acrobat Professional 10.0,以自国家科技图书文献中心(NSTL)下载的英文文献“Relative measure index: a metric to measure the quality of journals”作为示例,对扫描(也可以是其他方式转换)生成的图片型(光栅模式)PDF文献进行裁剪,通过OCR文本识别转换为文本型(矢量模式),并同步对页面进行校正。
一、PDF文件页面裁剪
用Adobe Acrobat Professional 10.0打开所处理文献,首先对页面进行裁剪,裁剪需要逐页进行,而对于文本识别、启动注释等,可以整篇同时完成。
图1为所处理文献的首页,该文献为扫描生成的图片型PDF文件,无法进行文字选中、
复制、搜索(查)、翻译取词等操作,整篇文献页面横置,页面边缘有多余文字。
点击右上角“工具”按钮,打开“工具”窗格,选择“页面”→“裁剪”路径(如图2乱码文字生成所示)。用出现的十字形光标选择裁剪区域(如图3所示),在选择区域内双击鼠标右键,出现“设置页面框”对话框(如图4所示),确定即可完成裁剪;这一步也可以单击鼠标右键,点击“设置页面框”命令,这时即直接将裁减框外的页面裁剪掉。
图1 所处理的扫描生成PDF文献(首页)
图2 工具—页面—裁剪 图3 选择裁减区域
工具窗格也可以通过菜单栏中的“视图”→“工具”路径打开,但不如通过工具窗格打开操作便捷、界面友好。
图4 “设置页面框”对话框
二、将图片型PDF文件转换成文本型PDF文件
打开“工具”窗格,通过“识别文本”→“在本文件中”路径(如图5所示),打开“识别文本”
对话框(如图6所示),点击“编辑”按钮,出现“识别文本-一般设置”对话框(如图7所示),设置OCR识别的主要语言,根据笔者观察选择中文或英文对识别效果没有影响,识别准确率都很高,但对生成的文本型PDF进行复制、粘贴操作中,如果设置语言与转换语言不一致,则可能出现乱码。分辨率选择300dpi,设置完成后确定,即可将图片型转换为文本型,并同步进行页面校正,将倾斜的页面转正,也可将横置页面转换为竖立;通过菜单“文件”→“另存为”→“PDF”,设置路径、重命名后加以保存。
图5 工具窗格—识别文本 图6 “识别文本”对话框
图7 “识别文本-一般设置”对话框
将图片型PDF文件转换生成文本型PDF文件还可以通过 “工具”→“文档处理”→“优化扫描的PDF”路径实现,并可进行应用自适应压缩、小文件/高质量、滤镜、OCR识别等各项设置(如图8所示)。经尝试,利用默认设置即可取得良好效果,与采用“文本识别”方法基本等效,而采用多种不同设置生成的文本型PDF显示效果差别也不明显。
图8 “优化扫描的PDF”对话框
图9显示新生成的文献首页的完整页面,页面端正、整洁,可进行文字选中、复制等操作(如图10所示),也可用金山词霸取词(如图11所示)。
图9 新生成的文本型PDF文献页面
图10 选中和复制
图11 金山词霸屏幕取词
三、结 语
通过大型网络数据库下载已成为读者获得所需文献的主要途径。网络期刊文献大多采用PDF格式,以文本型为主,但仍有部分为图片型PDF文件。图片型PDF文件不支持以文字属性为运行基础的功能,例如复制、搜索、取词以及文献检索、学术不断检测,等等。采用Adobe Acrobat Professional 10.0将图片型PDF文件转换为文本型PDF文件,对于读者充分利用文献资源和数据库良好运行具有一定的实用意义。
笔者在阅读PDF格式英文文献时,习惯于采用金山词霸屏幕取词和翻查字典结合的方式,
但是从网上获得的PDF文献,常为光栅模式无法取词;将PDF文件由图片型转换为文本型,可以有效解决这一问题。
参考文献:
方宝花.期刊网络出版中的文件格式比较[J].情报技术,2005(2).
周雪莹.采用双层 PDF 形式将方正书版文件制作为可检索式 PDF 文件[J].编辑学报,2012(6).
陈庄.网络科技期刊插图图像质量调查与分析[J].科技与出版,2011(6).
李宗红.利用Adobe Acrobat Professional 8.0软件实现图片型PDF文件到文本型PDF文件的转换[J].中国科技期刊研究,2010 (l).
周雪莹.对“利用Adobe Acrobat Professional 8.0软件实现图片PDF文件到文本型PDF文件的转换”一文的质疑——与李宗红老师商榷[J].中国科技期刊研究,2011(6).
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论