利用Acrobat软件生成文本型PDF文件--688IT编程网

利用Acrobat软件生成文本型PDF文件
作者：马云彤
来源：《今传媒》2013年第12期

摘要：我国网络期刊文献大都采用PDF格式，且以文本型（矢量模式）为主，但也有部分为图片型（光栅模式）PDF文献。图片型PDF文献无法复制、搜索、取词，也不支持在线实时检索、学术不端检测等功能。利用Adobe Acrobat Professional 10.0可对扫描或其他方式生成的图片型PDF文献进行页面裁剪、OCR文本识别及页面校正，从而可以获得页面整洁、端正的文本型PDF文献。

关键词：Adobe Acrobat Professional 10.0；OCR文本识别；文本型；图片型

中图分类号：TP391.1 文献标识码：A 文章编号：1672-8122（2013）12-0105-02

我国网络期刊出版采用的文件格式主要有CAJ、PDF和HTML三种[1]，其中大多数为PDF格式[2]。PDF是世界上期刊网络版通用格式[3]，我国的中国知网（CNKI）和国家科技图书文献中心（NSTL）也都提供PDF格式的期刊文献。生成PDF文档的常用方法包括通过其他软件

中转和通过虚拟打印机。目前期刊编辑部广泛使用北大方正书版排版软件，可以直接或间接生成文本型PDF文献，其文字为矢量模式，可以进行选择复制、搜索查、金山词霸取词等操作。但在缺少原始电子文件时，则需以扫描样刊的方式生成图片型PDF文献。图片型PDF文件整个页面为一个光栅图像，其中的文字不能被选中 [4-5]，不仅无法复制、搜索、取词，也不支持在线实时检索、学术不端检测等功能，也常会出现边缘有多余文字以及页面不正等情况，从而影响到读者对文献的阅读利用和数据库系统的正常运行。本文利用Adobe Acrobat Professional 10.0，以自国家科技图书文献中心（NSTL）下载的英文文献“Relative measure index： a metric to measure the quality of journals”作为示例，对扫描（也可以是其他方式转换）生成的图片型（光栅模式）PDF文献进行裁剪，通过OCR文本识别转换为文本型（矢量模式），并同步对页面进行校正。

一、PDF文件页面裁剪

用Adobe Acrobat Professional 10.0打开所处理文献，首先对页面进行裁剪，裁剪需要逐页进行，而对于文本识别、启动注释等，可以整篇同时完成。

图1为所处理文献的首页，该文献为扫描生成的图片型PDF文件，无法进行文字选中、

复制、搜索（查）、翻译取词等操作，整篇文献页面横置，页面边缘有多余文字。

点击右上角“工具”按钮，打开“工具”窗格，选择“页面”→“裁剪”路径（如图2乱码文字生成所示）。用出现的十字形光标选择裁剪区域（如图3所示），在选择区域内双击鼠标右键，出现“设置页面框”对话框（如图4所示），确定即可完成裁剪；这一步也可以单击鼠标右键，点击“设置页面框”命令，这时即直接将裁减框外的页面裁剪掉。

图1 所处理的扫描生成PDF文献（首页）

图2 工具—页面—裁剪图3 选择裁减区域

工具窗格也可以通过菜单栏中的“视图”→“工具”路径打开，但不如通过工具窗格打开操作便捷、界面友好。

图4 “设置页面框”对话框

二、将图片型PDF文件转换成文本型PDF文件

打开“工具”窗格，通过“识别文本”→“在本文件中”路径（如图5所示），打开“识别文本”

对话框（如图6所示），点击“编辑”按钮，出现“识别文本-一般设置”对话框（如图7所示），设置OCR识别的主要语言，根据笔者观察选择中文或英文对识别效果没有影响，识别准确率都很高，但对生成的文本型PDF进行复制、粘贴操作中，如果设置语言与转换语言不一致，则可能出现乱码。分辨率选择300dpi，设置完成后确定，即可将图片型转换为文本型，并同步进行页面校正，将倾斜的页面转正，也可将横置页面转换为竖立；通过菜单“文件”→“另存为”→“PDF”，设置路径、重命名后加以保存。

图5 工具窗格—识别文本图6 “识别文本”对话框

图7 “识别文本-一般设置”对话框

将图片型PDF文件转换生成文本型PDF文件还可以通过 “工具”→“文档处理”→“优化扫描的PDF”路径实现，并可进行应用自适应压缩、小文件/高质量、滤镜、OCR识别等各项设置（如图8所示）。经尝试，利用默认设置即可取得良好效果，与采用“文本识别”方法基本等效，而采用多种不同设置生成的文本型PDF显示效果差别也不明显。

图8 “优化扫描的PDF”对话框

图9显示新生成的文献首页的完整页面，页面端正、整洁，可进行文字选中、复制等操作（如图10所示），也可用金山词霸取词（如图11所示）。

图9 新生成的文本型PDF文献页面

图10 选中和复制

图11 金山词霸屏幕取词

三、结语

通过大型网络数据库下载已成为读者获得所需文献的主要途径。网络期刊文献大多采用PDF格式，以文本型为主，但仍有部分为图片型PDF文件。图片型PDF文件不支持以文字属性为运行基础的功能，例如复制、搜索、取词以及文献检索、学术不断检测，等等。采用Adobe Acrobat Professional 10.0将图片型PDF文件转换为文本型PDF文件，对于读者充分利用文献资源和数据库良好运行具有一定的实用意义。

笔者在阅读PDF格式英文文献时，习惯于采用金山词霸屏幕取词和翻查字典结合的方式，

但是从网上获得的PDF文献，常为光栅模式无法取词；将PDF文件由图片型转换为文本型，可以有效解决这一问题。

参考文献：

方宝花.期刊网络出版中的文件格式比较[J].情报技术，2005（2）.

周雪莹.采用双层 PDF 形式将方正书版文件制作为可检索式 PDF 文件[J].编辑学报，2012（6）.

陈庄.网络科技期刊插图图像质量调查与分析[J].科技与出版，2011（6）.

李宗红.利用Adobe Acrobat Professional 8.0软件实现图片型PDF文件到文本型PDF文件的转换[J].中国科技期刊研究，2010 （l）.

周雪莹.对“利用Adobe Acrobat Professional 8.0软件实现图片PDF文件到文本型PDF文件的转换”一文的质疑——与李宗红老师商榷[J].中国科技期刊研究，2011（6）.

688IT编程网

利用Acrobat软件生成文本型PDF文件

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

利用Acrobat软件生成文本型PDF文件

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式