提取论文标题并自动重命名pdf文件--688IT编程网

提取论⽂标题并⾃动重命名pdf⽂件

在我们确定⼀个研究课题之后，我们总是会先下载⼀堆相关的paper，看看这个领域现在已经做到⼀个什么地步，也看看别⼈是怎么做的，后⾯⾃⼰写paper的时候可以参考参考。当我们把相关的⽂章都下载到⼀个⽂件夹之后，有⼀个问题，⼀般我们从IEEE或是ACM相关站点下载的PDF⽂件的⽂件名不是相应⽂章的标题。我们希望⽂件名尽量能够反映⽂件的主要内容，⽂章的标题显然是最能概括⽂张内容的。

昨天上午，⼀个⼩时的时间就花在把下载下来的⽂件重命名上了。因为太费时间，想⾃⼰写个简单的⼩程序来完成这个⼯作。上⽹⼀，嗬，这⽅⾯的内容还不少，在stack overflow上⾯就有好⼏个帖⼦。这⼏个帖⼦我都看了，总结⼀下就是完成这个任务的⽅法有很多，可以⽤java来做，也可以python，还有C#，perl什么的都可以做，这些⽅法的⼀个共同点是需要额外的包或者模块来完成这个任务，java需要PDFBox，python需要PyPDF这个模块。

最后我选择的是⽤python来做。这是从简洁性⾓度考虑作出的选择，PyPDF模块的安装⾮常简单，安装之后编写程序也⾮常简单（就像⼀个⼩的脚本），还有python是跨平台的。选java的好处就是我可以将程序打包成EXE⽂件，⾮CS相关专业的学⽣可以会⽐较容易接受这种⽅式。

stackoverflow/questions/911672/extracting-titles-from-pdf-files

上⾯是stack overflow上⾯的相关页⾯。

pybrary/pyPdf/

这是下载pyPdf模块的页⾯，这个模块是作者⼀个⼈维护的，从10年4⽉开始就没有更新了，所以使⽤的Python版本还停留在2.x。

blog.isnotworking/2006/08/extract-pdf-title-from-all-files-on.html

这个页⾯给出了⼀个简答的例⼦。这个例⼦我在Python 2.7下运⾏通过。在3.2和3.3下运⾏报错，都是SyntaxError，3.x和2.x语法上还是存在⽐较⼤的差异的。

⾃动提取标题并重命名的代码如下：

# pyPdf available at pybrary/pyPdf/from pyPdf import PdfFileWriter, PdfFileReader

import os

for fileName in os.listdir('.'):

actfile = file(fileName,"rb")

try:

if fileName.lower()[-3:] != "pdf": continue

input1 = PdfFileReader(actfile)

# print the title of document1.pdf

print'##1', fileName, '##2', DocumentInfo().title()

except:

print'##1', fileName, '##2'

try:

trgtfilename = DocumentInfo().title + "_" + fileName

except:

print"\n## ERROR ## %s Title could not be extracted. PDF file may be encrypted!" % fileName

continue

python可以做什么游戏

del input1

actfile.close()

print'Trying to rename from:', fileName, '\n to ', trgtfilename

try:

except:

print fileName, ' could not be renamed!'

print'\n## ERROR ## Maybe the filename already exists or the document is already opened!'

⼀个问题：Python3.x的寻模块⽅式和之前相⽐好像也有点变化，将PyPDF直接安装在site-packages下，运⾏的example的时候会提⽰不到pdf这个模块，需要使⽤sys.path.add⽅法⼿动加上才⾏，现在还不知道为什么？

PS：当前的这个程序当⽬录下有⽂件夹时会报错！

688IT编程网

提取论文标题并自动重命名pdf文件

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

提取论文标题并自动重命名pdf文件

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则