python解析pdf中文乱码_解析PDF文件以及解决编码问题--688IT编程网

python解析pdf中⽂乱码_解析PDF⽂件以及解决编码问题1、解析pdf⽂件

最近需要将pdf中⽂本提取出来，于是就了解了⼀下pdfminer

⾸先安装：pip3 install pdfminer3k

之后就是⽤pdfminer解析，不多说，直接上代码，这些代码都是参考各位前辈

from pdfminer.pdfparser import PDFParser,PDFDocument

from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreter

verter import PDFPageAggregator

from pdfminer.layout import LTTextBoxHorizontal,LAParams,LTImage

import os

path=''

def pdf_to_word(folder,password):

#获取指定⽬录下的所有⽂件

files=os.listdir(folder)

pdfFiles=[f for f in files dswith('.pdf')]

#获取pdf类型的⽂件，放到⼀个列表中

for pdfFile in pdfFiles:

print(pdfFile)

#将⽬录和⽂件合并成⼀个路径 os.path.join('root','test','') ##root/

# pdfPath=os.path.join(folder,pdfFile)

#设置将要转换后存放word⽂件的路径

# wdPath=pdfPath

#判断是否已经存在对应的⽂件，如果不存在就加⼊到存放的路径中去

# if wdPath[-4:]!='.docx':

# wdPath=wdPath+'.docx'

fn=open(path+"/{}".format(pdfFile),'rb')

#创建⼀个PDF⽂本档分析器：PDFParser

parser=PDFParser(fn)

#创建⼀个PDF⽂档：PDFDocumeng

doc=PDFDocument()

#链接分析器与⽂档

parser.set_document(doc)

doc.set_parser(parser)

#提供出事话的密码，如果没有密码，输⼊空字符串

doc.initialize('')

#检测⽂档是否提供txt转换，不提供就直接忽略

if not doc.is_extractable:

print('PDFTextExtractionNotAllowed')

else:

#创建PDF资源管理器：PDFResourceManager

resource=PDFResourceManager()

#创建⼀个PDF参数分析器：；AParams

laparams=LAParams()

#创建聚合器，⽤于读取⽂档的对象：PDFPageAggregator

device=PDFPageAggregator(resource,laparams=laparams)

#创建解释器，对⽂档编码，解释成python能够识别的格式：PDFPageInterpreter interpreter=PDFPageInterpreter(resource,device)

#_pages()是获取page列表的⼀个⽅法

num_page,num_image,num_Text=0,0,0

for page _pages():

pdf_str=''

#利⽤解释器的peocess_page()⽅法解析单独页数

interpreter.process_page(page)

_result()

for out in layout:

if isinstance(out,LTTextBoxHorizontal):

num_Text+=1

print(_text()))

pdf_str+=_text().strip()

if isinstance(out,LTImage):

num_image+=1

print(pdf_str)

# with open(wdPath,'a',encoding='utf-8') as f:

# f._text()+'\n')

if __name__=='__main__':

pdf_to_word(path,'')

2、解决编码问题

如果⾸次这样运⾏的话，会输出两⾏⽂字：

WARNING:root:GBK2K-H

python中文文档

WARNING:root:GBK2K-v

我的平台是ubuntu

我这边是在路径下放了两个pdf⽂件，⼀个pdf中是⽂本，另⼀个是Image

所以就继续原因，后⾯发现是编码问题。

pdfminer3k不能解析特殊字体，需要下载相应的字体包来解决

这⾥有很多的字体包，看看你的警告是属于哪种字体，就下载相应的字体包。

下载完成之后，不要解压直接放在 pdfminer/cmap⽂件夹下

pdfminer/cmap⽂件夹：我的这个是通过pip安装的，到⾃⼰的python包，进去到⾥⾯的相关⽂件夹就可以了。再次运⾏。发现不报刚刚的警告了。但是有了新的问题

然后下⾯就会以有⼀堆的cid:xxx

着说明编码问题已经解决了，现在需要的解码。同样的在上⾯的链接到图⽚中相应解码包，这⾥需要的就是

再以同样的⽅法保存到同样的位置就可以了。然后就完美的输出⽂本了。

688IT编程网

python解析pdf中文乱码_解析PDF文件以及解决编码问题

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

python解析pdf中文乱码_解析PDF文件以及解决编码问题

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式