利用pdfplumber提取pdf文档内容--688IT编程网

利⽤pdfplumber提取pdf⽂档内容

介绍

pdf是⼀种便携式⽂档格式，由Adobe公司设计。因为不受平台限制，且⽅便保存和传输，所以pdf⾮常受欢迎。⽬前市场上有很多pdf⼯具，⼤部分是阅读类，也有⽀持对pdf的修改、转换等功能，但这部分⼯具不少是收费的。这⾥介绍⼀个开源python⼯具库-pdfplumber，可以⽅便地获取pdf的各种信息，包括⽂本、表格、图表、尺⼨等。

pdfplumber安装以及导⼊

⾸先pdfplumber安装导⼊：和其他库⼀样，pdfplumber⽀持使⽤pip安装

pip install pdfplumber

pdfplumber安装完成后，⽤import导⼊使⽤

import pdfplumber

利⽤.extract_tables( )可以输出pdf中的表格

pdfplumber简单使⽤

pdfplumber中有两个基础类，PDF和Page。前者⽤来处理整个⽂档，后者⽤来处理整个页⾯

pdfplumber.PDF类：

.metadata: 获取pdf基础信息，返回字典

.pages ⼀个包含pdfplumber.Page实例的列表，每⼀个实例代表pdf每⼀页的信息。

pdfplumber.Page类:pdfplumber核⼼功能，对PDF的⼤部分操作都是基于这个类，包括提取⽂本、表格、尺⼨等

1. 读取PDF

import pdfplumber

import pandas as pd

with pdfplumber.open("1.pdf") as pdf:

2. 读取PDF⽂档信息

with pdfplumber.open("1.pdf") as pdf:

adata)

输出：

{‘Author’: ‘作者’, ‘CreationDate’: “(D:20180730130816+08’00’)”, ‘Creator’: ‘创建者’, ‘Keywords’: ‘关键字’, ‘ModDate’: “(D:20180730130816+08’00’)”, ‘Producer’: ‘⽣产者’, ‘Subject’: ‘科⽬’, ‘Title’: ‘标题’}

利⽤metadata可以获得PDF的基本信息，作者，⽇期，来源等基本信息。

3. 总页数

governance

len(pdf.pages)

4. 读取第⼀页的宽度，页⾼等信息

# 第⼀页pdfplumber.Page实例

first_page = pdf.pages[0]

# 查看页码

print('页码：', first_page.page_number)

# 查看页宽

print('页宽：', first_page.width)

# 查看页⾼

print('页⾼：', first_page.height)

5. 读取⽂本

import pdfplumber

import pandas as pd

with pdfplumber.open("1.pdf") as pdf:

# adata)

# print(len(pdf.pages))

# 第⼀页pdfplumber.Page实例

first_page = pdf.pages[0]

text = act_text();

print(text)

输出：

政府数据治理的国际经验与启⽰

夏义堃

(武汉⼤学信息资源研究中⼼，武汉,430072)

[摘要] 政府数据治理是当前政府信息管理研究的热点问题，对发达国家政府数据治理经验的

总结有助于把握政府数据治理的普遍规律，推动我国政府数据的开发利⽤。借助⼤量的⽂献调研

与案例分析，本⽂对政府数据治理的战略框架、内容体系以及⽣态环境等核⼼要素进⾏了深⼊⽽

全⾯的国际⽐较，系统分析了代表性国家政府数据治理实践所采取的普遍做法，进⽽为我国政府

数据治理实践提供启⽰和借鉴。

[关键词] 政府数据治理数据开放数据开发利⽤数据安全数据资产管理

[中图分类号] G203;D630 [⽂献标识码] A [⽂章编号] 2095-2171(2018)03-0064-09

DOI:10.13365/j.jirm.2018.03.064

InternationalExperiencesandImplicationsonGovernmentDataGovernance

XiaYikun

(CenterforStudiesofInformationResourcesofWuhanUniversity,Wuhan,430072)

[Abstract] Governmentdatagovernanceisahotissueintheresearchofgovernmentinformationmanagement.

Asummaryaboutexperiencesongovernmentdatagovernancefromdevelopedcountrieswillhelpustopromotethe processofgovernmentdataexploitation.Basedonalargenumberofliteraturereviewandcasestudies,thispaper

takesaninternationalcomprehensiveandin-depthcomparisononthestrategicframework,contentsystemandeco-logicalenvironmentofgovernmentdatagovernance,systemicallyanalyzingitsuniversalpractice.Then,itprovides somereferencestothedevelopmentofChinesegovernmentdatagovernance.

[Keywords] Governmentdatagovernance; Opendata; Dataexploitation; Datasecurity; Dataasset

management

政府数据治理是政府治理和政府信息管还是中观层⾯的数据法规制度，乃⾄微观层⾯

理的重要组成部分,“是综合运⽤数据管理法的数据实践，都充分体现了政府数据治理理念

律制度、⼈员组织、技术⽅法以及流程标准等和数据治理的⾏为典范，具有普遍借鉴意义。

⼿段，对政府结构化数据和⾮结构化数据的可

1 强化政府数据治理的顶层设计

⽤性、完整性、安全性等进⾏全⾯管理，以确保

数字化时代政府数据量的急剧扩张与技

政府数据资产的保值增值。”[1]随着⼤数据战

术⼿段的快速更新，亟待在宏观层⾯实现思维

略和开放政府数据战略的全球推进，特别是对

观念从“数据管理”向“数据作为战略资产”的

数据资产价值认识的不断深化，各国纷纷出台

⼀系列政策举措来推进政府数据的开发利⽤。转变，并需要最⾼决策层对政府数据治理的战

虽然并没有系统性地提出政府数据治理的概略⽬标、战略重点、主攻⽅向以及⼯作机制、推

念体系，但⽆论是宏观层⾯的数据战略意识, 进⽅式等进⾏整体设计，以确定数据治理⼯作

[作者简介] 夏义堃，博⼠，研究员，副院长，研究⽅向为政府信息资源管理、电⼦政务,Email:xyk@whu.edu。

6. 读取表格

import pdfplumber

import pandas as pd

with pdfplumber.open("1.pdf") as pdf:

page_third = pdf.pages[2]

table_2 = act_table()

# print(table_2)

table_df = pd.DataFrame(table_2[1:], columns=table_2[0])

print(table_df)

# 保存excel

_excel('test.xlsx')

pdfplumber提取表格需要处理很多细节，此处表格线框⽐较规范，所以可以简单提取，对于线条不完全的表格，则效果差的多。

表格参数设置

688IT编程网

利用pdfplumber提取pdf文档内容

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

利用pdfplumber提取pdf文档内容

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式