利⽤pdfplumber提取pdf⽂档内容
介绍
pdf是⼀种便携式⽂档格式,由Adobe公司设计。因为不受平台限制,且⽅便保存和传输,所以pdf⾮常受欢迎。⽬前市场上有很多pdf⼯具,⼤部分是阅读类,也有⽀持对pdf的修改、转换等功能,但这部分⼯具不少是收费的。这⾥介绍⼀个开源python⼯具库-pdfplumber,可以⽅便地获取pdf的各种信息,包括⽂本、表格、图表、尺⼨等。
pdfplumber安装以及导⼊
⾸先pdfplumber安装导⼊:和其他库⼀样,pdfplumber⽀持使⽤pip安装
pip install pdfplumber
pdfplumber安装完成后,⽤import导⼊使⽤
import pdfplumber
利⽤.extract_tables( )可以输出pdf中的表格
pdfplumber简单使⽤
pdfplumber中有两个基础类,PDF和Page。前者⽤来处理整个⽂档,后者⽤来处理整个页⾯
pdfplumber.PDF类:
.metadata: 获取pdf基础信息,返回字典
.pages ⼀个包含pdfplumber.Page实例的列表,每⼀个实例代表pdf每⼀页的信息。
pdfplumber.Page类:pdfplumber核⼼功能,对PDF的⼤部分操作都是基于这个类,包括提取⽂本、表格、尺⼨等
1. 读取PDF
import pdfplumber
import pandas as pd
with pdfplumber.open("1.pdf") as pdf:
2. 读取PDF⽂档信息
with pdfplumber.open("1.pdf") as pdf:
adata)
输出:
{‘Author’: ‘作者’, ‘CreationDate’: “(D:20180730130816+08’00’)”, ‘Creator’: ‘创建者’, ‘Keywords’: ‘关键字’, ‘ModDate’: “(D:20180730130816+08’00’)”, ‘Producer’: ‘⽣产者’, ‘Subject’: ‘科⽬’, ‘Title’: ‘标题’}
利⽤metadata可以获得PDF的基本信息,作者,⽇期,来源等基本信息。
3. 总页数
governance
len(pdf.pages)
4. 读取第⼀页的宽度,页⾼等信息
# 第⼀页pdfplumber.Page实例
first_page = pdf.pages[0]
# 查看页码
print('页码:', first_page.page_number)
# 查看页宽
print('页宽:', first_page.width)
# 查看页⾼
print('页⾼:', first_page.height)
5. 读取⽂本
import pdfplumber
import pandas as pd
with pdfplumber.open("1.pdf") as pdf:
# adata)
# print(len(pdf.pages))
# 第⼀页pdfplumber.Page实例
first_page = pdf.pages[0]
text = act_text();
print(text)
输出:
政府数据治理的国际经验与启⽰
夏义堃
(武汉⼤学信息资源研究中⼼,武汉,430072)
[摘要] 政府数据治理是当前政府信息管理研究的热点问题,对发达国家政府数据治理经验的
总结有助于把握政府数据治理的普遍规律,推动我国政府数据的开发利⽤。借助⼤量的⽂献调研
与案例分析,本⽂对政府数据治理的战略框架、内容体系以及⽣态环境等核⼼要素进⾏了深⼊⽽
全⾯的国际⽐较,系统分析了代表性国家政府数据治理实践所采取的普遍做法,进⽽为我国政府
数据治理实践提供启⽰和借鉴。
[关键词] 政府数据治理数据开放数据开发利⽤数据安全数据资产管理
[中图分类号] G203;D630 [⽂献标识码] A [⽂章编号] 2095-2171(2018)03-0064-09
DOI:10.13365/j.jirm.2018.03.064
InternationalExperiencesandImplicationsonGovernmentDataGovernance
XiaYikun
(CenterforStudiesofInformationResourcesofWuhanUniversity,Wuhan,430072)
[Abstract] Governmentdatagovernanceisahotissueintheresearchofgovernmentinformationmanagement.
Asummaryaboutexperiencesongovernmentdatagovernancefromdevelopedcountrieswillhelpustopromotethe processofgovernmentdataexploitation.Basedonalargenumberofliteraturereviewandcasestudies,thispaper
takesaninternationalcomprehensiveandin-depthcomparisononthestrategicframework,contentsystemandeco-logicalenvironmentofgovernmentdatagovernance,systemicallyanalyzingitsuniversalpractice.Then,itprovides somereferencestothedevelopmentofChinesegovernmentdatagovernance.
[Keywords] Governmentdatagovernance; Opendata; Dataexploitation; Datasecurity; Dataasset
management
政府数据治理是政府治理和政府信息管还是中观层⾯的数据法规制度,乃⾄微观层⾯
理的重要组成部分,“是综合运⽤数据管理法的数据实践,都充分体现了政府数据治理理念
律制度、⼈员组织、技术⽅法以及流程标准等和数据治理的⾏为典范,具有普遍借鉴意义。
⼿段,对政府结构化数据和⾮结构化数据的可
1 强化政府数据治理的顶层设计
⽤性、完整性、安全性等进⾏全⾯管理,以确保
数字化时代政府数据量的急剧扩张与技
政府数据资产的保值增值。”[1]随着⼤数据战
术⼿段的快速更新,亟待在宏观层⾯实现思维
略和开放政府数据战略的全球推进,特别是对
观念从“数据管理”向“数据作为战略资产”的
数据资产价值认识的不断深化,各国纷纷出台
⼀系列政策举措来推进政府数据的开发利⽤。转变,并需要最⾼决策层对政府数据治理的战
虽然并没有系统性地提出政府数据治理的概略⽬标、战略重点、主攻⽅向以及⼯作机制、推
念体系,但⽆论是宏观层⾯的数据战略意识, 进⽅式等进⾏整体设计,以确定数据治理⼯作
[作者简介] 夏义堃,博⼠,研究员,副院长,研究⽅向为政府信息资源管理、电⼦政务,Email:xyk@whu.edu。
6. 读取表格
import pdfplumber
import pandas as pd
with pdfplumber.open("1.pdf") as pdf:
page_third = pdf.pages[2]
table_2 = act_table()
# print(table_2)
table_df = pd.DataFrame(table_2[1:], columns=table_2[0])
print(table_df)
# 保存excel
_excel('test.xlsx')
pdfplumber提取表格需要处理很多细节,此处表格线框⽐较规范,所以可以简单提取,对于线条不完全的表格,则效果差的多。
表格参数设置

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。