《利⽤Python进⾏数据分析第⼆版》-第14章数据分析⽰例(实战)前⾯的章节已经讲解了数据分析的基本操作,
接下来就通过具体的简单分析例⼦来说明前⾯基本知识的应⽤
本章原作者⽰例数据采⽤的都是美国相关数据(因为作者是外国⼈),
我会从国内的⾓度,选取中国可以看到的或者到的公开数据进⾏分析
数据分析的主要步骤:
1、从⽹上获取公开数据(此处是PDF)
2、读取PDF中表格数据
3、多页数据连接
4、数据清洗和整理
5、数据聚合和分组
6、数据绘图与可视化
7、保存绘图
接下来进⾏详细的说明
1、从⽹上获取公开数据(此处是PDF)
此处选择的数据是“上海交通⼤学研究⽣院2018年考试及录取”统计数据,
数据地址:yzb.sjtu.edu/xxgs1/lssj/wnbklqtj.htm
数据下载后命名为“2018.pdf”,⽅便后续数据读取,pdf部分内容截图如下:
2、读取PDF格式表格数据
之前章节,我们有学习读取CSV、excel等格式的数据,但是没有学习pdf,遇到问题,不放弃,寻⽅法
从百度查询,可以了解到,通过pdfplumber这个包可以处理pdf数据,我们来安装这个包:
点击如下程序:
会出现命令符式的⿊框,通过pip命令来安装pdfplumber包,如下:
等待,直到安装完成,如果出现红字,提⽰没有安装成功,有“time out”英⽂字眼的话,⼤概率是国外软件包地址下载不稳定,那就通过国内镜像源下载国内镜像源有很多:
此处我们采⽤第⼀个,清华的镜像源为例:
⼀般这样就好安装成功,安装后,进⼊jupyter软件,可以导⼊测试⼀下,是否安装成功
如果没有提⽰,那就代表安装成功,可以读取pdf数据了
我们⾸先读取pdf第⼀页的表格数据,具体代码及读取结果如下:
python怎么读csv数据
我们读取第⼆页pdf数据表格内容,具体代码及结果如下:
其他页码的数据同样的读取逻辑,在此不再赘述,接下来采⽤已读取的这两页内容进⾏分析
3、多页数据连接
⾄此,我们已经有两页的数据,现在将两页的数据合并在⼀起,进⾏拼接,具体代码及运⾏结果如下:
4、数据清洗和整理
数据的清洗和整理,要看我们数据分析的⽬的
此处我们的⽬的:分析“电⼦信息与电⽓⼯程学院”各专业推免、报名、录取的情况
电⼦信息与电器⼯程学院的系所码是“030”,我们查看发现,该系所码没有,仔细核对发现,是读取数据的时候没有识别出来,如下:
我们修正系所码和系所名称,具体代码及结果如下:
我们为什么只修正⼀处,因为后⾯我们想对没有数据的地⽅,从上到下⾃动填充
现在对整个数据集中空⽩的地⽅,就近从上到下⾃动填充,代码及运⾏结果如下:
⾄此,从格式上看,我们发现⽐最初导⼊的数据更规整,更符合数据处理的要求了
因为数据处理涉及到不同的数据类型,所以,我们需要查看每列数据的类型,如下:
我们发现每列都是对象的类型,但是在处理数据的过程中,我们⽤到的都是整数或者浮点数,所以需要对不同的列进⾏数据转换数据转换主要⽤到astype⽅法,具体代码如下:
再来看下各列数据类型:
选择我们需要的数据,与“电⼦信息与电⽓⼯程学院”相关,通过系所码进⾏筛选,如下:

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。