《利用Python进行数据分析第二版》-第14章数据分析示例(实战)

《利⽤Python进⾏数据分析第⼆版》-第14章数据分析⽰例（实战）前⾯的章节已经讲解了数据分析的基本操作，

接下来就通过具体的简单分析例⼦来说明前⾯基本知识的应⽤

本章原作者⽰例数据采⽤的都是美国相关数据（因为作者是外国⼈），

我会从国内的⾓度，选取中国可以看到的或者到的公开数据进⾏分析

数据分析的主要步骤：

1、从⽹上获取公开数据（此处是PDF）

2、读取PDF中表格数据

3、多页数据连接

4、数据清洗和整理

5、数据聚合和分组

6、数据绘图与可视化

7、保存绘图

接下来进⾏详细的说明

1、从⽹上获取公开数据（此处是PDF）

此处选择的数据是“上海交通⼤学研究⽣院2018年考试及录取”统计数据，

数据地址：yzb.sjtu.edu/xxgs1/lssj/wnbklqtj.htm

数据下载后命名为“2018.pdf”，⽅便后续数据读取，pdf部分内容截图如下：

2、读取PDF格式表格数据

之前章节，我们有学习读取CSV、excel等格式的数据，但是没有学习pdf，遇到问题，不放弃，寻⽅法

从百度查询，可以了解到，通过pdfplumber这个包可以处理pdf数据，我们来安装这个包：

点击如下程序：

会出现命令符式的⿊框，通过pip命令来安装pdfplumber包，如下：

等待，直到安装完成，如果出现红字，提⽰没有安装成功，有“time out”英⽂字眼的话，⼤概率是国外软件包地址下载不稳定，那就通过国内镜像源下载国内镜像源有很多：

此处我们采⽤第⼀个，清华的镜像源为例：

⼀般这样就好安装成功，安装后，进⼊jupyter软件，可以导⼊测试⼀下，是否安装成功

如果没有提⽰，那就代表安装成功，可以读取pdf数据了

我们⾸先读取pdf第⼀页的表格数据，具体代码及读取结果如下：

python怎么读csv数据

我们读取第⼆页pdf数据表格内容，具体代码及结果如下：

其他页码的数据同样的读取逻辑，在此不再赘述，接下来采⽤已读取的这两页内容进⾏分析

3、多页数据连接

⾄此，我们已经有两页的数据，现在将两页的数据合并在⼀起，进⾏拼接，具体代码及运⾏结果如下：

4、数据清洗和整理

数据的清洗和整理，要看我们数据分析的⽬的

此处我们的⽬的：分析“电⼦信息与电⽓⼯程学院”各专业推免、报名、录取的情况

电⼦信息与电器⼯程学院的系所码是“030”，我们查看发现，该系所码没有，仔细核对发现，是读取数据的时候没有识别出来，如下：

我们修正系所码和系所名称，具体代码及结果如下：

我们为什么只修正⼀处，因为后⾯我们想对没有数据的地⽅，从上到下⾃动填充

现在对整个数据集中空⽩的地⽅，就近从上到下⾃动填充，代码及运⾏结果如下：

⾄此，从格式上看，我们发现⽐最初导⼊的数据更规整，更符合数据处理的要求了

因为数据处理涉及到不同的数据类型，所以，我们需要查看每列数据的类型，如下：

我们发现每列都是对象的类型，但是在处理数据的过程中，我们⽤到的都是整数或者浮点数，所以需要对不同的列进⾏数据转换数据转换主要⽤到astype⽅法，具体代码如下：

再来看下各列数据类型：

选择我们需要的数据，与“电⼦信息与电⽓⼯程学院”相关，通过系所码进⾏筛选，如下：

688IT编程网

《利用Python进行数据分析第二版》-第14章数据分析示例(实战)_百度文...

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

《利用Python进行数据分析第二版》-第14章数据分析示例(实战)_百度文...

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则