python实现数据分析与建模--688IT编程网

python实现数据分析与建模

前⾔

⾸先我们做数据分析，想要得出最科学，最真实的结论，必须要有好的数据。⽽实际上我们⼀般⾯对的的都是复杂，多变的数据，所以必须要有强⼤的数据处理能⼒，接下来，我从我们⾯临的最真实的情况，⼀步⼀步教会⼤家怎么做。

1.数据的读取

（1）读取模块

Import pandas as pd

Import numpy as np

（2）读取表格的全部数据

df = pd.read_csv(".data/HR.csv")

（3）读取你所需要的数据

sl_s=df["sactisfaction_level"]

2. 数据的处理

2.1.异常值（空值）处理

2.1.1删除

⾸先，第⼀步是对空值的处理。

有两种，⼀种直接删除，另⼀种指代。

如果数据多，想简单⼀点，就直接删除，⽅法都很简单。

⾸先，建⽴⼀个DataFrame表

1.为了确定是否含有空值：

df.isnull() #如果含有空值，返回True

2.删除

df.dropna() #去掉含空值的⾏

如果想要删除某⼀个属性含空值的⾏就加⼊subset参数

df.dropna(subset=["B"]) #去掉B属性含空值的⾏

判断是否有重复的数据：

df.duplicated(["A"]) #A属性中重复的数据返回True

删除A属性重复的⾏

df.drop_duplicates(["A"])

df.drop_duplicates(["A"],keep=False) #删除A属性全部重复的⾏

df.drop_duplicates(["A"],keep=first) #删除A属性全部重复的⾏，保留第⼀个

df.drop_duplicates(["A"],keep=last) #删除A属性全部重复的⾏，保留最后⼀个

2.1.2指代

有些数据⾮常重要，不能删除，那我们就选择指代，也就是替换

#含空值的数据被替换为“b*”

df.fillna("b*")

#E属性中的含空值的数据被替换成该属性的平均值

df.fillna(df["E"].mean())

#插值替换

如果含空值的元素为最后⼀个，那么空值的数据替换成和上⼀个数据⼀样

如何含空值的元素为中间，那么空值的数据被（上+下）/2代替

df["E"].interpolate()

#3次样条插值 order 参数就是⼏次样条插值

df["E"].interpolate(method="spline",order=3)

*函数python怎么读csv数据

（4）异常值分析（含有就返回True） --isnull()

sl_s.isnull()

主要表⽰没有空值

（5）提取异常值的该属性信息

sl_s[sl_s.isnull()]

（6）提取异常值的表格全部信息

df[df["sactisfaction_level"].isnull()]

（7）丢弃异常值 --dropna()

sl_s=sl_s.dropna()

注：删除为空的异常值

可以利⽤where()把异常数据赋空，然后利⽤dropna()删除

（8）填充异常值 --fillna()

sl_s=sl_s.fillna()

（9）平均值 --mean()

an()

（10）标准差 --std()

Sl_s.std()

（11）最⼤值 --max()

sl_s.max()

（12）最⼩值 --min()

sl_s.min()

（13）中位数 --median()

dian()

（14）下四分位数 --quantile(q=0.25)

sl_s.quantile(q=0.25)

（15）上四分位数 --quantile(q=0.75)

sl_s.quantile(q=0.75)

（16）偏度 --skew()

sl_s.skew()

分析：⼩于0 是负偏均值偏⼩，⼤部分数是⽐他的均值⼤的

⼤于 0 稍微有些振偏

远⼤于0，是极度振偏，均值要⽐他的⼤多数值⼤好多。

（17）峰度 --kurt()

sl_s.kurt()

分析：<0 相⽐于正态分布，他的趋势相对平缓

远⼤于0 说明他的形变是⾮常⼤的，所以是不靠谱的

（18）获得离散化的分布(numpy模块) --histogram()

np.histogram(sl_s.values,bins = np.arange(0.0,1.1,0.1))

结果分析：

[195,1214,532,974,…]

[0.0,0.1,0.2,0.3,0.4…]

代表0.0-0.1之间有195个数，0.1-0.2之间有1214个数，以此类推

分布间隔为0.1

3.利⽤四分位数来去除异常值

3.1.提取⼤于1的值

le_s[le_s>1]

3.2 去除⼤于1的异常值

le_s[le_s<=1]

3.3 提取正常值（利⽤四分位数）

3.3.1 下四分位

q_low=le_s.quantile(q =0.25)

3.3.2 上四分位

q_high=le_s.quantile(q=0.75)

3.3.3 四分位间距

q_interval=q_high-q_low

3.3.4 定义k的值

K=1.5~3之间

如果k=1.5，删除的异常值是中度异常

如果k=3.0，删除的异常值是极度异常

3.3.5 筛选

le_s=le_s[le_s<q_high+k*q_interval][le_s>q_low-k*q_interval]

3.4 数据的个数 --len()

len(le_s)

3.5离散分布直⽅图(numpy模块)

np.histogram(le_s.values,bins=np.arange(0.0,1.1,0.1))

3.6回顾数据的平均值，标准差，中位数，最⼤值，最⼩值，偏度，峰度，确定数据的正常。

4.静态结构分析

4.1每个值出现的次数 --values_counts()

np_s.value_counts()

4.2获取该数据的构成和⽐例(每个值的频率)

np_s.value_counts(normalize=True)

4.3 排序

np_s.value_counts(normalize=True).sort_index()

5.数据分区间

5.1把数据分成⼏份 --histogram（）

np.histogram(amh_s.values,bins=10) 把数据分成10份

5.2另⼀种⽅法加了区间，计算区间的频数

(左闭右开的区间)

Np.histogram(amh_s.values,bins = np.arange(amh_s.min(),amh_s.max()+10,10))

（左开右闭的区间）

amh_s.value_counts(bins=np.arange (amh_s.min(),amh_s.max()+10,10))

6.英⽂异常值数据的处理

6.1 ⾸先，统计该数据的分布频数

s_s.value_counts()

6.2确定异常值的名字。

6.3把异常值赋空(NaN) --where()

s_s.where(s_s!="name")

意思是把”name”的数据赋空

6.4把赋空的异常值删除 --dropna()删除异常值

s_s.where(s_s!="name").dropna()

6.5 检查删除异常值的结果

s_s.where(s_s!="name").dropna().value_counts()

7.对⽐分析

7.1对表格中空值的⾏删除

Df = df.dropna(axis=0,how='any')

axis =0 ，代表的是⾏删除

how=‘any' 代表的是含有部分空值就执⾏⾏删除

how=‘all' 代表的是⼀⾏全部是空值执⾏⾏删除

7.2含有条件性的对异常值的删除

df=df[df["last_evaluation"]<=1] [df["salary"]!="name"][df["department" ]!="sale"]

7.3分组(⽐如：把同⼀部门的⼈分为⼀组) --groupby()

7.4对分组后的组取均值

7.5 取部分数据（切⽚） --loc()

df.loc[:,["last_evaluation","department"]] .groupby("department")

7.6 取部分数据求平均

df.loc[:,["last_evaluation","department"]] .groupby("department").mean()

7.7 取部分数据求极差 --apply()

df.loc[:,["average_monthly_hours" ,"department"]].groupby ("department")[ "average_monthly_hours"]. apply(lambda x:x.max()-x.min())

总结

以上所述是⼩编给⼤家介绍的python实现数据分析与建模，希望对⼤家有所帮助，如果⼤家有任何疑问请给我留⾔，⼩编会及时回复⼤家的。在此也⾮常感谢⼤家对⽹站的⽀持！

如果你觉得本⽂对你有帮助，欢迎转载，烦请注明出处，谢谢！

688IT编程网

python实现数据分析与建模

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

python实现数据分析与建模

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则