python数据分析知识点汇总(⼀)⼀、缺失值
1.缺失值的产⽣ ?有以下3种情况
(1)有些信息暂时⽆法获取
(2)有些信息被遗漏
(3)有些信息被错误处理
2、缺失值的处理⽅法有哪些?主要有以下3种
(1)数据补齐
(2)删除对应缺失⾏
(3)不处理
3、缺失值处理,删除对应缺失⾏⽤的是dropna()函数
dropna函数作⽤:去除数据结构中值为空的数据
dropna函数语法:dropna()
下⾯⽤⼀个例⼦说明:
先导⼊库,别名
import pandas as pd
大学python知识点汇总import numpy as np
然后这⾥有⼀个带有缺失值的商品的数据(品牌、商品名称、商品⽑重、产地、硬盘、尺⼨)
这时候我们想要删除缺失值所在⾏,就可以⽤上⾯说的dropna()函数
⼆、空值处理
处理空值⽤的是strip()函数
strip函数作⽤:清除字符数据左右的空格
strip函数⽤法:strip()
三、字段提取
字段提取是根据已知列数据的开始和结束位置,抽取出新的列
字段截取函数: slice(start,stop)
这⾥我⽣成了3个电话号码,我想提取出这⼏串号码的某⼏个数字
因为电话号码是数值,要将数值转换成字符才能⽤str.slice()这个⽅法提取字段
四、字段拆分
字段拆分是指按照固定的字符,拆分已有字符串
字符分割函数:split(sep,n,expand=False)
参数说明:sep ⽤于分割的字符串;n 分割成⼏列;expand 是否展开为dataframe,默认为False 返回值:如果expand为True,返回dataframe;如果expand为False,则返回series
下⾯⽤例⼦说明,我⽤的是之前博⽂⾥⾯的店铺数据
我要分割price这个字段,提取出price这列的数值,观察price这⼀列可以看到,所有带有‘¥’这个符号
的都跟着价格,带有‘⼈均’这两个字的不⼀定带有价格,因此我们就根据‘¥’这个固定字符去拆分字符串,并提取出价格;
平时⽤到最多的筛选应该是字符串的模糊筛选,在pandas中⼀般使⽤ains()来实现;先是通过ains()筛选出带有'¥'这个符号的字符串,然后使⽤split()根据'¥'去分割字符串,因为价格这个数值是在最后⼀个位置,所以我提取的时候⽤了str[-1],这⾥要注意的是从左到右0开始,从右到左-1开始。
五、记录抽取
记录抽取是根据⼀定的条件对数据进⾏抽取
记录抽取函数:dataframe[condition]
参数说明: condition 过滤的条件
返回值:dataframe
常⽤的条件类型
(1)⽐较运算:(>、<、>=、<=、!=)
例如:df[dfments>10000]
(2)范围运算 between(left,right)
例如:df[dfments.between(1000,10000)]
(3)空值匹配 pandas.isnull(column)
例如:df[pandas.isnull(df.title)]
(4)字符匹配 ains(patten,na=False)
例如:df[df.ains('台电',na=False)]
(5)逻辑运算:与(&)、或(|)、取反(not)
例如:df[(dfments>=1000)&(dfments<=10000)]
与上⾯的范围运算 (df[dfments.between(1000,10000)])等价
还是前⾯的店铺数据,我就⽤上⾯已经提取出来的价格进⾏记录抽取操作提取出价格⼤于1000的所有店铺信息
提取出价格在(1000,5000)之间的所有店铺信息,有两种⽅法:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论