python数据分析知识点汇总(一)--688IT编程网

python数据分析知识点汇总（⼀）⼀、缺失值

1.缺失值的产⽣？有以下3种情况

（1）有些信息暂时⽆法获取

（2）有些信息被遗漏

（3）有些信息被错误处理

2、缺失值的处理⽅法有哪些？主要有以下3种

（1）数据补齐

（2）删除对应缺失⾏

（3）不处理

3、缺失值处理，删除对应缺失⾏⽤的是dropna()函数

dropna函数作⽤：去除数据结构中值为空的数据

dropna函数语法：dropna()

下⾯⽤⼀个例⼦说明：

先导⼊库，别名

import pandas as pd

大学python知识点汇总

import numpy as np

然后这⾥有⼀个带有缺失值的商品的数据（品牌、商品名称、商品⽑重、产地、硬盘、尺⼨）

这时候我们想要删除缺失值所在⾏，就可以⽤上⾯说的dropna()函数

⼆、空值处理

处理空值⽤的是strip()函数

strip函数作⽤：清除字符数据左右的空格

strip函数⽤法：strip()

三、字段提取

字段提取是根据已知列数据的开始和结束位置，抽取出新的列

字段截取函数: slice(start,stop)

这⾥我⽣成了3个电话号码，我想提取出这⼏串号码的某⼏个数字

因为电话号码是数值，要将数值转换成字符才能⽤str.slice()这个⽅法提取字段

四、字段拆分

字段拆分是指按照固定的字符，拆分已有字符串

字符分割函数：split(sep,n,expand=False)

参数说明：sep ⽤于分割的字符串；n 分割成⼏列；expand 是否展开为dataframe，默认为False 返回值：如果expand为True，返回dataframe；如果expand为False，则返回series

下⾯⽤例⼦说明，我⽤的是之前博⽂⾥⾯的店铺数据

我要分割price这个字段，提取出price这列的数值，观察price这⼀列可以看到，所有带有‘￥’这个符号

的都跟着价格，带有‘⼈均’这两个字的不⼀定带有价格，因此我们就根据‘￥’这个固定字符去拆分字符串，并提取出价格；

平时⽤到最多的筛选应该是字符串的模糊筛选，在pandas中⼀般使⽤ains()来实现；先是通过ains()筛选出带有'￥'这个符号的字符串，然后使⽤split()根据'￥'去分割字符串，因为价格这个数值是在最后⼀个位置，所以我提取的时候⽤了str[-1]，这⾥要注意的是从左到右0开始，从右到左-1开始。

五、记录抽取

记录抽取是根据⼀定的条件对数据进⾏抽取

记录抽取函数：dataframe[condition]

参数说明: condition 过滤的条件

返回值：dataframe

常⽤的条件类型

(1)⽐较运算：（>、<、>=、<=、!=）

例如：df[dfments>10000]

(2)范围运算 between(left,right)

例如：df[dfments.between(1000,10000)]

(3)空值匹配 pandas.isnull(column)

例如：df[pandas.isnull(df.title)]

(4)字符匹配 ains(patten,na=False)

例如：df[df.ains('台电'，na=False)]

(5)逻辑运算：与（&）、或（|）、取反（not）

例如：df[(dfments>=1000)&(dfments<=10000)]

与上⾯的范围运算（df[dfments.between(1000,10000）])等价

还是前⾯的店铺数据，我就⽤上⾯已经提取出来的价格进⾏记录抽取操作提取出价格⼤于1000的所有店铺信息

提取出价格在（1000,5000）之间的所有店铺信息，有两种⽅法：

688IT编程网

python数据分析知识点汇总(一)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

python数据分析知识点汇总(一)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式