pythoncsv数据处理将类型数据改变为数字_小练习:用python处理数据--688IT编程网

pythoncsv数据处理将类型数据改变为数字_⼩练习：⽤python

处理数据

⽆论，数据分析，数据挖掘，还是算法⼯程师，⼯作中80%的时间都⽤来处理数据，给数据打标签了。⽽⼯作中拿到的数据脏的厉害，必须经过处理才能放⼊模型中。

以下是⼀脏数据表：（表格放在最后供看官下载练习）

这张表格有多少处数据问题？⼤家对数据问题是如何定义的？不妨带着疑问阅读下⽂；

数据处理四性“完全合⼀”。

完整性

完整性：单条数据是否存在空值，统计的字段是否完善。

全⾯性：观察某⼀列的全部数值，⽐如在 Excel 表中，我们选中⼀列，可以看到该列的平均值、最⼤值、最⼩值。

平均值、最⼤值、最⼩值。我们可以通过常识来判全⾯性：

断该列是否有问题，⽐如：数据定义、单位标识、数值本⾝。

合法性：数据的类型、内容、⼤⼩的合法性。⽐如数据中存在⾮ ASCII 字符，性别存在了未知，年龄超过了 150 岁等。

合法性

唯⼀性：数据是否存在重复记录，因为数据通常来⾃不同渠道的汇总，重复的情况是常见的

唯⼀性

数据质量完整性问题：

在介绍数据清洗之前，先学会⽤python导⼊数据：

# encoding=utf-8

1完整性&空⾏

删除：观看数据分布，如果缺失数据不多，就删除数据缺失的记录；（数据少，这种⽅法就不可取；或是缺失数据⾮随机，删除就可能导致数据从正态变为⾮正态）

均值：使⽤当前列的均值；（数据正态分布⽤均值替换NA较好）

中位数：使⽤当前列的中位数；（数据分布由于异常值存在⽽不是正太分布的情况下，使⽤中位数效果⽐较好。

⾼频：使⽤当前列出现频率最⾼的数据。（容易改变数据的分布

不常⽤：0代替缺失值（对极端值，平均值影响较⼤）

相似：⽤k近邻的⽅法，寻相似值来替换缺失值；（缺失值填补的准确性就要看聚类结果的好坏了，⽽聚类变数较⼤）

拟合：如果缺失后数据符合回归趋势，那么就拟合⽅程测定缺失值；（缺失值连续，才可以使⽤回归预测，但预测⽅程出来了，反过去填缺

失值，不是显得⽩痴！

# encoding=utf-8

import pandas as pd

import numpy as np

df = pd.read_csv("C://Users//baihua//Desktop//ceshi.csv",encoding='utf-8') #这⾥要注意，如果⽂件中有中⽂，本地⽂件⼀定要转换成 UTF-8的编码格式

print(df)python怎么读csv数据

df.dropna(how='all',inplace=True) #删除空⾏

print(df)

df['Population'].fillna(df['Population'].mean(), inplace=True)#xx列缺失值⽤平均数替换

print(df)

df['Population'].fillna(df['Population'].median(), inplace=True)#xx列缺失值⽤中位数替换

print(df)

age_maxf = df['Population'].value_counts().index[0]

df['Population'].fillna(age_maxf, inplace=True)#xx列缺失值⽤出现频率最⾼的的数代替

print(df)

我们发现数据中有⼀个空⾏，除了 index 之外，全部的值都是 NaN。Pandas 的 read_csv() 并没有可选参数来忽略空⾏，可以通过dropna来删除空⾏。python内置函数使⽤：变量=操作对象.函数

2. 全⾯性

⽂末有数据集下载

#修改列名

# encoding=utf-8

import pandas as pd

import numpy as np

df = pd.read_excel("C://Users//baihua//Desktop//accountMessage.xlsx",encoding='utf-8') #这⾥要注意，如果⽂件中有中⽂，本地⽂件⼀定要转换成 UTF-8的编码格print(df)

print(df)

weight 列的数值，我们能发现 weight 列的单位不统⼀。有的单位是千克（kgs），有的单位是磅（lbs）。

这⾥我使⽤千克作为统⼀的度量单位，将磅（lbs）转化为千克（kgs）：

# encoding=utf-8

import pandas as pd

import numpy as np

df = pd.read_excel("C://Users//baihua//Desktop//accountMessage.xlsx",encoding='utf-8') #这⾥要注意，如果⽂件中有中⽂，本地⽂件⼀定要转换成 UTF-8的编码格print(df)

print(df)

# 获取 weight 数据列中单位为 lbs 的数据

rows_with_lbs = df['Weight'].ains('lbs').fillna(False)

print(df[rows_with_lbs])

# 将 lbs 转换为 kgs, 2.2lbs=1kgs

for i,lbs_row in df[rows_with_lbs].iterrows():

Weight=int(float(lbs_row['Weight'][:-3])/2.2)## 截取从头开始到倒数第三个字符之前，即去掉 lbs。

df.at[i,'Weight'] = '{}kgs'.format(Weight)

print(df)

3合法性

在数据中不难发现，姓名列（Name）包含了两个参数 Firtname 和 Lastname，我们使⽤ Python 的 split ⽅

法，str.split(expand=True)，将列表拆成新的列，再将原来的 Name 列删除。

# 切分名字，删除源数据列（切分名字实际⽣成了新列，新列会添加到最后）

df[['first_name','last_name']] = df['name'].str.split(expand=True)

df.drop('name', axis=1, inplace=True)

# 删除⾮ ASCII 字符

df['first_name'].replace({r'[^x00-x7F]+':''}, regex=True, inplace=True)

df['last_name'].replace({r'[^x00-x7F]+':''}, regex=True, inplace=True)

print(df)

4唯⼀性

我们校验⼀下数据中是否存在重复记录。如果存在重复记录，就使⽤ Pandas 提供的 drop_duplicates() 来删除重复数据。

df.drop_duplicates(['first_name','last_name'],inplace=True)

print(df)

最后做⼀个完整的数据处理练习：

# encoding=utf-8

import pandas as pd

import numpy as np

import re

df = pd.read_excel("C://Users//baihua//Desktop//kehou.xlsx",encoding='utf-8') #这⾥要注意，如果⽂件中有中⽂，本地⽂件⼀定要转换成 UTF-8的编码格式df['food']=df['food'].str.lower()

df['ounces'].fillna(df['ounces'].median(),inplace=True)

df['ounces']=df['ounces'].apply(lambda a:abs(a))#将ounces列中的负值取绝对值，lambda是匿名函数

参考⽂献：

python字符串函数

python列表函数⽅法

python元组函数⽅法

python字典函数⽅法

python集合函数⽅法

pandas中DataFrame⽤法

pandas中Series⽤法

python缺失值处理

python修改列名

对照excel学python数据处理

lambda等匿名函数

数据来源：

提取码：v18o

688IT编程网

pythoncsv数据处理将类型数据改变为数字_小练习:用python处理数据

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

688IT编程网

pythoncsv数据处理将类型数据改变为数字_小练习:用python处理数据

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林 的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

随机森林的算法