最复杂最长的python代码_8个数据清洗Python代码,复制可用,最长11行

最复杂最长的python代码_8个数据清洗Python代码，复制可

⽤，最长11⾏

最近，⼤数据⼯程师Kin Lim Lee在Medium上发表了⼀篇⽂章，介绍了8个⽤于数据清洗的Python代码。

数据清洗，是进⾏数据分析和使⽤数据训练模型的必经之路，也是最耗费数据科学家/程序员精⼒的地⽅。

这些⽤于数据清洗的代码有两个优点：⼀是由函数编写⽽成，不⽤改参数就可以直接使⽤。

⼆是⾮常简单，加上注释最长的也不过11⾏。

在介绍每⼀段代码时，Lee都给出了⽤途，也在代码中也给出注释。⼤家可以把这篇⽂章收藏起来，当做⼯具箱使⽤。

涵盖8⼤场景的数据清洗代码这些数据清洗代码，⼀共涵盖8个场景，分别是：删除多列、更改数据类型、将分类变量转换为数字变量、检查缺失数据、删除列中的字符串、删除列中的空格、⽤字符串连接两列(带条件)、转换时间戳(从字符串到⽇期时间格式)删除多列

在进⾏数据分析时，并⾮所有的列都有⽤，⽤df.drop可以⽅便地删除你指定的列。

def drop_multiple_col(col_names_list, df):

AIM -> Drop multiple columns based on their column names

INPUT -> List of column names, df

OUTPUT -> updated df with dropped columns

------

df.drop(col_names_list, axis=1, inplace=True)

return df转换数据类型

当数据集变⼤时，需要转换数据类型来节省内存。

def change_dtypes(col_int, col_float, df):

AIM -> Changing dtypes to save memory

INPUT -> List of column names (int, float), df

OUTPUT -> updated df with smaller memory

------

df[col_int] = df[col_int].astype( int32 )

df[col_float] = df[col_float].astype( float32 )

将分类变量转换为数值变量

⼀些机器学习模型要求变量采⽤数值格式。这需要先将分类变量转换为数值变量。同时，你也可以保留分类变量，以便进⾏数据可视化。

def convert_cat2num(df):

# Convert categorical variable to numerical variable

num_encode = { col_1 : { YES :1, NO :0},

col_2 : { WON :1, LOSE :0, DRAW :0}}

如果你要检查每列缺失数据的数量，使⽤下列代码是最快的⽅法。可以让你更好地了解哪些列缺失的数据更多，从⽽确定怎么进⾏下⼀步的数据清洗和分析操作。

def check_missing_data(df):

# check for any missing data in the df (display in descending order)

return df.isnull().sum().sort_values(ascending=False)删除列中的字符串

有时候，会有新的字符或者其他奇怪的符号出现在字符串列中，这可以使⽤df[‘col_1’].replace很简单地把它们处理掉。

def remove_col_str(df):

# remove a portion of string in a dataframe column - col_1

df[ col_1 ].replace(, , regex=True, inplace=True)

# remove all the characters after (including ) for column - col_1

df[ col_1 ].replace( .* , , regex=True, inplace=True)删除列中的空格

数据混乱的时候，什么情况都有可能发⽣。字符串开头经常会有⼀些空格。在删除列中字符串开头的空格时，下⾯的代码⾮常有⽤。

def remove_col_white_space(df):

# remove white space at the beginning of string

df[col] = df[col].str.lstrip()⽤字符串连接两列(带条件)

当你想要有条件地⽤字符串将两列连接在⼀起时，这段代码很有帮助。⽐如，你可以在第⼀列结尾处设定某些字母，然后⽤它们与第⼆列连接在⼀起。根据需要，结尾处的字母也可以在连接完成后删除。

def concat_col_str_condition(df):

# concat 2 columns with strings if the last 3 letters of the first column are pil

mask = df[ col_1 ].dswith( pil , na=False)

python代码转换col_new = df[mask][ col_1 ] + df[mask][ col_2 ]

place( pil , , regex=True, inplace=True) # replace the pil with emtpy space转换时间戳(从字符串到⽇期时间格式)

在处理时间序列数据时，我们很可能会遇到字符串格式的时间戳列。这意味着要将字符串格式转换为⽇期时间格式(或者其他根据我们的需求指定的格式) ，以便对数据进⾏有意义的分析。

def convert_str_datetime(df):

AIM -> Convert datetime(String) to datetime(format we want)

INPUT -> df

OUTPUT -> updated df with new datetime format

------

df.insert(loc=2, column= timestamp , _ansdate, format= %Y-%m-%d %H:%M:%S.%f ))

688IT编程网

最复杂最长的python代码_8个数据清洗Python代码,复制可用,最长11行_百 ...

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

最复杂最长的python代码_8个数据清洗Python代码,复制可用,最长11行_百 ...

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式