最复杂最长的python代码_8个数据清洗Python代码,复制可
⽤,最长11⾏
最近,⼤数据⼯程师Kin Lim Lee在Medium上发表了⼀篇⽂章,介绍了8个⽤于数据清洗的Python代码。
数据清洗,是进⾏数据分析和使⽤数据训练模型的必经之路,也是最耗费数据科学家/程序员精⼒的地⽅。
这些⽤于数据清洗的代码有两个优点:⼀是由函数编写⽽成,不⽤改参数就可以直接使⽤。
⼆是⾮常简单,加上注释最长的也不过11⾏。
在介绍每⼀段代码时,Lee都给出了⽤途,也在代码中也给出注释。 ⼤家可以把这篇⽂章收藏起来,当做⼯具箱使⽤。
涵盖8⼤场景的数据清洗代码这些数据清洗代码,⼀共涵盖8个场景,分别是: 删除多列、更改数据类型、将分类变量转换为数字变量、检查缺失数据、删除列中的字符串、删除列中的空格、⽤字符串连接两列(带条件)、转换时间戳(从字符串到⽇期时间格式)删除多列
在进⾏数据分析时,并⾮所有的列都有⽤,⽤df.drop可以⽅便地删除你指定的列。
def drop_multiple_col(col_names_list, df):
AIM -> Drop multiple columns based on their column names
INPUT -> List of column names, df
OUTPUT -> updated df with dropped columns
------
df.drop(col_names_list, axis=1, inplace=True)
return df转换数据类型
当数据集变⼤时,需要转换数据类型来节省内存。
def change_dtypes(col_int, col_float, df):
AIM -> Changing dtypes to save memory
INPUT -> List of column names (int, float), df
OUTPUT -> updated df with smaller memory
------
df[col_int] = df[col_int].astype( int32 )
df[col_float] = df[col_float].astype( float32 )
将分类变量转换为数值变量
⼀些机器学习模型要求变量采⽤数值格式。这需要先将分类变量转换为数值变量。同时,你也可以保留分类变量,以便进⾏数据可视化。
def convert_cat2num(df):
# Convert categorical variable to numerical variable
num_encode = { col_1 : { YES :1, NO :0},
col_2 : { WON :1, LOSE :0, DRAW :0}}
如果你要检查每列缺失数据的数量,使⽤下列代码是最快的⽅法。可以让你更好地了解哪些列缺失的数据更多,从⽽确定怎么进⾏下⼀步的数据清洗和分析操作。
def check_missing_data(df):
# check for any missing data in the df (display in descending order)
return df.isnull().sum().sort_values(ascending=False)删除列中的字符串
有时候,会有新的字符或者其他奇怪的符号出现在字符串列中,这可以使⽤df[‘col_1’].replace很简单地把它们处理掉。
def remove_col_str(df):
# remove a portion of string in a dataframe column - col_1
df[ col_1 ].replace(, , regex=True, inplace=True)
# remove all the characters after (including ) for column - col_1
df[ col_1 ].replace( .* , , regex=True, inplace=True)删除列中的空格
数据混乱的时候,什么情况都有可能发⽣。字符串开头经常会有⼀些空格。在删除列中字符串开头的空格时,下⾯的代码⾮常有⽤。
def remove_col_white_space(df):
# remove white space at the beginning of string
df[col] = df[col].str.lstrip()⽤字符串连接两列(带条件)
当你想要有条件地⽤字符串将两列连接在⼀起时,这段代码很有帮助。⽐如,你可以在第⼀列结尾处设定某些字母,然后⽤它们与第⼆列连接在⼀起。 根据需要,结尾处的字母也可以在连接完成后删除。
def concat_col_str_condition(df):
# concat 2 columns with strings if the last 3 letters of the first column are pil
mask = df[ col_1 ].dswith( pil , na=False)
python代码转换col_new = df[mask][ col_1 ] + df[mask][ col_2 ]
place( pil , , regex=True, inplace=True) # replace the pil with emtpy space转换时间戳(从字符串到⽇期时间格式)
在处理时间序列数据时,我们很可能会遇到字符串格式的时间戳列。 这意味着要将字符串格式转换为⽇期时间格式(或者其他根据我们的需求指定的格式) ,以便对数据进⾏有意义的分析。
def convert_str_datetime(df):
AIM -> Convert datetime(String) to datetime(format we want)
INPUT -> df
OUTPUT -> updated df with new datetime format
------
df.insert(loc=2, column= timestamp , _ansdate, format= %Y-%m-%d %H:%M:%S.%f ))
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论