数据清洗常用函数
数据清洗是数据分析过程中非常重要的一环。在数据清洗过程中,常常需要使用一些常用函数来处理数据。本文将介绍一些常用的数据清洗函数,包括数据类型转换、缺失值处理、去重、字符串处理等。
处理字符串的常用函数 1. 数据类型转换
1.1 astype()函数
astype()函数用于将数据类型转换为指定的数据类型。例如,将字符串类型转换为数值类型,或将数值类型转换为字符串类型。
示例代码:
df['col1'] = df['col1'].astype(float)
1.2 to_datetime()函数
to_datetime()函数用于将字符串类型的日期时间数据转换为日期时间类型。该函数支持多种日期时间格式,可以自动识别日期时间格式。
示例代码:
df['date'] = pd.to_datetime(df['date'], format='%Y-%m-%d %H:%M:%S')
2. 缺失值处理
2.1 isnull()函数
isnull()函数用于判断数据是否缺失。返回结果为True或False。
示例代码:
df['col1'].isnull()
2.2 dropna()函数
dropna()函数用于删除缺失值。该函数有多种参数可选,包括按行或按列删除、删除全部
或部分缺失值。
示例代码:
df.dropna() # 删除全部缺失值
df.dropna(subset=['col1']) # 删除col1列的缺失值
2.3 fillna()函数
fillna()函数用于填充缺失值。该函数有多种参数可选,包括按列或按行填充、填充方式等。
示例代码:
df.fillna(0) # 用0填充缺失值
df.fillna(method='ffill') # 用前面的值填充缺失值
3. 去重
3.1 drop_duplicates()函数
drop_duplicates()函数用于删除重复值。该函数有多种参数可选,包括按列或按行去重、保留哪个重复值等。
示例代码:
df.drop_duplicates() # 删除所有列的重复值
df.drop_duplicates(subset=['col1']) # 删除col1列的重复值
4. 字符串处理
4.ains()函数
ains()函数用于判断字符串是否包含某个子串。返回结果为True或False。
示例代码:
df['col1'].ains('abc')
4.place()函数
place()函数用于替换字符串中的子串。该函数有多种参数可选,包括替换哪个子串、替换成什么字符串等。
示例代码:
df['col1'].place('abc', 'def')
以上是一些常用的数据清洗函数,你可以根据不同的需求选择适合的函数进行数据处理。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论