python数据清洗实例
企业处理数据是一种常见的日常工作,但它不容易。在过去的几年中,这项工作变得更加复杂,因为传入数据变得越来越复杂,变化也越来越快。要从各种不同的数据源中提取信息,并将其整理为清洗过的、可以用于更好的分析的数据,就需要我们使用python来完成。以下是用python完成数据清洗任务的实用实例:
* 首先,可以使用pandas库读取数据源:
```Python
import pandas as pd
# 读取csv文件
df = pd.read_csv('Data.csv')
# 读取excel文件
df = pd.read_excel('Data.xls')
# 读取关系数据库
from sqlalchemy import *
engine = create_engine('mssql+pyodbc://username:x.xxx:1433/Database?driver=SQL Server')
sql = 'SELECT * FROM TableName'
df = pd.read_sql(sql, engine)
```
* 接下来,可以使用pandas.DataFrame.describe()方法检查数据:
```Python
df.describe()
```
* 接下来,可以使用pandas.DataFrame.isnull()方法检查缺失的数据:
```Python
python怎么读取xls文件df.isnull()  # 检查df里的数据是否为空
```
* 然后,可以使用pandas.DataFrame.fillna()方法将缺失的数据填充上:
```Python
# 用0填充每一行缺失的数据
df = df.fillna(0)
# 将每一行缺失值(NaN)用中位数填充
df = df.dian())
```
* 最后,使用pandas.DataFrame.drop_duplicates()方法来去除重复行:
```Python
# 删除重复行
df = df.drop_duplicates()
```

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。