Python使⽤panda处理CSV⽂件最近项⽬中遇到⼀些需要处理CSV⽂件的地⽅,遇到⼀些问题,因此做⼀下总结。
1. 读取CSV
import pandas as pd
# 读取CSV⽂件,指定哪些列要被读取进来
data = pd.read_csv(filePath, usecols=['a','b'])
2. 选择最后N条数据
data = data.tail(N)
'''
假如选取了最后100条数据,⾏号从100开始,那这时候索引值就会从100开始,
因为在我处理数据的过程中需要加上⼀列,索引对不上的话会出错。使⽤reset_index来重置索引
'''
3. 拼接dataframe
#在原有的数据上加上⼀列, axis = 0 竖向拼接,axis = 1 横向拼接
data = pd.concat([data, data1], axis =1)
4. 根据某⼀列的值对dataframe进⾏分组
for i, g upby(['user']):
python怎么读csv数据g = g.sort_values(by="probability")
#删除item值重复的⾏
g = g.drop_duplicates(subset='item', keep='last', inplace=False)

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。