pythondataframe纵向合并_PythonDataframe合并问题⽤Pandas读取⼀个七百万条记录的微博爬⾍⽂件,⼤⼩约1G。直接读⼊内存不⾜,于是采⽤chunksize=100000来分批读取。每个chunk的数据处理后得到count长这样:
daysCount tweetsSum
userID
1294588034 5 305
2277435630 4 284
1985258823 6 265
1886370740 7 265
... ... ...
之后我尝试把这些dataframe合并,代码如下:
count_list=[]
for chunk in data:
...
count_list.append(count)
total_count = pd.concat(count_list, axis=0)
print(total_count.sort_value(by=['tweetsSum'],ascending=False))
结果发现汇总后的数据总是⼩于真正的数据量,不管是daysCount还是tweetsSum都是。⽽且调⾼chunksize,这两个值也会提⾼。python新手代码userid
于是我猜想在concat的时候,遇到userID相同的,它只会取daysCount和tweetsSum的最⼤值,⽽不是值相加。
如果是这样的问题的话,那么该怎么合并dataframe,能让碰到userID相同的时候,让daysCount和tweetsSum相加呢?

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。