使⽤pandas对两个dataframe进⾏join的实例
需求:
两个⽂件,⼀个⽂件为统计报表,⾥⾯含有⼿机号,另⼀个⽂件为⼿机号段归属地,含有⼿机号码前七位对应的地区。需要对统计报表进⾏处理,将⼿机号所在的归属地加⼊到统计报表中,使⽤pandas提供的join功能来实现,代码如下:
#coding=utf-8
from pandas import Series,DataFrame
import pandas as pd
#reader1 = pd.read_csv('',iterator=True,encoding="gb2312")
#df1 = _chunk(10)
django项目实例#reader2 = pd.read_csv('201604.csv',iterator=True,encoding="gb2312")
#df2 = _chunk(10)
#读取两个csv⽂件,⽣成dataframe
df1 = pd.read_csv('Dm_Mobile.csv',encoding="gb2312")
df2 = pd.read_csv('201604.csv',encoding="gb2312")
#截取⼿机号前七位,作为新列添加到dataframe
df2['p7s'] = Series([str(x)[:7] for x in Series(df2[u'⼿机号'])])
df2['p7i'] = df2['p7s'].astype("int64")
#在两个dataframe的⼿机前七位列上创建索引
index_df1 = df1.set_index('MobileNumber')
index_df2 = df2.set_index(['p7i'])
#以⼿机号前七位列为join列,对两个dataframe进⾏join
result = pd.concat([index_df1, index_df2], axis=1, join='inner')
#选取需要显⽰的列,重新⽣成result
result = index(columns=[u'积分商城订单号', u'⼿机号',u'产品编码',u'商品名称',u'商品价格',u'数量',u'虚拟码',u'消费时间',u'时间',u'兑换渠道商',u'MobileArea']) #写⼊到excel⽂件中
writer = pd.ExcelWriter('pandas_simple.xlsx')
<_excel(writer, sheet_name=u'设计院',index=False)
writer.save()
以上这篇使⽤pandas对两个dataframe进⾏join的实例就是⼩编分享给⼤家的全部内容了,希望能给⼤家⼀个参考,也希望⼤家多
多⽀持。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。