分析聊天记录(2)——分析单人的聊天记录--688IT编程网

分析聊天记录（2）——分析单⼈的聊天记录

分析聊天记录(2)——分析聊天记录

⽂章⽬录

上⼀篇说到获取到的聊天记录，这⼀篇说说对单⼈聊天记录的分析。

筛选指定聊天记录

假定我们已经获取到⼀个名为message.csv的聊天记录⽂件，我们使⽤python来筛选出指定⼈的聊天记录，存储到chat.csv⽂件中：

import pandas as pd

chat = pd.read_csv('../message.csv', sep=',')

myGirl ='wxid_xxxxxxxxx'# 指定⼈的id

chat = chat[chat['talker']== myGirl]

<_csv('../chat.csv', sep=',')

对于上述代码中的id，可以根据聊天内容和对应的talker来获取，相信⼤家都会获取。

正式进⾏分析

⾸先导⼊⼏个必须的包

import pandas as pd

import time

import seaborn as sns

import numpy as np

from matplotlib.font_manager import*#如果想在图上显⽰中⽂，需导⼊这个包

import matplotlib.pyplot as plt

from tqdm import tqdm

import re, string

np.set_printoptions(linewidth=800, suppress=False)

再导⼊chat.csv⽂件，并提取出⼏个有⽤的列信息。msg['content']是中的主要的聊天信息。msg['t

ype']表⽰该聊天信息属于哪种类型，语⾳、⽂字、图⽚、表情包还是分享链接等等。msg['createTime']表⽰该聊天信息发送的时间，单位是毫秒。msg['isSend']表⽰该聊天信息是否是你发送的，如果是，则值为1，否则为0。还有其他更多的有⽤信息，后续再补充。

chat = pd.read_csv('chat.csv', sep=',')

myGirl ='wxid_xxxxxxx'

lens =len(chat)

代码转换# lens = 100

msg_content =[None,]*lens

msg_type =[None,]*lens

msg_isSend =[None,]*lens

msg_time =[None,]*lens

for i in tqdm(range(lens)):

msg = chat[i:i +1]

msg_content[i]= msg['content'].values[0]

msg_type[i]= msg['type'].values[0]

msg_time[i]= msg['createTime'].values[0]

msg_isSend[i]=int(msg['isSend'].values[0])if msg['isSend'].values[0]in[0.,1.]else-1

在此先总结⼀下msg['type']的⼏种类型，⽬前只总结出这么多类型，后续继续补充：

编号类型

1⽂本消息，包含⼩表情

3图⽚消息，相机中的照⽚和配置有不同，从相册中发送的消息中会保留⼀个 MMAsset，如同 PAAset

34语⾳消息

42名⽚消息，名⽚和普通名⽚

47⼤表情

48位置消息

49分享消息

10000系统消息

419430449转账

-1879048186位置共享

各⾃发送信息条数

⾸先简单统计⼀下收发双⽅的信息数量。同时统计各⾃发出的⽂字总数。

msg_data = np.array([[0,0],[0,0]])

for i in tqdm(range(lens)):

if msg_isSend[i]not in[0,1]:

pass

msg_data[msg_isSend[i]][0]+=1

if msg_type[i]==1:

msg_con = msg_content[i]

msg_data[msg_isSend[i]][1]+=len(msg_con)

print(msg_data)

print(msg_data.sum(0))

labels =['接收到','发送出']

sizes = msg_data[:,0]

myfont = FontProperties(fname=r'../kaiti.TTF', size=22)# 标题字体样式

p = plt.pie(sizes, labels=labels, autopct='%1.1f%%', colors =['magenta','lightskyblue'], shadow=True, startangle=90)

for front in p[1]:

front.set_fontproperties(myfont)

plt.axis('equal')

plt.show()

效果展⽰如下：

统计聊天时间频率

⾸先定义⼏个时间转换函数

# tm_year=2016, tm_mon=11, tm_mday=27, tm_hour=10, tm_min=26, tm_sec=5, tm_wday=6, tm_yday=332, tm_isdst=0

def to_hour(t):