大数据视角下数字社区用户体人格画像
作者:符虔 赵海腾 赵小青 帅懿芯
来源:《贵州大学学报(自然科学版)》2023年第06期
摘 要:人格特征是人类行为的关键驱动因素,时刻影响人们的日常生活。尤其在突发公共事件情境下,这种影响机制可能更具有个体差异性。数字社区的出现使得基于用户信息行为大数据自动有效地进行用户体人格画像成为可能,但相关研究还相对较少。以Twitter用户在COVID-19疫情期间发布的相关信息和其相关信息行为记录为样本,进行用户体人格画像。首先,邀请专业心理咨询师基于自恋人格的定义和量表设定了数据标注规则并对数据集进行标注;其次,设计了13个潜在的用户行为指标,构建了Logit回归模型,并评估了模型的分类性能(分类准确率达到70.34%);再次,确定了一组与用户体自恋人格特征密切相关的信息行为指标。这组指标共有5项,具体包括:用户近三年发表的推文总数、负面情感倾向推文所占比例、推文中动词平均数、推文中话题标签平均数、推文中感叹号平均数。从而,提出了一种针对特定情境(突发公共事件)基于用户信息行为大数据分析的体人格画像的方法,为维护民众心理健康和数字社区清朗空间提供了新的思路。
关键词:数字社区;体人格;自恋人格;人格画像;Logit回归
中图分类号:TP18;B848
文献标志码:A
人格是认知、情感和行为的复杂组织,决定了人的行为模式[1]。自恋(narcissism)被认为是元心理(metapsychology)结构[2]和“黑暗人格三联征”的主要特质之一[3]。已有的研究主要关注用户的自恋人格特征(personality profiles)[4]对其在数字社区中自我表露[5]、自我展示[6]和发布自拍贴[7]的影响。然而,关于在一些特定情境下,例如突发公共事件,用户的自恋特征对其在数字社区中的信息行为的影响,以及如何根据用户的信息行为对用户体人格(group personality)[8]特征进行画像(profiling)[9],还有待进一步探索。
对于自恋人格特征相对明显的用户来说,数字社区为他们提供了一个展现自我、赢得关注和赞赏的理想“舞台”,他们借助各种数字技术来打造个人网络形象并构建其虚拟社交网络[10]。Twitter作为全球最大的数字社区之一,其日均活跃用户人数在2022年已经突破2.5亿。在COVID-19疫情期间,大量的Twitter用户发表相关推文并对他人发布的相关推文进行评论,从而提供了大量真实的数据。本文基于这些数据资源,探索在突发公共事件情境下影响用户信息行为的主要自恋人格特征以及如何借助大数据技术为用户体人格画像。
1 数据收集与标注
如图1所示,本文使用网络爬虫技术获取了COVID-19疫情期间用户在Twitter数字社区中发布的相关信
息和其信息行为记录,构建了数据集;邀请富有经验的专业咨询师设计了自恋人格特征标注规则并对数据集进行标注,然后采用Logit回归对数据集进行分析。
1.1 Twitter数据爬取
Selenium是一个自动化测试工具,可以用来模拟用户在网站上的行为。本文利用Chrome driver和Selenium模拟Twitter用户登录、浏览和搜索等行为,针对关键词、评论和用户这3个条目收集数据。
1)爬取推文
设置关键词为“COVID-19”,从Twitter搜索爬取了10 231条推文。
2)爬取评论
针对关键词爬取的10 231条推文,进一步爬取了每条推文对应的评论,共爬取到58 051条评论及对应的评论者。
3)爬取用户历史推文
对评论者去重后共得到46 075位不重复的评论者。因为发文量较少的用户所提供的信息过少以至于难以进行相关分析,所以本文從46 075人中选择发文量大于或等于5条的1 008名用户,爬取到他们的历史推文共10 373条。
1.2 数据清洗与整理
首先,清除商业营销账号。由于从Twitter获得的数据中,不可避免地会掺杂大量的商业营销账号,而商业营销账号不具备人格特征,因此本文根据Twitter商业营销的特点(比如营销账号内容包含广告、促销信息等,其链接会指向某个产品,或其语言风格会使用与品牌相关的风格来增加辨识度)对上述爬取的3组数据都进行了人工清理。其次,以评论者为“连接点”,将3个数据集整合为1个数据集。这个数据集包含推文,推文对应的评论者,以及评论者的历史推文。
1.3 数据标注
邀请3位专业心理咨询师(他们的从业时间均超过15年)浏览上述1 008名Twitter用户的历史推文后判断其人格特征,即自恋人格特征相对明显或自恋人格特征相对不明显。对于标注结果不一致的情况,3位标注者进行讨论,通过多数表决的方式来确定最终的标注结果。具体标注流程如下:
1)设定标注规则
根据Emmons[11]的定义,将自恋视为包括4个方面特征的一维结构,并基于Ames 的自恋量表[12]制定了以下标注规则:
(1)用户觉得所有人都喜欢听他/她的故事(优越/傲慢);正则匹配一个或连续多个
(2)用户觉得人们似乎总能意识到他/她的权威地位(领导/权威);
(3)用户觉得他/她比他人更能干(强势/权力);
(4)用户觉得他/她是杰出的人(自我陶醉/自我欣赏)。
当用户满足上述一个或多个条件时均被判定为自恋人格特征相对明显,并被标注为1;反之,则被视为自恋人格特征相对不明显,被标注为0。最终得到了1 008名的Twitter用户的人格标注结果,其中自恋人格特征相对明显的用户为466名,自恋人格特征相对不明显的用户为542名。
2)检测标注结果
本文使用Fleiss’ kappa系数来分析不同标注人员标注结果的一致性。Fleiss’ kappa系数分布在-1到1之间。如果Fleiss’ kappa系数<0,则说明观察一致率小于机遇一致率;如果Fleiss’ kappa系数=0,则说明结果完全由随机因素导致;如果Fleiss’ kappa系数>0,则说明研究对象之间存在一定的一致性。Fleiss’ kappa系数越接近1,一致性越大。经过计算,Fleiss’ kappa系数为0.637,表明本研究的标注结果具有较好的一致性。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论