基于网络爬虫和社会网络分析的哔哩哔哩用户关注行为研究
嵌入式比较好的公司作者:***
来源:《计算机应用文摘》2022年第15期
        摘要:文章利用网络爬虫,通过“滚雪球”的方法在哔哩哔哩爬取了42位百万粉丝以上的up主的关注列表,经提取和整理,将其绘制成42x42的up主关注矩阵,并利用社会网络分析法和Ucinet软件对其进行了密度和意见领袖分析。
        关键词:网络爬虫;社会网络分析;意见领袖;哔哩哔哩
        中图法分类号:G25文献标识码:A
        Research on user attention behavior of bilibili based onWeb crawler and social network analysis
        GAO Yue
        (College of Information Management, Nanjing Agricultural University,Nanjing 210095,China)
vb程序设计简单例题        Abstract:This paper uses the Web crawler to climb the attention list of 42 up masters with more than one million fans on bilibili official website through the “snowball” method. After extraction and sorting, it is drawn into a 42x42 up master attention matrix, and its density and opinion leader are analyzed by using social network analysis method and Ucinet software.
        Key words: Web crawler, social network analysis, opinion leaders, bilibili
        哔哩哔哩( bilibili)简称 B 站,创建于2009年6月,是当下最受欢迎的弹幕网站,其主要面向中国年轻一代,并将其核心用户体定义为 Generation Z ( Z 世代),即1995~2009年出生的一代,也指喜欢玩乐、喜欢学习和喜欢分享生活的年轻一代。起初,哔哩哔哩主打动漫二次元分化和视频分享,近年来,逐渐发展成集动漫、视频、游戏、直播等于一体的综合性网站。2018年末,其被 QuestMobile 研究院评为了“Z 世代偏爱 APP”和“Z 世代偏好泛娱乐 APP ”的首位,可见哔哩哔哩已经成为中国青年一代喜爱的一个高度集中
的文化社和视频平台。哔哩哔哩用户可分为 up 主用户和普通用户,其主要是基于关注、点赞、投币、收藏、评论和分享等关系构建社会网络,用户通过对 up 主投递的视频进行观看、点赞、投币、收藏和分享等行为进行传播,也可以通过评论与 up 主或其他用户进行交流。因此,关注数多的 up 主也会像微博“黄 V “红 V 的用户一样具有名人效应。同时,根据哔哩哔哩于2020年8月27日发布的“2020年第二季度财报(2020Q2财报)显示,其月活跃用户数已上亿,其中移动端占了绝对的比重,日活跃用户数达到五千万以上,平均用户年龄为21.5岁。由此可知,哔哩哔哩用户所产生的信息量是十分巨大的,且对年轻人具有很大的影响力,如何高效、快速的获取有价值的内容以及发现具有名人效应的用户是值得探究的。因此,本文从用户的关注行为出发,利用网络爬虫,通过“滚雪球”的方式爬取了 up 主的关注列表,并选取了42位100万粉丝数以上的 up 主,利用社会网络分析法对他们的互关注情况进行了密度和意见领袖分析。
        1相关概念
        1.1网络爬虫
        网络爬虫,也就是所谓的“网络蜘蛛”或“Web 机器人”,是一种能够根据特定的规律,
自动获取网络上的信息的一种程序或脚本,是网络信息收集的基础[1],是目前搜索引擎和大数据分析的技术基础,其爬取内容主要包括网络上的文本、图片、音频等数据。根据网络爬虫的体系结构及实现技术,可以把爬虫划分为一般型、聚焦型、增量型和 Deep Web 型[2]。网络爬虫的基本结构包括:(1)爬虫调度。它启动、执行、停止和监控爬虫的运行;(2)爬虫核心模块。主要包括 URL 管理器、网页下载器、网页分析器3个部分, URL 管理器用于管理正在等待爬行的 URL,网页下载者负责下载与 URL 相关的网页,网页分析器则负责分析网页中有价值的数据,或者将网页中的 URL 解析并添加到 URL 管理器中;(3)有价值的资料存储。本系统不但对网络爬行器进行了详细描述,同时对其工作流程进行了详细阐述。
        1.2社会网络分析
        社会网络是指社会行动者及他们之间关系的集合,是由多个节点(社会行动者)和各个节点(关系)之间的连线所组成的集合[3]。在本文中,up 主就是节点,up 主之间是否存在关注与被关注就是节点之间的连线,由 up 主和他们之间的关注情况构成本次研究的社会网络。
爬虫软件 app
        社会网络分析是一种用图论工具来分析社会关系结构和性质的一系列标准与方法,体成员之间的关系网络被概念化为代表成员的节点之间的连接网络[4],经常表现为社图的形式。其分析内容有很多,本文主要对其包含的以下内容进行分析。
        密度是衡量个体与社中其他个体之间联系程度的指标,通过测量社密度可以确定一个社是否由相互作用形成。在一个社分析中,密度可以用来判断一个社关系是否紧密。舍曲林刚吃会难受几天
        中心性是衡量参与者在自己的社交网络中的核心地位和影响力的一个评价指标,反映的是他们在社交网络中的位置和影响传播能力的不同。在一个社分析中,中心度可以判断出一个社中处于核心地位的行动者。
        结构洞是一种通过三个行为體的关系而获得“信息利益”与“控制利益”的特定结构,因而在结构洞位置上的行为体比在社交网络中其他地方的行为体更有竞争力。在一个社的社会网络分析中,结构洞可以和中心度一起分析社中的意见领袖。
        2数据获取与处理
        2.1数据获取
        本文的数据来源于哔哩哔哩,利用网络爬虫,通过“滚雪球”的抽样方法爬取了百万粉丝以上的 up 主关注列表,即随机爬取一位关注人数在100万以上的 up 主所关注的用户及其关注用户的粉丝数和关注列表,观察其关注用户,经筛选保存粉丝数在100万以上 up 主的获取数据,得到第一组数据;然后从该组数据中再随机抽取一位关注人数在100万以上的 up 主重复上述过程。为了便于分析,本文最初拟定爬取够40位百万粉丝以上的 up 主关注情况,经过上述方法,最终爬取了42位百万粉丝以上的 up 主关注列表。其中,爬取数据以“被关注者名称”“关注者名称”“关注者粉丝数”的形式保存至 Excle 文档中,共爬取8631条数据,经去重与筛选后,剩余2581条数据。
        2.2数据处理
        通过对最终保存的2581条数据进行提取和整理后,将42位 up 主的互关注情况统计为42×42的 Excle 矩阵形式。其中,矩阵的行代表被关注者,列代表关注者,矩阵中的元素代表关注情况,即如果某一位 up 主被另一位 up 主所关注,则对应行列的矩阵元素值取1,否则取0。
        3结果分析与讨论
properties of undefined        本节主要通过使用社会网络分析软件— Ucinet,对所获取的42×42的二值矩阵进行密度、意见领袖及小团体分析。在进行上述分析之前,首先将42×42的二值矩阵导入进社会网络分析软件 Ucinet 中,然后利用 Ucinet 的可视化绘图软件工具 Netdraw 绘制出该矩阵社内交流网络的社图,其中箭头指向的方向是由关注者指向被关注者,双箭头表示两人是互相关注的状态。社图显示,该社会网络中没有孤立点,所有人都存在关注与被关注关系,即社会网络成员之间关系较为紧密,而且“老番茄”“中国 boy 超级大猩猩”“小潮院长”等人更是处于该图的核心位置,且拥有很多的关注者,有可能为该社会网络的意见领袖,但仍需进行后续研究分析。
        3.1密度分析
        首先,使用 Ucinet 软件,选择“变换→转换→ Maximum”路径对42×42的二值矩阵进行对称化处理,以便后续研究分析。然后选择“网络→凝聚力→密度→密度”路径对由42位 up 主组成社会网络进行密度分析,得出该社会网络密度为0.3171。在社会网络分析之中,密度的取值范围为[0,1],值越接近1则代表社会网络中的行动者彼此间关系越紧密,但在实查附近的律师事务所
际网络中能得出的最大网络密度为0.5[5]。相较之下,本文所研究的社会网络成员之间的关系紧密。
        3.2意见领袖分析
        在网络环境中,意见领袖是社会网络中传播信息的桥梁,具有一定的影响力。在社交网络中,通常处于中间位置的行为主体为观点领导者,而处于结构空穴状态的行为主体,因其在社会网络中能在信息传递过程中获取信息利益和控制利益,具有成为意见领袖的优势。所以,在社交网络中,对网络中的节点进行中心分析和结构洞分析即可。
        3.2.1中心性分析
        关于社会网络中节点中心性的度量,共有三个度量指标:点度中心度、中介中心度和接近中心度,在本文中,仅采取点度中心度和中介中心度进行分析。
        点度中心度用来衡量社交网络中参与者和其他参与者之间的联系数目,以描述各个参与者在社交网络中的位置中心指标,进而衡量出每个行动者在社会网络中的地位。点度中心度的值越大,行动者就越处于社会网络的核心地位。在 Ucinet 软件中,选择“网络→中
心度→度”路径对42×42的对称矩阵进行点度中心度分析可知,本文所研究的社会网络中点度中心度值排在前五位的成员分别为“中国 boy 超级大猩猩”“老番茄”“某幻君”“小潮院长”和“逍遥散人”。其中,“中国 boy 超级大猩猩”的点度中心度值为28.000,是社会网络成员中最高的,排在第一位,“老番茄”以25.000位居第二位,其余三人均以22.000并列第三。所以,通过点度中心度分析可知,“中国 boy 超级大猩猩”处于该社会网络的核心位置,“老番茄”“某幻君”“小潮院长”和“逍遥散人”处于较中心的位置。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。