基于正则等价的虚拟学习社区角分类
泰1,曾
悦2
(1.华中师范大学教育大数据应用技术国家工程实验室,湖北武汉430079;2.华中师范大学国家数字化学习工程技术研究中心,湖北武汉430079)
[摘要]研究者们常采用传统的机器学习方法在虚拟学习社区中提取以中心性或声望为主要标准的领袖节点。这
些方法虽然简洁直观,但容易遮蔽虚拟学习社区的部分特点,忽视非领袖节点中也可能存在其他类型的“关键少数”。为了深入理解虚拟学习社区的人际关系网络,文章以某门慕课讨论区中26次讨论的86名学习者为例,采用基于正则等价的块模型方法,从中划分出4个不同角,并解释了他们在知识构建过程中发挥的作用。结果发现:可根据知识传递的关系,将学习者的角分为“导学者”“善学者”“熟练者”和“初学者”4类。
这一结果不仅表明基于正则等价的虚拟学习社区学习者角分类方法比传统机器学习分类方法(如K-means)划分出来的角更细致,更能够发现直观视野之外的“关键少数”,还给虚拟社区的教学实践带来新的启发。它启发我们:如果能对不同的角采用不同的教学策略,有可能进一步减轻社区助教的工作负荷,用更少的干预促进虚拟学习社区形成更浓厚的学习氛围。
[关键词]虚拟学习社区;角分类;块模型;正则等价;社会网络分析
[中图分类号]G434
[文献标志码]A
[作者简介]王泰(1981—),男,湖北武汉人。研究员,博士,主要从事教育数据挖掘、自然语言处理、网络心理学、内容
分发网络研究。E-mail:*****************.edu。
基金项目:2017年度国家自然科学基金青年课题“网络学习社建构知识过程中关键角的特征及其作用”(课题编号:31600918)
一尧引言
虚拟学习社区是在联结主义的启发下出现的一种学习组织,也是将社交网络与在线学习相结合的产物[1-2]。在虚拟学习社区中,不同的人对构建知识的贡献和所起的作用不尽相同[3]。如果能对不同的角采取不同的支撑策略,必将进一步促进虚拟学习社区
的繁荣与发展[4]。而要达此目的,我们需要更深一步地认识和理解虚拟学习社区中的各类角。
社会网络分析是一种用途十分广泛的网络分析方法[5]。研究者们使用社交网络中的密度、出度/入度、社图、中心性等基本属性来分析学习者的交互结构[6-7],大多将虚拟学习社区中的体划分成核心、积极和非积极三类。已有学者为了研究学习者在构建知识中的角和在虚拟社区中的地位,使用了结构洞[8]、凝聚子[9]、块模型中的结构等价[10]等方法。在这些方
法中,块模型(Block-model)是专门划分社交网络中行为人地位的方法。在块模型中,具有相同地位的行为人被划分为同一类角。所谓相同地位,是指这些行为人与其他行为人之间的联系存在等价性,在某些场合下可以互相替代,类似于行政岗位中的A、B 角。块模型方法可以依据不同的等价规则,构造出不同的分类结果。等价规则一般分为两种:结构等价和正则等价。
结构等价的定义是:如果两个行为人与所有第三人的联系都相同,就称这两个行为人结构等价。而正则等价的定义是:只要两个行为人都与某一部分行为人存在相同的联系,就可以称为正则等价。结构等价一般针对具有相似兴趣的成员,而正则等价则侧重于角的社交学概念[11]。例如,结构等价意味着某
类学习者在回答其余所有人的问题方面具有可替代性(等价),而正则等价则意味着某类学习者在回答某一部
55
分学习者的问题方面具有等价性,即使回答对象不固定亦如此。正是因为结构等价的定义比正则等价严苛,所以在小规模的、自发形成的社交网络中,很难到能够结构等价的两个节点[12-13]。像虚拟学习社区中常见的场次多但参与人数不多的讨论,用正则等价比较容易实现区分角的目标。
本文采用基于正则等价的块模型方法分析学习者在虚拟学习社区的角与地位。首先,构建学习者角分类的正则等价分析模型;其次,结合讨论文本,分析学习者之间的联系,并据此划分角;然后,比较这种角分类的结果与传统机器学习中分类算法的结果,总结基于正则等价的块模型的有效性与优势;最后,根据分析结果,提出对虚拟学习社区(如慕课)建设的启发。
二、数据与方法
(一)数据来源
本文使用的数据来源于中国大学慕课中《新媒体概论》课程(第4次开课,2016年2月29日—2016年5月5日)的课后讨论区26次讨论(一次讨论可含多个帖子,主题帖以下至最后一帖算作一次讨论),包含86名学习者的昵称和发言文本。
(二)基础理论和方法1.正则等价性
正则等价性是指具有某种社交地位的行为人与另一部分行为人之间的联系模式相同[14]。例如,在学校里,教师给学生上课,同时也受教研组指导,所以教师在这样的场景中具有相同的社交地位。尽管教师执教的班级不尽相同,各个班级的学生不同,也未必受相同的教研组指导,但在给学生上课和受教研组指导的这两种关系之下,教师的角和地位是相同的。用
数学语言描述即为:如果行为人i 和行为人j 是正则等价的,且行为人i 与某个行为人k 存在直接的联系R,则行为人j 必与某个行为人l 存在同类型的联系,而且行为人k 与行为人l 也是正则等价的。
学者们依据正则等价的结构关系,研究了把整个社交网络中的行为人分配到相应子集的方法,使得行为人的正则划分在某种程度上是最佳或最符合实际情况的,即处于同一子集的行为人几乎完全正则等价,实现这一目标的方法是禁忌搜索算法(Tabu Search)[15-16]。
2.正则等价的块模型表示
块模型常用于社交角的代数分析[17]。将正则等
价结构与块模型的构建结合,可以实现正则等价下的角划分[18]。例如,9位行为人的联系如图1所示。由于是有向图,所以其社交关系矩阵并不必然是对称阵。从分块的社交关系矩阵转化到正则等价块模型的映射矩阵需遵循密度准则:当块密度(社交关系矩阵的子矩阵中联系标记为“1”的个数在该子矩阵中元素个数的占比)大于或等于总体密度(社交关系矩阵中联系标记为“1”的个数在社交关系矩阵中元素总数的占比),定义为1-块,否则定义为0-块。在分块时,1-块与0-块的区别度尽可能大,以保证其分块的稳定性与可靠性。因此,依据分块的社交关系矩阵中元素0和1出现的疏密程度,可以得到正则等价块模型的映射矩阵,继而得到角关系图。图1中所示的角关系图提示我们:这9个行为人可以分成3类角,类别之间存在单向联
系。其性质类似于教研组长(第1类)、指导教师(第2类)、教师指导学生(第3类)。
基于正则等价的块模型记录了两种内容:一是根据正则等价性定义,由行为人到等价类的映射;二是任意两个等价类(地位)是否存在联系。
3.禁忌搜索算法(Tabu Search )
在构建基于正则等价的块模型的过程中,人们常用Tabu 算法划分出符合正则等价要求的子体。该算法
的基本要领是:依据正则等价的计算方法,计算社交网络中各学习者的正则等价性程度,得到最初的聚类解;在标记这些局部最优解后,再一步步迭代,将这些已经到的局部最优解作为下一步搜索的禁忌,跳过这些禁忌,继续搜索整个网络,最终得到整个网
图1
分块的社交关系矩阵转换为正则等价块模型的映射矩阵
56
络的聚类最优解。
如上所述,正则等价块模型会产生两种块:0-块和1-块,Batagelj 等人将划分之后实际获得的0-块和1-块与相应的理想正则等价块之间的误差和定义为Tabu 算法中正则等价的准则函数[18]。该函数在UCINET 软件中被称为代价函数,用以度量与理想正则等价块接近的程度。代价函数的值越小,表示越接近理想正则等价。Tabu 算法除了求解全局最优外,还能加快迭代求解的过程。具体过程如下:
Step1:给禁忌表赋空值作为初始值(H=Ø),并选定一个初始解X。
Step2:代价函数的值不能再小或者减小的程度
不明显时,停止计算,输出矩阵块;否则,在X 的邻域N(X)中选出一个不在H 内的候选集C(X),在C(X)中到一个使代价函数值最小的解X i ,将其赋给X,即X=X i ,更新H,保存该代价函数值,重复Step2。
Step3:在保存的代价函数值中选取与最小值对应的解,该解所表示的正则等价划分就是最优划分。
三尧结果分析
我们用邻接矩阵来表示数据集中的提问与回答,并用UCINET 绘制这种社会联系,如图2所示。一个箭头两端的节点分别表示提问(用射出的箭头表示)与回答(用射入的箭头表示)。
从图2可以看出,回答多,提问少,既提问又回答的学习者更少。该图蕴含的邻接矩阵,经过Tabu 算法的处理,生成的正则等价分块矩阵①如图3所示。
在实际分块矩阵与理想分块矩阵之间的误差最小这一准则的作用下,Tabu 算法划分出4类角,所以图3中的分块矩阵有4×4=16个子块。各块的密度见表1。由于总体密度为0.012,根据密度准则,可以写出类似图1中的映射矩阵,继而产生如图4
所示的
图2学习者联系图
图3经由Tabu 算法得到的正则等价分块矩阵②
①在获得这个结果之前,我们还尝试了应该分多少块,其代价函数所表示的距离理想分块的误差最小。尝试的结果表明,在分成3、4、5、6块时,分成4块的误差最小,各块内部学习者与理想正则等价关系最接近。
②如果列节点射出的箭头指向了某一个行节点,就在行列交叉处标1。这是一个有向的邻接矩阵。另外,由于程序设定的原因,行的节点编号用了两行数字来表示。上面一行是该编号的十位,下面一行是该编号的个位。从上往下竖着读。
57
角关系。该图中的4个节点代表4类角,箭头的含义与图2相同。箭杆宽度表示块密度,也就是两角间交流的频繁程度。交流得越多,箭杆越粗。
表1
分块密度表图4角关系图
这四类角的具体成员如下:
第1类角:1、3、4、7、8、13-17、19、21、23、25、27、59、63、83、86;
第2类角:22、26;第3类角:18;
第4类角:2、5、6、9-12、20、24、28-58、60-62、64-82、84、85。
我们可以根据图4所蕴含的关系,推测这4类角具体的内涵。
第4类角:其他角均有箭头指向它,而它却没有指向其他角的箭头。这说明这类角总是在回答其他角的提问,但自己不提问。依据这样的关系模式,可以将这类角命名为“导学者”,类似于助教在答疑解惑。
第2类角:这是唯一的一类既回答又提问的角。具体来说,以回答问题为主(射入的箭杆比射出的箭杆粗)。而提出的问题只有“导学者”回答。因此,该类角在知识构建过程中的地位接近“导学者”,可以把这类角命名为“善学者”。
第1类和第3类角都是只提问,却不回答。然而,这两个角在提问的频率和所起的作用方面却存在显著差异:第1类角提问的频率显著高于第3类(由第1类发出的箭杆都明显比第3类发出的箭杆
粗);第1类角提出的问题得到了“导学者”(第4类)和“善学者”(第2类)的回答,而第3类角提出的问题只有“导学者”(第4类)在回答。据此,我们可
以认为,第1类的角是“初学者”,而第3类的角是“熟练者”。
我们用4类角的行为人在知识构建中的贡献率p 来比较他们在学习社区中的作用。其中:
p=回答问题数+1提出问题数+1=入度+1出度+1p 表示行为人用自己的知识填补他人知识空白的程度。在其定义式中,出度和入度分别加1作为分母和分子,可以防止因分子为0或分母为0而出现大量相同的数据,可以更细致地看出贡献率的分布。尽管既不提问也不回答的学生,由上述定义式计算出的贡献率是1,但是在本文中,这些没有参与讨论的“围观”学生因没有编号而不会影响我们的研究。上述86名行为人的贡献率随角的分布如图5所示。
注:编号1、2、3、4分别表示初学、善学、熟练、导学四角
图5贡献率频数分布图
其中,初学者、善学者、熟练者和导学者的平均贡献率分别为0.037、0.33、0.75和2.53。由图5可知,尽管初学者(第1类角)分别与善学者(第2类角)和熟练者(第3类角)有少量交叠,但是各类角的分野还是比较清晰。也就是说,各类角在虚拟学习社区构建知识的过程中所发挥的作用,经过基于正则等价的块模型方法处理之后,得到了清晰的呈现。这一结果提示我们:基于正则等价的块模型划分出来的角,确实具有相当程度的实际意义。
四尧与常见的聚类算法进行对比
从效果来看,基于正则等价的块模型实际上是对参与构建知识的虚拟学习社区的节点进行了聚类。而在
常见的聚类算法中适合本研究场景的是K-means 算法。在本节中,我们先获得K-means 算法的运行结果,再比较它与上一节的结果之间的差别。
本节在具体调用Matlab 提供的K-means 函数时,所采用的数据集为学习者的出度(Outdegree)、入度(Indegree)和贡献率(p)。这些原始数据在三维散点图中就已经呈现了聚集现象。
在确定最合适的聚类数量(即k 值)时,需要用到手
1
2
3
4
10.000.050.000.0720.000.000.000.0230.000.000.000.024
0.000.000.000.0058
正则化和泛化
肘法则(Elbow Method)①。当k取值为3时,聚类最佳。
根据各组学习者行为模式(出度、入度、贡献率),我们将K-means分出的3组学习者分别命名为:高质量提问者、一般学习者和活跃答疑者,并将他们的具体成员与基于正则等价的块模型方法的划分结果一起放入图6。K-means的结果与社会网络分析中依据中心性聚类的结果一致。事实上,我们可以从图2中直接看出如下现象:回答数较多的是2号(系一位助教),引发回答多的提问者是17号、27号(由于他们提出的问题引发了较多的回答,所以我们推定他们的提问具有较高的质量,故称之为高质量提问者)。尽管K-means的聚类结果与直观感受相符,但是该结果忽视了除2号(只回答)、17/27号(只提问)以外还存在的其他两类角:既提问又回答的22号和26号,以及虽然也是只提问但频次却少很多的18号。而这些被忽视的角在第3节中都能被基于正则等价的块模型方法区分出来。
注:方框表示K-means算法结果,圆与椭圆表示正则等价块模型的划分结果
图6结果对比图
为了更精确地比较这两种分类结果的差别,我们引入了Jaccard相似度。在数学中,集合之间的Jaccard相似度等于交集大小与并集大小的比例。Jaccard相似度的值越小,两个集合的差别越大。K-means与基于正则等价的块模型方法的划分结果的相似程度见表2。
表2两种算法划分结果的相似程度
由表2可以看出,除一般学习者与导学者较为相近外,其他类别的差别都较大,相似程度不超过20%。该表再次说明K-means划分角的能力比较有限,只能挖掘出行为频次较为突出的学习者,而不能像正则等价块模型那样刻画不同角之间信息交流的方向(即学习社区中提问与回答)。而信息交流的方向恰恰能体现学习者在学习社区中的地位、在知识建构过程中所起的作用与角。
五尧总结
通过正则等价的块模型,我们发现虚拟学习社区的学习者在知识构建的过程中自发地形成了若干不同的角。他们在交流讨论、知识传递的过程中表现出了不同的特征。“导学者
”在学习交流中起着类似助
教的作用,用自己的知识填补他人知识结构的空白。
“善学者”和“熟练者”不仅提出问题,还主动思考、帮
助他人。尽管二者在提问与回答两种行为的频次方面
存在显著差别,但都发挥了传递知识的“经纪人”作
用。这种兼提问和回答二者于一身的角,虽然人数
不多,但起到了穿针引线、活跃交流气氛、缩短学习者
之间社交距离的纽带作用。“初学者”虽然没有回答问
题,但正因问题是由他们提出的,其他角才有机会
发挥作用。从哲学角度来看,“初学者”角与其他角
“对立统一”于虚拟学习社区之中。
上述研究结论给虚拟学习社区的组织带来了如
下启发:(1)除了助教以外,还存在许多愿意贡献知识
的导学者,如果能以适当的方式鼓励在他们之中成立
“助教团”,就可以缩短其他提问者等待回答的平均时
间。(2)在划分学习小组时,“善学者”和“熟练者”值得
更多关注,他们是保持与活跃学习气氛的“关键少
数”。如果这些人能够成为小组学习活动的召集人或
者组织者,可能会比随机分组的效果更好。
限于篇幅,我们仅举两个例子印证上述启发,在
某种程度上也可以视为是对当事人进行的回溯式访
谈。一个例子是被划为“善学者”的22号学生(网名
“m182********”)。这名学生在回答“旧媒体或者传
统媒体是什么?”的讨论题时,是唯一的一个把“幻灯
片”也列入传统媒体的学生,反映了其视野的开阔和
思维的灵活。同时,这名学生还比较早地(作者注:
2016年3月)提出了一个颇具前瞻性的问题,大意
是:新媒体(作者注:他所指的新媒体可能主要指自媒
体)的出现推动了整个社会的发展,却没有应用到教
育教学中(作者注:现在已经应用到教学中了)。另一导学者熟练者善学者初学者
活跃答疑者1/64=1.6%000
一般学习者63/84=75%1/83=1.2%2/83=2.4%17/85=20%
高质量提问者0002/19=10.5%
①随着k的增大,样本划分会越来越细,每个簇的聚合程度会逐渐提高,误差平方和(Sum of Squared Errors,SSE)便会逐渐变小。当
k小于最佳聚类数时,k增大则SSE大幅下降;当k超过最佳聚类数时,k增加所引发的SSE降幅会迅速变小,趋于平缓。因此,SSE
和k的关系曲线类似于手肘,而肘部对应的k值即为最佳聚类数。
59

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。