文档查重系统研究与实现
徐小桐,王法胜
(大连民族大学信息与通信工程学院,辽宁大连116600)
摘要:在当下大数据的时代,引用和抄袭现象越来越严重,为了维护原创作业的权益,也为了培养学生独立思考的能力,该文设计了文档查重系统。该系统采用MVC模式,基于B/S架构,将MD5算法和SimHash算法结合,用于高校学生作业文档查重。系统共建有学生、老师、管理员三个端口。学生将作业文档上传,老师对作业进行查重评分,管理员统筹管理学生、老师和课程信息。该系统有效解决了目前因为查重平台收费而无法实现高校学生平时作业查重的现状。
关键词:查重;MD5算法;SimHash算法;MVC设计模式;B/S架构
中图分类号:TP311文献标识码:A
文章编号:1009-3044(2021)11-0074-03
开放科学(资源服务)标识码(OSID):Research and Implementation of Document Duplicate Checking System
XU Xiao-tong,WANG Fa-sheng
(School of Information and Communication Engineering,Dalian116600,China)
Abstract:In the era of big data,the phenomenon of citation and plagiarism is becoming more and more serious.In order to maintain the rights of original assignments,as well as to cultivate students'ability of independent thinking,this paper designs a document duplicate checking system.The system uses MVC mode,based on B/S architecture,combines MD5algorithm and SimHash algo⁃rithm,and is used for duplicate checking of college students'homework documents.The system has three ports:students,teachers and administrators.The students upload the homework documents,the teachers check and grade the homework,and the administra⁃tors manage the students,teachers and course information as a whole.The system can effectively solve the current situation that col⁃lege students can't check their homework because of the platform charge.
Key words:duplicate checking;MD5algorithm;SimHash algorithm;MVC design pattern;B/S architectur
e
1背景
如今我们生活在互联网时代,各种各样的信息扑面而来,为我们的生活和学习提供了海量的资源和巨大的方便,但是这也带来了弊端。学术文章、新闻类的文章甚至高校的作业与毕设项目都存在着抄袭现象,这不仅无法提高学生的创新思想与能力,还给原创的作者带来了不必要的麻烦和伤害[1]。所以,杜绝抄袭、维护原创是至关重要的。
我国一直重视教育的发展,培育具有独立思考、创新能力的新一代非常重要。高校应该在平时的作业中注意这方面能力的教育与培养,培养更优秀的新一代,所以查重工作变得非常重要,不仅要防止学生之间互相抄袭,也要防止网络资源的抄袭现象发生[2]。目前,学术论文的查重在我国制定了大量的规范,正规的查重平台比如中国知网等都需要收取额外的费用,这就给平时高校作业的查重带来了不方便性,难以用于查重平时作业。
鉴于查重工作的重要性,本文设计了一种基于MD5算法[3]和SimHash算法[4-5]结合的文档查重系统。该系统不仅可以对学生之间提交的文档作业进行查重,还更深入地针对特定网络资源来查重学生的文档作业,不仅培养学生的独立思考与创新能力,而且还为高校老师查重作业省去不必要的工作量,对于我国培养新一代的思考与创新能力至关重要。
2系统分析
本系统主要是为实现学生作业文档的查重而设计,有学生,教师和管理员三个端口。教师在系统中发布作业要求,学生查看作业要求,并且提交相应的作业文档。当文档提交完毕,教师可以对指定文档进行查重,包括同门课程下学生文档之间的查重和与网络资源对比的查重,并根据查重结果进行评分。学生在教师评判完之后可以查看自己得分。管理员统筹
收稿日期:2020-12-05
基金项目:辽宁省自然科学基金指导计划项目(项目编号:2019-ZD-0171):大连市青年科技之星项目(项目编号:2017RQ151);大连民族大学本科教育教学改革研究与实践项目(项目编号:YB2019105)
作者简介:徐小桐(1997—),女,河北武安人,本科在读,主要研究方向为物联网技术及其应用;王法胜(1983—),通信作者,教授,博士,主要研究方向为人工智能、软件开发。
Computer Knowledge and Technology 电脑知识与技术
第17卷第11期(2021年4月)
对教师,学生和课程信息进行增删改查。系统用例图如图1
所示。
图1系统用例图
3系统设计
3.1系统体系结构
对系统开发来说,选择一个合适的框架至关重要,这会减少很多不必要的时间和空间浪费,因此针对不同的系统需求我们要选择合适的系统框架。
本系统搭建过程中使用Eclipse 开发环境和MySQL 数据库,采用MVC 模式,前端页面设计使用HTML 、JavaScript 和CSS 完成,同时基于B/S 结构。系统开发还包括了计算机安全领域中的MD5算法和自然语言处理领域中的SimHash 算法,完成查重部分的功能。
MVC 模式可以将程序结构分层,有利于开发者编程时逻辑清晰。MySQL 是一种开源的关系型数据库,它可以处理大量的数据,满足用户需求,非常简单便捷。系统结构图如图2
所示。
图2系统结构图
3.2系统总体设计
系统根据用户需求和功能,分为四个模块:学生模块,教师模块,查重模块和管理员模块。学生模块具有查询课程功能,查看作业要求功能,上传作业文档功能,查看分数功能。教师模块具有添加自己课程信息功能,上传作业要求功能,查重作业功能和评判作业工作功能。查重模块里,系统会自动将学生
文档转文本格式,再根据MD5算法[6]
和SimHash 算法[7]对文档进行粗查和精查,并将结果显示出来。管理员模块具有增删改查学生,教师,课程信息功能。系统模块层次图如图3所示。
系统总体流程:教师将作业要求发布到系统的对应课程下,学生查看课程作业要求,并根据要求上传作业。当学生上传完作业,教师进行作业查重。首先粗查,系统会自动根据文档MD5值来实现同门课程下该作业文档的查重,并将结果显示出来。如若有抄袭,教师直接给予通知,不必再精查。如若没有抄袭现象,则系统会根据SimHash 算法将该文档与网络资源进行SimHash 指纹[8]对比精查,将结果显示出来。网络资源由
管理员定期从网上爬取相关资源上传到资源库。教师根据粗查和精查的结果给学生作业评分。学生在教师评定完分数后可以查看评分结果。管理员对学生,教师,课程信息进行统筹信息管理。
4系统功能实现
4.1学生细化用例逻辑
学生登录系统,输入学生学号和密码,如果正确,则系统跳转查询教师信息界面。学生根据课程编码和该课程教师的名字进行填写,如若填写正确或者数据库中有该课程,则系统显示出该课程的所有信息。其中,学生可以查看该课程下教师发布的作业要求,可以提交上传相应的作业以及可以查看自己之前几次作业的分数。作业提交完毕,系统会自动跳回查新课程信息界面。学生模块细化用例逻辑图如图4
所示。
图3
系统模块层次图
图4学生细化用例逻辑图
4.2教师细化用例逻辑
教师登录系统,输入与工作号和密码,若输入正确,则系统会显示出该教师的所有课程。在该界面下,如若教师缺少相应课程或者需要新增加课程,教师可以直接注册。同时,在该界面下,教师可以
选定一门课程上传作业要求或者选定一门课程查看该课程下的学生作业。当上传作业要求时,界面跳转到该课程下的上传界面,当查看学生作业时,界面显示出所有已提交作业的学生名单,教师根据名单,可以查看某一个学生的作业文档或者查重某一个学生的作业文档。当教师要审阅学生的作业文档时,界面跳转到该学生本门课程下的作业文档,供教师参考。当教师要查重学生作业时,系统根据MD5信息摘要算法和SimHash 算法[9]将该生的作业文档与同门课程作业和网络资源进行粗查与细查,将结果显示出来。教师根据所有的查重结果,综合对学生的作业进行评分或者给予重新修改通知。教师模块细化用例逻辑图如图5
所示。
图5教师细化用例逻辑图
4.3查重流程
在该模块下,教师根据学生提交作业的名单,可以查重某一个学生的作业文档。当教师要查重学生作业时,系统根据MD5信息摘要算法将该生的作业文档与本门课程下所有学生作业文档的MD5值进行对比来粗查重,将超过阈值的信息连同抄袭学生的学号一同显示出来,供教师参考。如若没有抄袭,教师则可以接着进行与网络资源对比查重,系统使用SimHash 算法细查,计算出选定作业文档的SimHash 指纹与网络资源的SimHash 指纹对比,结果根据阈值的设定将显示出是否有抄袭现象,对哪几篇网络资源进行了抄袭,其中一篇为语料库中的哪一篇。查重模块流程图如图6
所示。
图6查重模块流程图
4.4管理员细化用例逻辑
管理员登录系统,输入工作号和密码,若匹配正确,则进入管理员主界面。主界面分为三个选项,查看学生信息,查看教师信息,查看课程信息。点击任意一个查看功能,界面将会跳转,显示出相应的学生,课程或者教师数据,每条数据都可以进行删除和修改的功能。当点击删除信息时,界面跳转显
示删除成功后返回到上一页显示信息界面。当点击修改信息时,界面跳转到信息修改界面,修改完成则系统显示成功并返回到上一层界面。管理员模块细化用例逻辑图如图7
所示。
图7管理员细化用例逻辑图(下转第86页)
课堂效率高。
3)教师的提问比率为33.59%,与实际的课堂观察符合。视频中,教师演示技术和进行讲授时,大部分时间用提问来引导学生掌握知识,加强学生的记忆,同时能提高学生的注意力,防止走神等问题的出现,培养学生思考问题的能力,提高发现问题、分析问题、解决问题的能力。
4.3课堂互动分析小结
通过观看本节课的课堂视频,可以看出汪雨婷老师的教学水平较高,能够充分调动课堂的氛围,调动学生学习新知识的积极性。课堂中汪老师恰到好处的运用提问激发学生积极思考,运用实际操作强化新知。课堂语言富有感染力,感染学生的情绪,真正做到了动之以情,晓之以理,寓理于情,情理交融[11]。教师语言中饱含情感与激情,可以引导学生感情的波动,使课堂更加充满生机与活力。讲课过程中提问语言较多,教师用提问激发学生思考,引导学生探索新知识,更好地抓住重难点。使用提问
还能有效抓住学生的注意力,有利于教师把握课堂进度,提升教学效果。
5总结
本文通过使用ITIAS互动分析系统对教学视频进行分析,总结了信息技术教师汪雨婷老师的教学特征,得出结论:教学过程中适当地加入提问能促进学生把握知识点,提高教学效果。信息技术课堂中,教师通过演示操作技术,帮助学生理解重难点,增强学生的动手能力和使用软件的能力。相较于传统课堂,如今的教学更注重学生言语的发展,符合以学生为主体的教学模式,在“技术应用、课堂氛围、教学结果”等方面都有了很大的改进,呈现出更丰富多样的课堂互动。信息技术教学已经有了相当大的改变,逐渐跟上了时代的步伐,但依然存在一些可以提升的空间,望未来的信息技术教学能够有更高的教学质量和教学效果。希望本文的研究能够促进中小学信息技术教学的发展提升,为教学提供一定的研究依据和教学技巧。
参考文献:
[1]Flanders system of interaction analysis and science teacher ef⁃fectiveness[EB/OL].[2020-06-20].v/full⁃text/ED059094.pdf.
[2]杨光,吴军其.新媒体技术环境下小学英语互动课堂案例特
征分析——基于改进的弗兰德斯分析系统[J].中国教育信息化,2017(19):10-13.
[3]顾小清,王炜.支持教师专业发展的课堂分析技术新探索[J].
中国电化教育,2004(7):18-21.
[4]方海光,高辰柱,陈佳.改进型弗兰德斯互动分析系统及其应
用[J].中国电化教育,2012(10):109-113.
[5]马勋雕,朱海.改进型的弗兰德斯互动分析系统及其教育应
用——基于交互白板的互动课堂[J].现代教育技术,2016,26 (7):38-43.
[6]温雪,崔允漷.基于学历案的课堂互动研究——弗兰德斯互
动分析系统的改进与应用[J].教育发展研究,2016,36(Z2): 62-68.
[7]张屹,祝园,白清玉,等.智慧教室环境下小学数学课堂教学互
动行为特征研究[J].中国电化教育,2016(6):43-48,64. [8]李白桦,张晓艺.基于ITIAS的课堂教学视频分析软件设计与
实现[J].软件,2019,40(1):46-50.
[9]张露丹,汪颖,潘玉霞.信息技术专家教师课堂教学特征案例mysql帮助文档
研究——基于弗兰德互动分析系统[J].电化教育研究,2011, 32(7):83-88.
[10]张海.弗兰德斯互动分析系统的方法与特点[J].当代教育与
文化,2014,6(2):68-73.
[11]宁虹,武金红.建立数量结构与意义理解的联系——弗兰德
互动分析技术的改进运用[J].教育研究,2003,24(5):23-27.
【通联编辑:王力】
(上接第76页)
5结束语
本文运用Eclipse开发环境和MySQL数据库研究并设计了文档查重系统,不仅对学生之间提交的文档作
业进行查重,还更深入的针对特定网络资源来查重学生的文档作业,不仅培养学生的独立思考与创新能力,而且还为高校老师查重作业省去不必要的工作量,对于我国培养新一代的思考与创新能力至关重要。
参考文献:
[1]王逍翔.基于SimHash的文本相似性检测研究与改进[D].昆
明:昆明理工大学,2018.
[2]李刚.网络环境下的中文查重系统的研究与实现[D].杭州:浙
江理工大学,2017.
[3]杨怀,宋俊芳,王聪华.浅谈MD5加密算法在网络安全中的应
用[J].网络安全技术与应用,2018(9):40.
[4]余意,张玉柱,胡自健.基于Simhash算法的大规模文档去重
技术研究[J].信息通信,2015,28(2):28-29.
[5]Li Y,Sha Y,Shan J,et al.The Research of Weighted Community Partition based on SimHash[J].Procedia Computer Science, 2013,17:797-802.
[6]靳燕.基于MD5算法的文件完整性检测系统分析及设计[J].
网络安全技术与应用,2019(11):36-38.
[7]庞宇,张倩,韩凯,等.改进的Simhash算法在文本查重中的研
究及应用[J].数字通信世界,2020(1):203-204.
[8]王宇成.基于Simhash和层次聚类算法的网页去重技术研究
[D].南京:南京邮电大学,2019.
[9]王添男,冯锋.基于SimHash的文本相似检测算法研究[J].电
子测试,2019(15):87-89.
【通联编辑:谢媛媛】

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。