Technology Application
技术应用
DCW
203
数字通信世界
2020.01
随着数据爆发时代的到来,复杂度高、冗余度高的数字化信息逐渐在各行各业带来了问题。例如网页上大量的相似性文档使用户无法精确获取想查询的信息,所需的巨大存储空间也会影响文件处理效率并导致成本急剧增加。
在文本相似度计算方面,Simhash 算法是目前比较准确且高效的方法之一。其主要思想是降维,将高维的特征向量映射为一个F 位的指纹,通过比较两篇文本指纹的汉明距离来确定其相似度。文中就Simhash 算法进行研究和改进,以期在保证Simhash 算法本身高效性的前提下,优化其效率和准确率,并设计系统实现文本查重。
1    传统Simhash 算法分析
Simhash 算法中,定义一个N 维空间,在其中定义每个特征向量,然后结合向量本身的权值进行加权、求和等过程,得出一个和向量作为结果,最后对其进行降维处理,形成最终的F 位二进制签名。其具体步骤如下:(1)分词及预处理:将文本分词且去掉停用词,形成单词序列,并为每个词加上权值(weight )。
(2)生成hash 值:通过hash 算法把每个词变成hash 值,此为降维过程。(3)加权:根据hash 值,
按照单词的权值形成加权数字串,1为weight ,0为-weight 。(4)合并:将各单词计算出的序列值累加,形成一个序列串。(5)降维:将上述序列串转换为01串,大于0记为1,小于0记为0。
算法流程如图1
所示。
图1 Simhash 指纹生成
在信息论中,汉明距离指的是,在一个码组集合内,两个码
字对应位码元取值不同的位数。即d (x ,y )=∑x [i ]⊕y [i ]。在本例中,两个文本的Simhash 指纹a ,b ,其汉明距离通过a XOR b 运算得出。
传统Simhash 算法通常将特征词出现的次数设为其权值,这就易于造成信息丢失,降低最终指纹的准确性。同时,它不表现出词汇分布信息,关键特征词顺序变化后,指纹不受影响。
2    改进的Simhash 算法
为解决上述问题,本文使用TF-IDF 算法计算权值。TF-IDF
是一种统计学算法,其主要思想是:特征词的权重与其在文件中出现的次数成正比,与其在语料库中出现的频率成反比。
特征词t j 在文本d k 中的TF-IDF 值记为t fi
df (t j ,d k ),用tf (t j ,d k )表示t
在文本d 中出现的频率,记为
t j 在文本d k 中出现的次数;分母表示文档d k 中所有特征词的个数。
用idf (t j ,d
)表示逆向文件频率,记为
;分母表示其中包含特征词t j 的所有文档。
特征词的权值t fi df (t j ,d k ) = tf (t j ,d k ) * idf (t j )。因此,
TF-IDF 算法可以有效过滤常见词,保留重要词。
3    系统设计与实现
本实验采用Django 搭建web 项目实现文本查重系统。系统划分为3个功能模块:文件格式转换、文本相似比对、检测结果查看。工作流描述如下:
(1)用户上传本地txt 、word 或pdf 等文件格式的文本。(2)服务器接收文件后统一转换格式为txt 。
(3)服务器将形成的txt 文件输入到模型中进行查重。(4)模型输出分析结果返回给服务器。(5)通过用户设定的阈值显示检测报告。
在文件格式转换模块,需要将pdf 、word 格式的文本转换为txt 格式,利于文本查重时对文件的打开、读取等操作。
文本比对模块是本系统的核心功能。目标文档输入后端已经建立好的模型后,以自然段落为执行单位,经过预处理形成词组,根据TF-IDF 算法计算各词的权值,再依次经过Simhash 算法中生成hash 值、加权、合并、降维等过程,最终形成目标文档的Simhash 指纹。经过与已经形成的库文档各指纹的对比,查到与目标文档汉明距离最小的某库文档中的某段落,将其文本内容添加到结果数组中,最后由服务器返回至浏览器,用户此时可以查看生成的检测报告。参考文献
[1]  陈春玲,陈琳,熊晶,等.基于simhash 算法的重复数据删除技术的研究与改进[J].南京邮电大学学报(自然科学版),2016,36(3):85-91.
[2]  敖莉,舒继武,李明强.重复数据删除技术[J].软件学报,2010,21(5):916-929.
[3]  M oses S. Charikar ,Similarity Estimation Tech niques from Rounding (转下页)
改进的Simhash 算法在文本查重中的研究及应用
庞 宇,张 倩,韩 凯,肖 彬
(北方工业大学信息学院,北京  100144)
摘要:传统Simhash 算法是由Google 公司提出以实现大规模文本去重的方法,其优势在于处理高效,且准确度高。当前,Simhash 算法在文本检测、异常检测等领域有诸多应用。但传统Simhash 算法的权值计算方式容易造成信息丢失,导致准确性降低。针对此问题,本文提出一种使用TF-IDF 算法来计算权值的方式,并进行了系统设计与实现。结果表明,利用改进的Simhash 算法实现的文本查重系统,其准确率、效率均优于传统方法。
关键词:Simhash ;TF-IDF ;相似度计算;Django doi :10.3969/J.ISSN.1672-7274.2020.01.161中图分类号:TP31    文献标示码:A    文章编码:1672-7274(2020)01-0203-02基金项目: 大学生科研训练项目,编号:218051360019XN003。
作者简介:
庞 宇,男,1996年生,本科在读,主要研究方向为数据挖掘。
应用
Technology Application
D
I G I T C W 技术
204DIGITCW
2020.01
(接上页)
Algorithms[C]. Annual ACM Sym posium on Theory of Computing ,Montreal ,Quebec ,Cana da ,New York ,USA :ACM ,2002: 380-388.
[4]  B hat ,WA. Bridging data-capacity gap in big data storage[J]. Future Generation Computer Systems-the International Journal of Escience ,2017,87: 538-548.
网络就是通过传输介质进行分散的,实体互联之间也存在相互独立的情况,很多网络软件建构而成大系统在计算机网络中也需要交换和共享资源,计算机网络创立的目的也是实现信息共享。图书馆网络是一种比较特殊的应用形式,计算机安全技术以及防护措施也需要特殊对待。读书馆业务网络需要对观内的基本业务进行操作,图书的分类和编辑目录问题都是主要的业务范畴,读者也需要图书馆的网络来进行书籍查询。图书馆网络基本还需要网络数字文献以及电子阅览室的使用。
1    网络不安全因素概述
网络安全威胁主要是网络数据威胁以及网络设备威胁两种,这种威胁有自然造成,但是大部分还是人为的,黑客病毒等。计算机技术在突飞猛进的过程中也存在很多的漏洞,系统漏洞就是病毒或者黑客对网络进行侵袭的主要目标,网络安全的潜在威胁是比较多的。
2    高校图书馆网络建设中存在的基本问题
第一个问题就是安全意识但那波,很多高校或者事业单位的图书馆,都不太重视网络安全,图书馆的网络安全没有引起图书馆管理人员的重视和关注,很多工作人员都只单纯重视图书馆电脑硬件的使用情况,网络安全问题却鲜为人知,没有投入适当的人力财力物力也就说明没有充分意识到网络安全的必要性。
第二个问题就是管理制度不健全。很多网络安全问题出现都是因为管理或者执行力度不够,网络系统遭到入侵之后很多数据就会流失或者遭到破坏损毁。
第三个问题则是队伍建设比较落后,很多高等院校的图书馆负责网络维护的管理人员都没有接受过正规的网络安全培训,很多还是网络新手,勤工俭学的大学生等,这种工作人员是缺乏网络安全保护意识实践经验的,非专业人员维护的电脑网络很多都是存在系统漏洞的。
3    常见图书馆网络安全因素的威胁
第一个就是图书馆网络系统自身的漏洞,很对网络软件的设计是不够完善的,开发过程中存在了一些漏洞,这种漏洞就是被黑客或者不法分子利用的,通过对漏洞攻击可以实现网络瘫痪。
第二个就是计算机病毒的危害,这种危害是比较普遍的,传播速度比较快,而且破坏范围比较大,图书馆中一台电脑中毒很有可能导致其他机子都中毒。而且会出现网络系统卡顿或者瘫痪的严重后果。
第三个就是非法访问以及恶意攻击。高校图书馆的机密信息不是有很多的,但是很多恶意分子还是会对其进行攻击,很多猎奇学生或者工作人员很有可能会利用服务器的开放端口课漏洞对图书馆网络进行不断的攻击和破坏,这种破坏很可能损坏图书馆
的借书数据和还书数据,网络拥挤以及系统崩溃都会造成不好的后果。
第四个问题就是没有日常维护,网络系统的安全环境变化是非常尽快的,很多病毒问题也是比较复杂的,需要经常进行维护和更新。但是很多图书馆的系统管理员对这样的维护更新都是不在意的,更多的精力放在了学生们的借书账户上,系统日志的审查上。对于网络安全问题变化以及防卫问题都没有过多的研究[1]。所以图书馆网络的安全状态坏死比较不好的,甚至很多都没有达到预期的目标。用户们主要是对图书馆的信息资源获取考虑比较多,安全问题很多都是不知情,不关心的[2]。
4    图书馆计算机网络安全防范的主要措施
第一个措施就是针对计算机病毒进行的防治措施。病毒目前是出现频率比较高而且对图书馆网络安全产生比较严重影响的因素之一,图书馆网络的管理人员应该尽量掌握病毒的防治和处理措施。了解病毒的构成以及发展,制定相关对病毒进行抑制的基本策略。安装强有力的杀毒软件,日常对电脑网络进行严格检测,一旦发现病毒要及时进行清除。网络的关卡防设也比较重要,在关口出杀死病毒是一种很重要的预防措施,对病毒软件也要定期进行更新,加强对中药数据的保护。让图书馆网络尽量少受到侵袭。
字段字符串去重复第二个措施就是信息加密技术研究,加密的网络可以让很多非法用户不能得到图书馆网络内部的信息,这种技术也是一种应用范围比较广泛的计算机技术,信息机密可以让网络内的信息不被泄露和破坏,而且很多恶意软件也不能对网络性能进行侵袭,断电加密之后网络信息被泄密的可能性比较小,图书馆网络管理人员可以根据具体的需要选择不同的信息加密技术。
第三个技术就是防火墙技术,防火墙可以限制被保护网络和网络之间的信息传递和基本练习,内部网络和外部网络之间需要有一个强有力的阻隔,身份认证是重要的阻隔手段,如果没有通过身份认证就不能获取网络信息。
5    结束语
计算机安全技术在图书馆中的应用是对信息保护的重要手段,管理人员需要加强重视。参考文献
[1]  王宁,葛映宏.图书馆管理中计算机安全技术及防护措施的应用[J].才智,2018(35):239.
[2]  赵谦.图书馆计算机网络安全存在的问题及对策[J].江苏科技信息,2018,35(14):40-42.
计算机安全技术及防护措施在图书馆管理中的应用
刘春红1,王 超2
(1.军委机关事务管理总局第三保障处,北京  100011:2. 93146部队机务培训中心,北京  100076)
摘要:计算机安全技术在信息时代发展过程中得到了高度的重视,图书馆管理工作目前正在不断进行信息化的更新,所以对于计
算机安全技术以及防护措施的应用需要进行研究,图书馆网络安全是非常重要的问题,很多学校和单位的重要信息都存在图书馆中,而且图书馆很多基本运营都需要计算机技术来进行辅助,网络安全如果没有保障很难让图书馆日常管理工作进行下去。本文将对计算机安全技术以及防护措施在图书馆管理中的应用进行研究。
关键词:计算机病毒;安全技术;日常管理doi :10.3969/J.ISSN.1672-7274.2020.01.162中图分类号:G250.7;TP393.08    文献标示码:A    文章编码:1672-7274(2020)01-0204-01

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。