校园环境下的网络信息过滤系统的设计--688IT编程网

校园环境下的网络信息过滤系统的设计
作者：黄子豪雷音
来源：《科学与财富》2014年第04期

摘要：校园网给在校师生提供便利的同时也带来了危害，大量的不良信息充斥在网络世界里，给高校校园网的管理和维护带来了严重挑战。信息过滤是一种系统化方法，他能够自动的将网络上的动态信息流与过滤模板进行匹配，过滤掉有害信息。针对校园网络信息环境及其应用的特点设计并实现了一个不良视频网站过滤系统、一个中文Web页面信息过滤系统以及中文监控系统，给出了系统的组成模块算法模型和关键技术。

关键词：校园网；信息过滤

1. 问题的提出

随着高校校园网络的不断扩建和升级，网络规模日益庞大。校园网方便信息传递，实现资源共享，提高工作效率，作为高校教学应用的内部网及教职工对外交流的窗口，具有开放共享的特点，但是网络是两面的，它给用户提供便利的同时也带来了危害，大量的不良信息，如暴

力、、情、反动、、赌博等充斥在网络世界里，给高校校园网的管理和维护带来了严重挑战。据 2010年 1 月份中国互联网络信息中心发布的《中国互联网络发展状况统计报告》显示中国网页总数已有 84.7 亿个，年增长率达到 89.4%，互联网上的信息资源数量日趋丰富。然而由于网络内容发布缺乏有效的监督机制，大量的情、、暴力等不良信息开始出现在网络上。据一家美国公司在2013年调查发现：与情相关的网页有近 2 亿 6000 万。互联网过滤评估机构估计：2014年全球大概有420万个站，占所有网站总数的 12%。国家教育部、公安部和信息产业部都对在校大学生健康上网问题十分重视，倡导“绿上网”工程，建设和谐校园。

中国互联网络信息中心发布的报告特别指出，青少年学生网民对互联网娱乐功能的使用超过其他任何一种功能。我国网民年龄结构趋于年轻化、低龄化，青少年尤其是在校大学生成为网络文化的主要参与者。但是，互联网上的各类信息良莠不齐，充斥其间的大量情信息对青少年体的健康成长影响非常大。网络不良信息已经成为数百万青少年沉迷网络的主要诱因之一，网上的黄不良信息对孩子们的毒害越来越严重，许多孩子因此早恋、辍学，甚至走上犯罪道路。

虽然我国有关部门连续多年严厉打击网络淫秽情，关闭了大量的站，但是在暴利的驱使下，站仍未禁绝。为了逃避打击，国内的站服务器纷纷移至，或不停地改变服务器、变换域名及改变语言，这些都加大了打击的难度。

面对当前大量情信息充斥互联网的严峻形势，既要让未成年人正确使用互联网，同时又把情信息阻挡在未成年人视野之外，网络信息过滤在全社会推广势在必行。现实情况表明，亟须采取技术手段识别和过滤互联网上的文字、图像等淫秽情信息，这已经成为我国乃至当今世界各国的一项共同的紧迫任务。

为解决以上各种问题，相关研究人员提出了信息过滤的概念，信息过滤就是通过用户需求设定相关过滤规则，在大量信息中筛选出满足用户需要的信息，同时剔除那些无用信息、垃圾信息和有害信息，从而最终实现对网络信息的有效过滤。因此，对相关不良信息的过滤迫在眉睫。

2. 系统设计与实现

网络信息过滤系统的设计包括一下几个方面：

① 不良网页视频的过滤

对不良网络视频的过滤主要通过以下几个流程：当用户浏览网页视频时，过滤系统会在后台对正在观看的视频进行片段下载，并保存到指定的文件夹下，然后用DirectShow对该视频片段进行抓帧处理（保存成bmp图片），接着把这些图片送入系统肤点检测模块中进行统计，如果该视频片段中含有过多的皮肤暴露图片，那么将认为这段视频不适合于未成年人浏览，过滤系统将强行关闭当前观看的网页。主要的算法为：在用户观看视频点播的时候，系统要在后台捕捉到视频的真实地址并对其片段实现下载。由于现在大部分的内容提供商都在保护他们的节目源，所以在网页源文件中的代码采用了加密协议，他们只在网页源文件中提供该段视频在视频服务器中的对应编号，而不是像以往网页那样直接在网页源文件中书写视频真实地址字符串。在本系统中所实现的是：我们根据网页源文件中所提供的视频编号，按照网络协议，去分析并抓取视频真实地址，实现下载。比如用户观看某个视频网站的点播，系统会根据该网址获取该页面的网页源文件并到视频所对应的ID号，接着，系统会去获取网页源文件，在这个源文件中，会有视频真实地址的列表，这样就实现了网络视频的捕获。

网页界面设计的网络系统有哪些 ②中文Web页面信息过滤

中文Web页面信息过滤处理过程是从用户缓冲区上提取捕获的HTTP数据报文，对Web页面进行解析和处理、去除Web页面上的版本条广告条导航栏等噪声，形成待处理的HTML文本，进行基于语料库（其中存放着被禁止的黑词语——各种污秽的、反动的词语和词条）的词组匹配处理，计算Web页面与样本集的相似度，依据预设的放行阀值判断是否放行该页面。

考虑到网络的信息流量很大为了确保过滤的实时性不致于发生大量的丢包情况并保障系统的稳定性这就对信息过滤系统的工作效率提出了更高的要求在信息过滤系统的设计中我们主要采用以下技术来保证系统的实时性和稳定性：⑴优化过滤器的过滤规则，以减少捕获点拷贝和缓存的包的数目，从而降低系统的负载，提高系统的稳定性。⑵捕获数据报文后，采用多线程并发进行协议分析和提取文本，这样做虽然增大了缓冲区的开销，但可以加快处理过程。⑶从数据报文中提取文本后不作分词处理，直接进行基于“黑语料库”的匹配计算，这样可以节省资源开销，减少时间延迟。

③中文的监控

中文的监控与Web页面信息的过滤很相似：首先是捕获SMTP、MIME、POP3

协议，然后对捕获的SMTP、MIME、POP3协议数据报文进行解码和分块解析，获取邮件主题和内容文本；考虑到大多数的主题和内容都比较短小，对其文本进行分词处理不会给系统带来太大的资源开销和时间延迟，因此对邮件的主题和内容文本进行基于基础词典的分词处理，然后在黑语料库的基础上进行相似度的计算（算法模型与P9Q文本过滤的相同），依据计算值定出邮件的等级，作出是否放行的判断，对被堵截的邮件，分别向发送方和接收方发出相应等级的警告信息。

3. 总结

系统通过对进入校园网络的中文Web页面信息的过滤和对中文的监控，基本上达到了堵截有害信息、净化校园网络信息环境的目的。系统的工作效率主要取决于数据报文捕获与文本过滤环节。因此对此方面问题的进一步研究将有重要的理论价值和实际意义。■

参考文献

[1]梅海燕. 信息过滤问题的研究[J]. 现代图书情报技术，2002（2）： 44-47

[2]柳胜国. 网络信息过滤方法与技术[J]. 情报杂志，2005（9）： 33-34

[3]阮彤. 信息过滤模型与算法的研究[D]. 中科院软件研究所， 2001

作者简介：

黄子豪，男，1988年3月生，赣南医学院信息工程学院助教。

688IT编程网

校园环境下的网络信息过滤系统的设计

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

校园环境下的网络信息过滤系统的设计

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式