(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 102902703 A
(43)申请公布日 2013.01.30
(21)申请号 CN201210250209.4
(22)申请日 2012.07.19
(71)申请人 中国人民解放军国防科学技术大学
    地址 410073 湖南省长沙市开福区砚瓦池正街47号
(72)发明人 李芳芳 葛斌 汤大权 肖卫东 殷风景 贺明科 封孝生 谭文堂
(74)专利代理机构 长沙正奇专利事务所有限责任公司
    代理人 魏国先
(51)Int.CI
      G06F17/30
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种面向网络敏感信息的截图取证与锁定回访的方法
(57)摘要
      本发明公开了一种面向网络敏感信息的截图取证与锁定回访方法,该方法包括:对所监测网站的网页数据进行采集;对网页数据进行规范化处理、基于正则表达式抽取网页标题和链接、基于网页标题和链接进行敏感信息的匹配;对敏感信息进行外页和内页截图;对敏感信息锁定回访以防止其“死灰复燃”;对敏感信息截图结果进行存储与查询。对于网络上的敏感信息,本发明能够在最短时间内发现并对其截图保存,防止此类网页日后被更新或删除,便于相关处置机构存档取证和及时处置,以及对屡次发布敏感信息的网站进行处理。此外,本发明的方法还能够有效解决对网络敏感信息的监控和处置需求,适用于网络舆情分析系统的实施。
法律状态
法律状态公告日
法律状态信息
法律状态
正则匹配超链接
权 利 要 求 说 明 书
1.一种面向网络敏感信息的截图取证与锁定回访的方法,包括面向网络敏感信息的截图取证与锁定回访系统,面向网络敏感信息的截图取证与锁定回访的系统包括计算中心和数据库服务器,计算中心与数据库服务器通信,其特征在于,该方法的具体步骤为:
       
1)利用网络爬虫采集网页数据;
       
2)对采集的数据进行预处理,然后利用正则表达式抽取网页中的信息,并利用这些信息进行敏感信息匹配;
       
3)对包含敏感信息的网页进行截图;
       
4)对包含敏感信息的网页进行锁定回访;
       
5)存储截图结果。
       
2.根据权利要求1所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤1)中,网络爬虫为LoalaSam。
       
3.根据权利要求1所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤2)中,预处理
是指对网页进行规范化处理。
       
4.根据权利要求1所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤2)中,利用正则表达式抽取网页中的标题、超链接信息。
       
5.根据权利要求1所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤2)中,敏感信息匹配为标题匹配,其实现过程如下:
       
1)遍历网页包含的第一个超链接,获取该超链接对应的标题,对其标题进行分词;
       
2)将用户设定的关键词逐一与标题分词结果进行匹配,判断该标题是否包含设定的关键词;
       
3)若匹配成功,对该网页进行标记,用于后续外页截图;同时标记该超链接,用于后续内页截图;
       
4)若匹配未成功,返回1)继续遍历下一个超链接。
       
6.根据权利要求1所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤3)中,利用Webbrowser插件中的Navigate及DrawToBitmap方法实现网页截图,其实现过程如下:
       
1)将用户所需截图的网页链接URL传递给Navigate方法;
       
2)Navigate方法将指定URL处的文档加载到WebBrowser插件中,同时为防止网页加载时间过长甚至无法加载
成功,Navigate方法设定了时间参数来确保文档加载时间;
       
3)通过属性Width和Height得到WebBrowser插件所加载文档的宽度和高度,并封装成位图;
       
4)调用DrawToBitmap方法实现文档的截图并将截图保存至指定路径。
       
7.根据权利要求1所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤4)中,对包含敏感信息的网页进行锁定回访的步骤为:
       
1)将包含敏感信息网页的网址加入回访库,锁定该网址;
       
2)对该网址进行定期回访;
       
3)若回访该网址发现“死灰复燃”现象,则将该网址再次发送给相关处置部门,将该网址的网页认定为高风险页面,同时将对该网址的回访周期缩短为当前周期的一半,加强回访与探测;若回访该网址未发现“死灰复燃”现象,则认为该网址暂时安全,将其回访周期延长为当前周期的两倍;所述“死灰复燃”现象是指包含敏感信息的网页经相关部门处置或删除一段时间后,在同一位置或该网站其它位置重新出现;
       
4)若被锁定的页面回访周期小于1.5小时,系统认为该页面为高危页面,向相关处置部门发出预警,由处置部门决定是否对该页面采取强制措施;若被锁定的页面回访周期大于96小时,则认为该页面已安全,解除对其的锁定并将其网址从回访库中删除;
       
5)若该网页包含的敏感信息并不是在同一位置以同一网址出现,而是在该网站的其它位置出现,则由网络爬虫对该网站进行周期性的采集并再次利用关键词匹配判断其为新的敏感页面,重复步骤1)~4)。
       
8.根据权利要求1所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤5)中,利用Oracle 10g数据库来存储截图结果。
       
9.根据权利要求5所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤1)中,利用基于多层隐马尔可夫模型的汉语词法分析系统ICTCLAS进行分词。
       
10.根据权利要求7所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤2)中,定期回访的初始周期为12小时。
       
说  明  书
<p>技术领域
本发明涉及互联网信息管理领域,特别是一种面向网络敏感信息的截图取证与锁定回访的方法。
背景技术
近年来,互联网在我国快速发展、迅速普及,日益成为人民众关注社会事务和表达意见的重要渠道。随着我国信息化建设加快推进,互联网在为信息交流带来方便、文化建设注入生机的同时,也使网络敏感信息“插上了翅膀”。敏感信息一般包括三大类:政治类、情类和其他,其一经出现就会引起网民的格外关注,进而产生巨大的舆论压力。借助现代信息技术,网络敏感信息的传播方式、传播速度、影响范围呈几何级数增长,危害巨大。加强此类信息的有效监管,对确保我国构建和谐社会、创造良好的网络文化环境具有重要意义。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。