(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 112764882 A
(43)申请公布日 2021.05.07
(21)申请号 CN202110085622.9
(22)申请日 2021.01.22
(71)申请人 西安电子科技大学
    地址 710071 陕西省西安市太白南路2号
(72)发明人 杨力 应世睿 张岩 贾竣博 李茜 秦文静 马卓茹 王志鑫 李成 李江涛
(74)专利代理机构 61205 陕西电子工业专利中心
    代理人 王品华;黎汉华
(51)Int.CI
      G06F9/455(20060101)
      G06F16/33(20190101)
      G06F16/35(20190101)
      G06F16/93(20190101)
      G06F40/284(20200101)
      G06F40/289(20200101)
      G06K9/62(20060101)
      G06N3/04(20060101)
      G06N3/08(20060101)
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      基于Docker的洋葱地址和隐藏服务内容搜集方法
(57)摘要
      本发明公开了一种基于Docker的洋葱地址和隐藏服务内容搜集方法,主要解决现有技术耗时较长且搜索速度慢的问题。其方案为:1)使用两种不同方法得到少量洋葱地址,并搜集这些地址对应的隐藏服务首页;2)构建深度神经网络使用训练集对其进行训练,得到分类器,计算隐藏服务首页属于每种类别的概率;3)参考该概率和隐藏服务首页中洋葱地址数量,预判其对应网站所有页面内嵌洋葱地址个数,并设置搜集镜像的数量;4)镜像启动生成容器,搜索上述首页对应网站所有页面内嵌洋葱地址和内容;5)重复1)至4)完成对Tor洋葱地址和隐藏服务内容的搜集。本发明耗时少,搜集数据速度快,可用于对洋葱路由网络Tor的监控。
法律状态
法律状态公告日
法律状态信息
法律状态
2021-05-25
实质审查的生效
实质审查的生效
2021-05-07
公开
公开
2022-09-23
授权
发明专利权授予
权 利 要 求 说 明 书
1.一种基于Docker的洋葱地址和隐藏服务内容搜集方法,其特征在于,包括如下:
(1)获取洋葱地址:
1a)利用深层网络搜索引擎和表层网络搜索引擎对特定的关键词分别进行搜索,对搜索结果中的洋葱地址进行提取,得到与该关键词有关且被搜索引擎索引的洋葱地址Z
1
;
1b)在Tor中布设中继节点,使其成为隐藏服务目录服务器,通过修改源码的方式,对服务器中的隐藏服务公钥进行生成洋葱地址需要的哈希计算和编码,得到该公钥对应的洋葱地址Z
2
;
正则匹配一个或连续多个将上述两种方法得到的洋葱地址存储为文件。
(2)对(1)中用两种方法得到的所有洋葱地址所对应的隐藏服务首页进行搜集,得到待分类隐藏服务首页集合;
(3)对地址文本数据集DUTA依次进行文件去重、数据清洗、文本分词、向量化的进行预处理,构建多分类文本类别分类器:
(3a)对属于C个类别的,且已经具有类别标记的地址文本数据集DUTA依次进行文件去重、数据清洗、文本分词、向量化的预处理,得到训练集词向量;
(3b)设定依次由嵌入层、第一个卷积层、第一个池化层、第二个卷积层、第二个池化层、全连接层和softmax层组成的深度神经网络各项参数,将DUTA数据集经过(3a)预处理后得到的训练集词向量作为训练数据,输入到该深度神经网络进行训练,得到多分类文本类别分类器;
(4)对(2)获得待分类隐藏服务首页集合中的每一个类别未知的隐藏服务首页依次进行文件去重、数据清洗、文本分词、向量化的预处理,得到测试集词向量,将测试集词向量作为已训练好的多分类文本类别分类器的输入,使用该分类器得出这些经过预处理后的隐藏服务首页分别属于C种类别中第i种类别的概率P
i
,1≤i≤C,同时统计每一个首页页面内洋葱地址数量N;
(5)设定区分隐藏服务首页内嵌洋葱地址数量的阈值T=100,设定区分首页对应网站中所有页面内包含的洋葱地址数量的阈值K=500;将每一个隐藏服务首页内洋葱地址数量N与阈值T或概率P进行比较:
如果某个隐藏服务首页内洋葱地址个数N≥T或该首页属于每种类别的概率P
i
,1≤i≤C之间相近,则表明该首页可能包含多个类别的内容,该首页对应的网站为目录类型,预判该首页对应网站中所有页面内包含的洋葱地址数量M大于K,执行(6);
如果某个隐藏服务首页内洋葱地址个数N<T或该首页属于C种类别中第j种类别的概率P
j
远大于该首页属于C种类别中除了第j种类别的概率,则表明该首页可能只属于第j种类别,预判该首页对应网站中所有页面内包含的洋葱地址数量M小于阈值K,执行(7);
(6)设置D=50个隐藏服务内容搜集的Docker镜像,启动这些Docker镜像生成50个容器,在这些容器中运行已构建的隐藏服务内容搜集代码,对每一个首页对应网站中所有页面内嵌洋葱地址对应的隐藏服务内容进行搜集;
(7)设置D=20个隐藏服务内容搜集的Docker镜像,启动这些Docker镜像生成20个容器,在这些容器中运行已构建的隐藏服务内容搜集代码,对每一个首页对应网站中所有页面内嵌洋葱地址对应的隐藏服务内容进行搜集。
(8)统计(6)和(7)搜集得到的隐藏服务内容总数计W,从这些隐藏服务内容中解析提取出所有的内嵌洋葱地址Z
3
,并将这些洋葱地址与(1a)、(1b)所获的洋葱地址相加,得到洋葱地址的总量为:Z=Z
1
+Z
2
+Z
3
;
(9)根据实际需要设定要获得的洋葱目标地址数量为X和隐藏服务内容目标数量为Y,并比较X与Z以及Y与W的大小:
如果X>Z或Y>W,则表明目前获得的洋葱地址数量Z或隐藏服务内容数量W未达到设定的目标,重复(1)-(8)直到洋葱地址数量Z和隐藏服务内容数量W达到设定的数量;
如果同时满足X≤Z和Y≤W,则表明目前获得的洋葱地址数量Z和隐藏服务内容数量W已经达到了设定的数量,则停止数据搜集。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。