基于Docker的洋葱地址和隐藏服务内容搜集方法--688IT编程网

(19)中华人民共和国国家知识产权局

	(12)发明专利说明书
		(10)申请公布号 CN 112764882 A (43)申请公布日 2021.05.07

(21)申请号 CN202110085622.9

(22)申请日 2021.01.22

(71)申请人西安电子科技大学

地址 710071 陕西省西安市太白南路2号

(72)发明人杨力应世睿张岩贾竣博李茜秦文静马卓茹王志鑫李成李江涛

(74)专利代理机构 61205 陕西电子工业专利中心

代理人王品华;黎汉华

(51)Int.CI

G06F9/455(20060101)

G06F16/33(20190101)

G06F16/35(20190101)

G06F16/93(20190101)

G06F40/284(20200101)

G06F40/289(20200101)

G06K9/62(20060101)

G06N3/04(20060101)

G06N3/08(20060101)

权利要求说明书说明书幅图

(54)发明名称

基于Docker的洋葱地址和隐藏服务内容搜集方法

(57)摘要

本发明公开了一种基于Docker的洋葱地址和隐藏服务内容搜集方法，主要解决现有技术耗时较长且搜索速度慢的问题。其方案为：1)使用两种不同方法得到少量洋葱地址，并搜集这些地址对应的隐藏服务首页；2)构建深度神经网络使用训练集对其进行训练，得到分类器，计算隐藏服务首页属于每种类别的概率；3)参考该概率和隐藏服务首页中洋葱地址数量，预判其对应网站所有页面内嵌洋葱地址个数，并设置搜集镜像的数量；4)镜像启动生成容器，搜索上述首页对应网站所有页面内嵌洋葱地址和内容；5)重复1)至4)完成对Tor洋葱地址和隐藏服务内容的搜集。本发明耗时少，搜集数据速度快，可用于对洋葱路由网络Tor的监控。

法律状态

法律状态公告日	法律状态信息	法律状态
2021-05-25	实质审查的生效	实质审查的生效
2021-05-07	公开	公开
2022-09-23	授权	发明专利权授予

权利要求说明书

1.一种基于Docker的洋葱地址和隐藏服务内容搜集方法,其特征在于,包括如下:

(1)获取洋葱地址:

1a)利用深层网络搜索引擎和表层网络搜索引擎对特定的关键词分别进行搜索,对搜索结果中的洋葱地址进行提取,得到与该关键词有关且被搜索引擎索引的洋葱地址Z

;

1b)在Tor中布设中继节点,使其成为隐藏服务目录服务器,通过修改源码的方式,对服务器中的隐藏服务公钥进行生成洋葱地址需要的哈希计算和编码,得到该公钥对应的洋葱地址Z

;

正则匹配一个或连续多个将上述两种方法得到的洋葱地址存储为文件。

(2)对(1)中用两种方法得到的所有洋葱地址所对应的隐藏服务首页进行搜集,得到待分类隐藏服务首页集合;

(3)对地址文本数据集DUTA依次进行文件去重、数据清洗、文本分词、向量化的进行预处理,构建多分类文本类别分类器:

(3a)对属于C个类别的,且已经具有类别标记的地址文本数据集DUTA依次进行文件去重、数据清洗、文本分词、向量化的预处理,得到训练集词向量;

(3b)设定依次由嵌入层、第一个卷积层、第一个池化层、第二个卷积层、第二个池化层、全连接层和softmax层组成的深度神经网络各项参数,将DUTA数据集经过(3a)预处理后得到的训练集词向量作为训练数据,输入到该深度神经网络进行训练,得到多分类文本类别分类器;

(4)对(2)获得待分类隐藏服务首页集合中的每一个类别未知的隐藏服务首页依次进行文件去重、数据清洗、文本分词、向量化的预处理,得到测试集词向量,将测试集词向量作为已训练好的多分类文本类别分类器的输入,使用该分类器得出这些经过预处理后的隐藏服务首页分别属于C种类别中第i种类别的概率P

,1≤i≤C,同时统计每一个首页页面内洋葱地址数量N;

(5)设定区分隐藏服务首页内嵌洋葱地址数量的阈值T=100,设定区分首页对应网站中所有页面内包含的洋葱地址数量的阈值K=500;将每一个隐藏服务首页内洋葱地址数量N与阈值T或概率P进行比较:

如果某个隐藏服务首页内洋葱地址个数N≥T或该首页属于每种类别的概率P

,1≤i≤C之间相近,则表明该首页可能包含多个类别的内容,该首页对应的网站为目录类型,预判该首页对应网站中所有页面内包含的洋葱地址数量M大于K,执行(6);

如果某个隐藏服务首页内洋葱地址个数N<T或该首页属于C种类别中第j种类别的概率P

远大于该首页属于C种类别中除了第j种类别的概率,则表明该首页可能只属于第j种类别,预判该首页对应网站中所有页面内包含的洋葱地址数量M小于阈值K,执行(7);

(6)设置D=50个隐藏服务内容搜集的Docker镜像,启动这些Docker镜像生成50个容器,在这些容器中运行已构建的隐藏服务内容搜集代码,对每一个首页对应网站中所有页面内嵌洋葱地址对应的隐藏服务内容进行搜集;

(7)设置D=20个隐藏服务内容搜集的Docker镜像,启动这些Docker镜像生成20个容器,在这些容器中运行已构建的隐藏服务内容搜集代码,对每一个首页对应网站中所有页面内嵌洋葱地址对应的隐藏服务内容进行搜集。

(8)统计(6)和(7)搜集得到的隐藏服务内容总数计W,从这些隐藏服务内容中解析提取出所有的内嵌洋葱地址Z

,并将这些洋葱地址与(1a)、(1b)所获的洋葱地址相加,得到洋葱地址的总量为:Z=Z

;

(9)根据实际需要设定要获得的洋葱目标地址数量为X和隐藏服务内容目标数量为Y,并比较X与Z以及Y与W的大小:

如果X>Z或Y>W,则表明目前获得的洋葱地址数量Z或隐藏服务内容数量W未达到设定的目标,重复(1)-(8)直到洋葱地址数量Z和隐藏服务内容数量W达到设定的数量;

如果同时满足X≤Z和Y≤W,则表明目前获得的洋葱地址数量Z和隐藏服务内容数量W已经达到了设定的数量,则停止数据搜集。

688IT编程网

基于Docker的洋葱地址和隐藏服务内容搜集方法

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

基于Docker的洋葱地址和隐藏服务内容搜集方法

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则