J o u r n a l o f C o m p u t e r A p p l i c a t i o n s
计算机应用,2019, 39( 1): 227 -231I S S N1001-9081
C O
D
E N J Y I I D U
2019-01-10
http: //w w w. joca. c n
文章编号:1001-9081(2019)01-0227-05D O I:10.11772/j. issn. 1001-9081.2018051118基于词法特征的恶意域名快速检测算法
赵宏,常兆娬'王乐
(兰州理工大学计算机与通信学院,兰州730050)
(*通信作者1510998508@ qq. com)
摘要:针对互联网中恶意域名攻击事件频发,现有域名检测方法实时性不强的问题,提出一种基于词法特征的 恶意域名快速检测算法。该算法根据恶意域名的特点,首先将所有待测域名按照长度进行正则化处理后赋予权值;
然后利用聚类算法将待测域名划分成多个小组,并利用改进的堆排序算法按照组内权值总和计算各域名小组优先 级,根据优先级降序依次计算各域名小组中每一域名与黑名单上域名之间的编辑距离;最后依据编辑距离值快速判 定恶意域名。算法运行结果表明,基于词法特征的恶意域名快速检测算法与单一使用域名语义和单一使用域名词法 的恶意域名检测算法相比,准确率分别提高1.7%与2.5% ,检测速率分别提高13. 9%与6.8% ,具有更高的准确率和 实时性。
关键词:恶意域名;词法特征;检测算法;编辑距离;实时性
中图分类号:T P391;T P393.08文献标志码:A
Fast malicious domain name detection algorithm based on lexical features
ZHAO Hong,CHANG Zhaobin*, WANG Le
(School of Computer and Communication, Lanzhou University o f Technology, Lanzhou Gansu 730050, China) Abstract:A i m i n g at t h e p r o b l e m that m a l i c i o u s d o m a i n n a m e atta c
k s f r e q u e n t l y o c c u r o n t h e Internet a n d existing
d e t e c t i o n m e t h o d s a r e n o t effective e n o u g h in p e r f o r m a n c e o f real t i m e,a fast m a l i c i o u s d o m a i n n a m e d e t e c t i o n a l g o r i t h m b a s e d
o n lexical features w a s p r o p o s e d.A c c o r d i n g to characteristics o f m a l i c i o u s d o m a i n n a m e,all d o m a i n n a m e s to b e tested w e r e firstly n o r m a l i z e d a c c o r d i n g to their l e n g t h s a n d t h e w e i g h t s w e r e g i v e n to t h e m in t h e algo r i t h m.T h e n a c l ustering a l g o r i t h m w a s u s e d to d i v i d e d o m a i n n a m e s to b e tes t e d into s e v e r a l g r o u p s,a n d t h e priority o f e a c h d o m a i n g r o u p w a s c a l c u l a t e d b y th e
i m p r o v e d h e a p sorting a l g o r i t h m a c c o r d i n g to t h e s u m o f w e i g h t s i n g r o u p,t h e editing d i s t a n c e b e t w e e n e a c h d o m a i n n a m e in
e a c h d o m a i n n a m e g r o u p a n d t h e d o m a i n n a m e o n blacklist w a s c a l c u l a t e d in turn. Finally, m a l i c i o u s d o m a i n n a m e w a s
q u i c k l y d e t e r m i n e d a c c o r d i n g to t h e edit i n g d i s t a n c e value. T h e r u n n i n g results o f a l g o r i t h m s h o w that c o m p a r e d w i t h th e m a l i c i o u s d o m a i n n a m e d e t
e c t i o n a l g o r i t h m o f o n l y u s i n g d o m a i n n a m e s e m a n t i c s a n d t h e a l g o r i t h m o f o n l y u s i n g d o m a i n n a m e lexical features, t h e a c c u r a c y o f fast m a l i c i o u s d o m a i n n a m e d e t e c t i o n a l g o r i t h m b a s e d o n lexical features is i n c r e a s e d b y
1.7%a n d
2. 5%respectively, t h e d e t e c t i o n rate is i n c r e a s e d b y 1
3.9%a n d6.8%respectively. T h e p r o p o s e d a l g o r i t h m h a s
h i g h e r a c c u r a c y a n d p e r f o r m a n c e o f real-time.
Key words:m a l i c i o u s d o m a i n n a m e;lexical feature; d e t e c t i o n a l g o r i t h m;edit i n g d i stance; p e r f o r m a n c e o f real t i m e
互联网技术的快速发展给人们的工作和生活带来许多便 利,同时,出于不同目的的恶意网络攻击事件也层出不穷。
域名系统(D om ain Name S ystem,D N S)作为互联网中实 现网络域名与I P地址相互转换的一种服务,得到了广泛应 用,几乎所有的互联网应用都需要使用D N S提供的服务对域 名进行解析,实现资源
的定位。互联网中的各D N S服务器分 布在不同的地理位置,记录所属域中主机域名与I P地址的对 应关系,全球所有D N S服务器构成一棵D N S树,因此,要实现 一个域名解析任务,经常需要将任务在不同的D N S服务器间 进行多次转发,直到到达目的域的D N S服务器实现域名解 析,域名解析结果再经过多次转发,原路返回到请求主机。恶 意域名攻击正是利用D N S域名解析的特点,随机产生大量不 存在的域名并发出域名解析请求,恶意域名解析请求在DNS 服务器间进行多次转发,最终因不到对应的D N S服务器被 丢弃,同时,域名解析失败原因再经过多次转发,原路返回给请求主机。大量恶意域名解析任务和域名解析失败原因在于
D N S服务器间的多次转发,增加了网络带宽占用,给D N S服 务器带来沉重的额外负载,严重影响了正常域名解析任务的 执行。如果D N S服务器因恶意域名攻击而宕机,则依托于域 名解析的所有互联网服务就会停止,其结果将是灾难性的。
国家互联网应急中心(N a t i o n a l Internet E m e r g e n c y C e n t e r,C N C E R T)发布的2018年第13期《网络安全信息与动 态周报》[1]显示,C N C E R T监测发现境内约17万个D N S服务 器受到恶意域名的攻击,与前期相比增长50.2%。
如何快速检测恶意域名,提前防范恶意域名网络攻击,对
于保障互联网正常运行具有重要意义。
1研究现状
从检测特征角度看,目前恶意域名检测方法主要包括域 名查询行为分析^5]和域名自然语言统计分析方法[6_9]两大
收稿日期:2018-05-30;修回日期:2018-08-01;录用日期:2018-08-03。
基金项目:国家自然科学基金资助项目(51668043);赛尔网络下一代互联网技术创新项目(N G1120160311,N G1120160112)。
作者简介:赵宏(1971—),男,甘肃西和人,教授,博士,C C F会员,主要研究方向:并行与分布式处理、自然语言处理、深度学习;常兆斌
(1995—),男,甘肃会宁人,硕士研究生,C C F会员,主要研究方向:自然语言处理、空间网络安全、深度学习;王乐(1994一),女,甘肃玉门人,硕士研究生,C C F会员,主要研究方向:自然语言处理、深度学习、情感分析。
228
计算机应用
第39卷
类。
域名查询行为分析又分为主动D N S 分析与被动D N S 分 析方法[1°],其中,主动D N S 分析方法通过备案批量查询和使 用N s lo o k u p 工具检测域名的合法性,由于需要在线查询数据 库,检测过程较长,实时性较差[11]。被动D N S 分析方法通过 分析获取的D N S 请求特征,检测待测域名合法性,如Truong 等™结合D N S 流量特征,检测流量异常D N S 服务器的DNS 查询流,实现恶意域名检测。左晓军等[13]针对D G A (D om ain Generate  A lg o rith m )的僵尸网络隐蔽性强和域名多变等特点, 提出一种基于域名系统流量特征的Fast -F lu x 检测算法,检测 垃圾邮件、欺诈与黑名单列表的可疑域名和恶意域名。周昌 令等[14]借助深度学习技术,提出了一种分析D N S 查询行为 的检测算法,通过构造两种域名列表作为深度学习的训练数 据并映射到向量空间,将域名的关联分析转化为向量的计算, 利用域名的关联性实现恶意域名检测。
域名自然语言统计分析方法中,K h a lil 等[15]提出了一种 基于D N S 数据图的网络攻击检测算法,通过分析域名之间的 关联性并利用图的推理技术实现恶意域名的检测。周维柏 等[16]提出了一种关联规则挖掘的集中式僵尸网络检测技术, 利用一台被检测出的僵尸主机,按照关联规则分析域名之间 网络连线的关联性,挖掘出潜在的恶意域名。周勇林等[17]基 于域名的长度属性值、域名中存在的特殊字符、被解析的时 间、解析次数以及解析结果的变化构造检测特征,检测恶意域 名。
以上恶意域名检测方法各有所长,相比而言,基于深度学 习技术的检测方法的检测准确率较高,但耗时较长。基于查 询主机活动流量的检测方法的数据采集周期长,且只对受攻 击D N S 服务器为目标的域名查询流进行检测,实时性和普适 性都较差。域名自然语言统计分析的三种方法,虽然具有对 多类型恶意域名检测准确率较高的优点,但是检测耗时还是 较大,实时性不强。
综上,基于目前恶意域名检测中所存在的实时性问题,本 文在先验知识的基础上提出了一种基于词法特征的恶意域名 快速检测算法,首先,对待测域名利用聚类算法完成分类;其 次,结合改进的堆排序算法构建组间优先级,按照组间优先级 依次计算小组内每一域名与黑名单上域名之间的编辑距离; 最后,根据编辑距离的大小快速检测出恶意域名。
2算法设计与分析
基于词法特征的恶意域名快速检测算法,分为数据标准
化、权值计算、聚类分组、组间排序、域名检测等5个步骤。其 中,数据标准化是将每一域名长度值转化为[〇,1 ]区间中的 数值,降低由于解析错误等原因带来的检测误差;权值计算通 过计算每条域名的权值,将域名词法特征的提取转化为数值 计算;聚类分组通过聚类算法将经过权值计算的待测域名划 分成组内域名在长度上相似的多个小组;组间排序利用改进 的堆排序算法根据小组权值之和降序构建小顶堆组;域名检 测则按照小组优先级依次计算域名小组中每一域名与黑名单 上域名之间的编辑距离,
并根据编辑距离的大小,实现对恶意 域名的检测。算法框架如图1所示。
图1
算法框架
Fig. 1
Algorithm framework
2.1数据标准化
数据标准化主要是降低域名列表中因解析错误、统计遗
漏等原因带来的检测误差,为域名聚类提供统一的评价标准。 在已有域名列表基础上,将列表中每一域名的字符串长度按 照式(1)进行转换,使其值位于[〇, 1 ]区间:
s  = (L  — L  )/(L  — L  ■ ) (1)其中七为第〖个i
名标I
化的值,i ,为域名长度人《与
分别为域名列表中域名长度最大值与最小值。2.2权值计算
通过计算待测域名列表中每条域名的权值,将域名词法 特征的提取转化为数值计算。通过式(2)对每一待测域名赋 予权值,便于在排序过程中按照组内域名权值总和,快速确定 各小组的优先级,降低检测阶段时间开销。
Z ,; x  lb  ( (a  + ra )/c ;)Wi  = ~D x \b  (b  +n )~ ()其中:A 为域名权值;i ,为域名长度;q 是与第〖个域名长度值 相同的域名在域名列表中出现的次数;n 是经过标准化处理 后的域名总数;^和6是条件常数,一般取值a 为1,6为〇.5;f l  是恶意域名与合法域名长度的分界经验值,一般取值为15, 当域名字符串长度低于15时,95%的域名是合法域名[12]。 2.3聚类分组
借鉴文献[I 8 ]中支持向量机(Support  V e cto r  M a c h in e , S V M )与A d a B o o s t 组合并将最近邻算法应用其中的高效组合 分类算法——IA S V M (Im e ra c tiv e  AdaBoost  S V M ),依据 IA S V M  算法将经过权值计算的待测域名划分成组内域名长度相似的 多个小组。
IA S V M 将S V M 作为A d a B o o s t 算法的基分类器来寻支 持点,然后通过最近邻算法计算每一域名权值与支持点之间 的距离,根据域名权值与支持点之间的距离对待检测域名分 类,聚类过程描述如下。
1) 选取经过标准化处理后的《个待测样本,形成大小为 ™的测试集通过计算测试集r 中每一域名的权值,构造域 名权值集合疋=,如2,…,如J 。
2) 利用测试集r 中每一标准化后的样本值~与对应的权值W ;,根据式(3)求解候选支持点集合P  = j  I  i  = 1,2,…,:
= 1
(3)
其中:y a ;(i  = 1,2,…,ra )是在经过标准化的(^,^,…,\.)上 选取的候选支持点,w ;(i  = 1,2,…,n )为域名权值。3) 将候选支持点集合P 中的每一组候选支持点代人式 (4)来寻每一小组中的最优支持点[1
9]:
1
n
m in (— I
I  2 - ^I si (si cix iw i  - 1) )
(4)
其中= 1,2,…,n )是在候选支持点中取得的最优支持
点,c ,是与第;个域名长度值相同的域名在域名列表中出现的
次数。
4) 将到的最优支持点组合成支持点集合r  =丨%,;»:2, …,、.丨,通过式(5)计算测试集r 中每一待测域名~与支持 点集合^中最优支持点'_(/ = 1,2,…,m ,m  < ra )之间的距离:
d (T ,v ) = X  X  '
J
正则化可以产生稀疏权值
~ x^2
(5)
通过计算测中的待测域名与每一最优支持点之间
的距离,根据距离的大小,将与最优支持点距离最小的域名划 分到该最优支持点标注的小组,且每一小组内的域名在域名 长度值上具有相似性。
试名本
测域样5?
_
第1期赵宏等:基于词法特征的恶意域名快速检测算法229
恶意域名与合法域名在长度值与权值方面区别明显,因
此,经过聚类分组并依据组内域名权值总和,使得组间排序
时,快速确定组间优先级,便于恶意域名检测时恶意域名黑名
单先与优先级较高的待测域名小组比较,及时封堵恶意域名、
响应合法域名的请求,降低检测时间开销,提高系统的实时
性。聚类分组操作的伪代码见算法1。
算法1聚类分组操作的伪代码。
输人:标准化后的《个样本集合r与对应权值(叫,%,…,
for w\nW\
候选支持点,构造候选支持点集合p
在尸=I I; = 1,2,…,n l中最优支持点
d{T,v)= s q rt((s;-Xj)* (s;-X j))
根据待测域名与之间的距离,聚类分组
输出:组间具有相似性的多个域名小组。
2.4组间排序
聚类算法将待测域名划分成多个小组,计算每一小组内
域名权值总和,利用改进的堆排序算法根据小组权值总和降
序构建小顶堆组,便于恶意域名检测时恶意域名黑名单先与
优先级较高的待测域名小组比较,及时封堵恶意域名、响应合
法域名的请求,降低计算资源的消耗。
传统的堆排序算法分为两步:1)根据输人的初始数据,
按照堆的调整算法形成初始堆;2)通过一系列的元素交换和
重新调整堆进行排序。传统堆排序过程如图2所示。
(a)生成小顶堆(b)堆顶元素与(c)将圈中的(c〇形成新堆后
堆末元素互换元素重建重复上述直到所
小顶堆有元素排序完毕
图2传统堆排序算法过程
Fig. 2 Traditional heap sorting algorithm process
传统堆排序算法在每次形成小顶堆后,交换堆顶与堆末元
素,并将剩余元素重新调整位置,构造新的小顶堆。在将堆顶
元素与堆末元素互换位置时,整个序列又面临重新建堆的问
题,这无疑增加了许多数据元素不必要的移动,使得元素的比
较次数与移动次数增加,从而导致时间复杂度与空间复杂度都
比较大,为此本文充分考虑堆排序算法中元素的比较次数与移
动次数,利用一种改进的堆排序算法根据优先级降序将聚类后
的域名小组按照组内权值总和构建堆。算法描述如下:
1) 根据优先级降序将无序序列构建成一个小顶堆。
2) 待堆顶最小元素取出后,比较当前空缺节点的左右孩 子节点,小者放人堆顶。
3) 比较子树中空缺位置的左右孩子节点大小,小者进人
空缺位置。
4) 重复步骤2)和3),直到堆顶节点为空。
改进的堆排序算法详细过程如图3所示,堆排序操作的
伪代码见算法2。
图3改进的堆排序算法过程
Fig. 3 Improved heap sorting algorithm process for index in range (len( 5F) , -1,-1): if ( < Sy[ index]):
SV[index~\ =5F[y]
输出:有序的域名小组
2.5域名检测
2.5.1域名黑名单样本构造
收集并整理M alw are dom ain lis t[2°]中的恶意域名,检测域 名是否为恶意域名的黑名单样本。
2.5.2编辑距离计算
考虑到系统的实时性检测需求,采用相对简单的编辑距 离,按照域名小组间优先级降序,依次计算各小组中每一域名 与域名黑名单样本中域名之间的编辑距离。
设你,是待测域名字符串与域名黑名单中验证字符 串,为计算两个域名字符串之间的编辑距离,本文通过插人、删除、替换操作计算两个域名字符串序列的最小编辑距离。编 辑距离计算如式(6)所示:
E d[s trl,str2]
0, i = 0 o i j = 0 m in(d[i-l,y]+ 1,d[i,j - 1]+1, <d[i - l,j - l]) ,= y j
m in(d[i-l,y]+ l,d[i,j - l]+1, 'd[i - l,j - l]+ 1) ,a c; ^
(6)
其中,d[Z-l,/] +l、c?[€,/-l] +l、d[€-l,y-l] +1 分别
表示编辑过程中域名字符串的插人、删除、替换等操作。
图4示例待测字符串“ta k e”与域名黑名单中验证字符串
“tk e”之间的编辑距离计算过程,解释如下。
1) 初始化待测字符串与验证字符串编辑计算矩阵。
2) 从待测字符串“ta k e”的首字母t开始,从上到下逐个 字符与验证字符串“tk e”的字符进行比较。如果两个字符相
同,取当前位置的左、上、左上三个位置中的最小值;若不相
等,取左、上、左上三个位置中的最小值后再加1。
3 )完成待测字符串与验证字符串编辑距离计算矩阵。
4)取矩阵右下角值为待测字符串与验证字符串编辑值,
字符串“ta k e”与“tk e”的编辑距离值为1。
图4编辑距离计算过程
t a k e 01234 t10123 k21112 e32221
Fig. 4 Editing distance calculation process
2.5.3 恶意域名识别
设待测域名字符串^'1长度为《,域名黑名单样本中验证 字符串说2长度为m,两个字符串的差异度值(D iffe re n c e
D egree V a lu e,D D V)定义为两个字符串编辑距离的2倍与两 个字符串长度之和的比值,差异度值计算如式(7)所示:
D D V =叫朽為](7)
n + m
式(7)中,两个字符串差异度值与它们的编辑距离成正 比,与它们的长度之和成反比;两者的编辑距离
越大,差异度 值就越大,相似性越小;另外,两者的长度之和越小,差异度值 越大,相似性越小。
利用式(7)计算各域名小组中每一域名与域名黑名单样
算法2堆排序操作的伪代码。输人:聚类分组后的每一域名小组A for in S t:
vs.= sum( if sL in )
初A化小顶堆SF 本中各域名之间的差异度值,将该差异度值与设定的阈值进 行比较,当待测域名与域名黑名单上每一域名之间的差异度 值小于或者等于该阈值时,则判定该域名为恶意域名;否则为 合法域名,阈值一般设定为〇.15[21]。
算法3
恶意域名检测操作伪代码。
230计算机应用第39卷
输入:;待测与验证域名字符长度:71,m;阈值epos。
fo r i in S:#按照小组优先级依次计算
for;in F:射十算当前组内的每一域名
for url in Black_URL_list:
计算当前每一待测域名与黑名单之间的编辑距离
if Ed < epos{url, j):
j is malicious name
输出:恶意域名。
3实验与分析
3.1实验环境
实验环境如表1所示。
表1实验环境
Tab. 1Experimental environment
参数值参数值
CPU AMD A12-9700 2.5 GHz操作系统64 位 Windows 10
GPU AMD R8 M435DX测试平台Jupyter Notebook
内存8 GB
3.2数据集
为验证本文算法的性能,从A Ie xa[22]和M alware dom ain lis t
中获得10000个域名,其中有8000个合法域名和2000个恶意
域名。首先把收集的2000个恶意域名分为两部分,其中70%
的恶意域名与8000个合法域名作为训练数据集。另外,30%
的恶意域名作为测试数据集。详细数据来源如表2所示。
表2实验数据来源
Tab. 2 Experimental data sources
数据集来源数目
训练数据集
Alexa8 000 Malware domain list1400
测试数据集Malware domain list600
3.3评价指标
为评估本文算法在恶意域名检测时的性能,使用平均检 测速率(A v e r a g e D e t e c t i o n R a t e,A D R)和平均检测准确率
(A v e r a g e D e t e c t i o n A c c u r a c y,A M A),计算公式如式(8)和(9)所示:
ADR = TP/T(8)
AMA = TP/S x100%(9)其中:r p表示恶意域名被正确识别的数量,r表示检测消耗的 总时间,S表示测试数据集中恶意域名总数。
3.4实验及结果分析
为验证本文恶意域名检测算法的有效性,将上述待测域 名作为恶意域名检测算法模型的输人值,检测出的恶意域名 作为算法的输出值,在相同的实验环境下分别构造文献[8] 基于域名语义的恶意域名检测算法模型和文献[9]基于域名 词法特征的恶意域名检测算法模型以及本文恶意域名检测算 法模型,并进行实验对比,对比结果如图5所示。
分析图5可知,文献[8]基于域名语义的恶意域名检测 算法模型平均检测速率约为1.37个/s,平均检测准确率波动 范围为86%~88%;文献[9]基于域名词法特征的恶意域名 检测算法模型平均检测速率约为1.46个A,平均检测准确率 波动范围为84%~ 87% ;经过分析检测错误原因发现,被误 报成合法域名的恶意域名都存在一个共同点,即这些恶意域 名都是由多个词法或语义表达相近的合法域名与合法域名或 合法域名与恶意域名组合而成,而本文恶意域名检测算法模型在域名语义的基础上加人域名词法特征后,平均检测速率 约为1.56个A,平均检测准确率波动范围为88% ~89%。在 平均检测准确率分别提高1.7%与2.5%的情况下,平均检测 速率分别提高13.9%与6. 8%,较好地检测出多个词法或语 义表达相近的合法域名与合法域名或合法域名与恶意域名组 合而成的恶意域名。具体比较结果如表3所示。
S<-
货蛘◊....
卜-j:二:二二奋
本文方法
_名语立
-i i名词法
实验序号
(a)平均检测速率曲线
(b>平均检测准确率曲线
图5三种算法的检测性能对比
Fig. 5 Detection performance comparison of three algorithms
表3语义、词法特征模型与本文算法性能比较
Tab. 3 Performance comparison among semantic model,
lexical features model and the proposed approach 类型算法复杂度检测速率/(个•sT1:>准确率/%
域名语义0〇3)  1.3787.2
域名词法〇{n2)  1.4686.5
本文算法0(mn)  1.5688.7通过表3可知,单一使用合法域名与恶意域名在语义方 面或词法特征方面的区别,尚不足以对恶意域名进行准确的 检测,但在域名语义的基础上加人域名词法特征后,在平均检 测准确率分别提高1.7%与2.5%的情况下,平均检测速率分 别提高13. 9%与6. 8%,具有更好的准确性与实时性。
3.5同类相关工作对比
在相同的实验环境下分别构造文献[3 ]、[7 ]与文献[8 ]恶意域名检测算法模型和本文恶意域名检测算法模型,并进 行性能比较,具体结果如表4所示。
表4 4种算法的性能比较
Tab. 4 Performance comparison of four algorithms 检测算法执行时间/m in检测速率/(个• S准确率/%文献[3]算法11.26  1.4190.6
文献[7]算法12.48  1.3188.5
文献[8]算法12.07  1.3787.2
本文算法10.93  1.5688.7
由表4可以看出,本文恶意域名检测算法模型在执行时 间与检测速率方面,优于文献[3 ]、[7 ]、[8 ]恶意域名检测算 法模型,具有较高的检测速率;在准确率方面,本文检测算法 模型优于文献[8 ]恶意域名检测算法模型,与文献[7 ]恶意域 名检测算法模型准确率相当。综合考虑算法执行时间、检测 速率、准确率等方面,本文所提出的基于词法特征的恶意域名 快速检测算法明显优于其他三种恶意域名检测算法。
4结语
针对现有域名检测方法实时性不强的问题,本文提出了
第1期赵宏等:基于词法特征的恶意域名快速检测算法231
一种基于词法特征的恶意域名快速检测算法。首先利用聚类
算法对待测域名完成分类;其次,结合改进的堆排序算法构建
组间优先级,按照组间优先级依次计算小组内每一域名与黑
名单上域名之间的编辑距离;最后,根据编辑距离值的大小快
速检测出恶意域名。与传统基于单一使用语义和词法的恶意
域名检测算法比较,在检测准确性和实时性上表现良好,具有
较好的实用价值。
参考文献(R eferences)
[1]网络安全信息与动态周报.第13期互联网安全威胁报告[E B/
0L]. [2018-04-01]. w rg/publish/m ain/44/
2018/20180404150414268888501/20180404150414268888501 _
201html. (National Internet Emergency Center. 13th Internet securi­
ty threat report [ E B/O L]. [2018-04-01]. http: //w w w. cert. cn. /
publish/main/44/20180404150414268888501/201804041504
14268888501_.html.)
[2] WANG T S, LIN H T, CHENG W T, et al. DBod: clustering and
detecting DGA-based botnets using DNS traffic analysis [ J]. Com­
puters &Security, 2016, 64: 1-15.
[3]牛伟纳,张小松,孙恩博,等.基于流相似性的两阶段P2P僵尸
网络检测方法[J].电子科技大学学报,2017, 46 (6): 902 -906.
(NIU W N, ZHANG X S, SUN E B, et al. Two-stage peer-to-peer
zombie network detection method based on flow similarity [ J]. Jour-
nal of University of Electronic Science and Technology of China,
2017, 46(6): 902-906.)
[4] P0M0R0VA 0, SAYENKO 0, LYSENKO S, et al. A technique
for the botnet detection based on DNS-traffic analysis [C]//Pro­
ceedings of the 22nd International Conference on Computer Net­
works. Berlin: Springer, 2015: 127 -138.
[5] YU B, OLUMOFIN F, SMITH L, et al. Behavior analysis based
DNS tunneling detection and classification with big data technologies
[C]//Proceedings of the 2016 International Conference on Internet
of Things and Big Data. Setubal: SciTePress, 2016: 284 -290.
[6] PERDISCI R, CORONA I, DAGON D, et al. Detecting malicious
flux service networks through passive analysis of recursive DNS
traces [C]//Proceedings of the 25th Computer Security Applica­
tions Conference. Washington, DC: IEEE Computer Society, 2009:
311 -320.
[7]张维维,龚俭,刘茜,等.基于词素特征的轻量级域名检测算法
[J].软件学报,2016,27( 9): 2348 - 2364. (ZHANG W W,GONG
J, LIU Q, et al. Lightweight dommn name detection algorithm
based on morpheme features [ J]. Journal of Software, 2016, 27
(9):2348 -2364.
[8]黄诚,刘嘉勇,刘亮,等.基于上下文语义的恶意域名语料提取模
型研究[J].计算机工程与应用,2018,54(9): 101 -108. (HUANG
C,LIU J Y, LIU L, et al. Reseeirch on the extraction model of ma­
licious dommn name corpus based on context semantics [ J]. Com­
puter Engineering £ind Applications, 2018,54(9): 101 - 108.)
[9] WANG W, SHIRLEY K. Breaking bad: detecting malicious do­
mains using word segmentation [ J]. ArXiv Preprint, 2015, 2015:
1506.04111.
[10]张洋,柳厅文,沙泓州,等.基于多元属性特征的恶意域名检测
[J].计算机应用,2016, 36(4): 941 -944. (ZHANG Y, LIU T
W, SHA H Z, et al. Detection of malicious domain names based
on multivariate attribute features [ J] •Journal of Computer Applica­
tions, 2016, 36(4):941 -944.)
[11]刘爱江,黄长慧,胡光俊.基于改进神经网络算法的木马控制域
名检测方法[J].电信科学,2014, 30(7): 39 -42. (LIU    A J,
HUANG C H, HU G J. A method of Trojan control domain name
detection based on improved neural network algorithm [ J]. Tele­
communications Science, 2014, 30(7): 39 -42.)
[12] TRUONG D-T, CHENG G, AHMAD J, et al. Detecting DGA-
based botnet with DNS traffic ginalysis in monitored network [ J].
Journal of Internet Technology, 2016, 17(2): 217 -230.
[13]左晓军,董立勉,曲武.基于域名系统流量的Fast-Flux僵尸网
络检测方法[J].计算机工程,2017, 43(9): 185 - 193. (ZUO X
J, DONG L M, QU W. Fast-Flux zombie network detection based
on domain name system traffic [ J]. Computer Engineering, 2017,
43(9):185 -193.)
[14]周昌令,栾兴龙,肖建国.基于深度学习的域名查询行为向量空
间嵌入[J].通信学报,2016, 37(3): 165 -174. (ZHOU C L,
LUAN X L, XIAO J G. Domain name query behavior vector space
embedding based on depth learning [ J]. Journal on Communica­
tions, 2016, 37(3):165 -174.)
[15] KHALIL I, YU T, GUAN B. Discovering malicious domains
through passive DNS data graph analysis [ C]//Proceedings of the
11th ACM Asia Conference on Computer and Communications Se­
curity. New York:ACM, 2016: 663 -674.
[16]周维桕,李蓉.基于关联规则挖掘的集中式僵尸网络检测[J].
兰州理工大学学报,2016,42(6): 109 - 113. (ZHOU W B, L IR.
Centralized zombie network detection based on association rules
mining [J]. Journal of Lanzhou University of Technology, 2016,
42(6): 109 -113.)
[17]周勇林,由林麟,张永徐.基于命名及解析行为特征的异常域名检
测方法[J].计算机工程与应甩2011,47(20):50 - 52. (ZHOU Y L,
YOU L L, ZHANG Y Z. An ginom aly domain name detection method
based on naming and analytic behavior features [ J]. Computer Engi­
neering and Applications, 2011, 47(20):50 -52.)
[18]陈春萍.基于SV M与AdaBoost组合的分类算法研究[D].西
安:西安电子科技大学,2012. ( CHEN C P. Research on classifi­
cation algorithm based on SVM and AdaBoost combination [ D] ■
Xi’an: Xidian University, 2012.)
[19] ZHANG W. Relief feature selection and parameter optimization for
support vector machine based on mixed kernel function [ J/O L].
International Journal of Performability Engineering, 2018,14(2)
[2018-02-20]. w w w. ijpe-online. com/relief-feature-selec-
tion-and-parameter-optimization-for-support-vector-machine-based-
on-mixed-kemel-function. html#£ixzz5TzKru9vC.
[20] Malware domain list. Malware domain list [E B/O L]. [2018-05-
08]. http: //w w w. malwaredomainlist. com. php.
[21]罗文塽,曹天杰.基于非用户操作序列的恶意软件检测方法
[】].计算机应用,2018,38(1):56 -60.(!^0双3,0人01^.入
malicious software detection method based on non-user operation
sequence [ J]. Journal of Computer Applications, 2018, 38(1):
56 -60.)
[22] Alexa Top Global Sites. Alexa top global sites [E B/O L]. [2018-
05-08]. w w w. alexa. com/topsites.
This work is partially supported by the National Natural Science Foun­dation of China ( 51668043 ),the CERNET Innovation Project (NGII20160311, NGII20160112).
ZHAO Hong, bom in 1971, Ph. D., professor. His reseeirch inter­ests include parallel and distributed processing, natural language process­ing, deep learning.
CHANG Zhaobin,bom in 1995,M. S. candidate. His research interests include natural language processing, cyberspace security, deep learning.
WANG Le, bom in 1994, M. S. candidate. Her research interests include natural language processing, deep learning, sentiment analysis.

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。