域名画像系统的设计与实现!
包正晶3,苏马婧1#康彬1#薛继东3,刘红3
(1.华北计算机系统工程研究所,北京100083;2.中国人民解放军96941部队,北京100080)
摘要:网络空间逐渐成为人类生产活动的第二空间,网络空间测绘对人们了解认识网络空间资源分布、网络关系和威胁情况等具有重要意义%当前对域名这一网络空间重要资产的测绘研究相对较少,因此针对域名资产进行探测分析,结合多源域名数据对域名的基础属性、谱系关系、规模状况和时空变化等情况进行分析,形成域名画像%该研究有助于用户掌握互联网域名整体发展情况,可对网络流量过滤和恶意域名检测、网络空间资产属性识别等提供支撑%
关键词:域名画像;网络空间测绘;谱系构建;时空变化分析
中图分类号:TP311.1文献标识码:A DOI:10.19358/j.issn.2096-5133.2021.06.001
引用格式:包正晶,苏马婧,康彬,等.域名画像系统的设计与实现[J].信息技术与网络安全,2021,40(6):1-8.
Design and implementation of domain name portrait system
Bao Zhengjing1,Su Majing1,Kang Bin2,Xue Jidong1,Liu Hong1
(1.National Computer System Engineering Research Institute of China,Beijing100083,China;
2.Unit96941of PLA,Beijing100080,China)
Abstract:Cyberspace has gradually become the second space for human production activities.Cyberspace surveying and mapping is of great significance for people to understand the distribution of cyberspace resources,network relationships and threats.However,there are relatively few researches on surveying and mapping domain names,which are important assets in cyberspace.Therefore,this article conducts detection and analysis on domain name assets,and analyzes the basic attributes,genealogical relationships,scale status,and temporal changes of domain names based on multi一source domain name data to map domain name portrait.The research can help grasp the overall development of Internet domain names,and can provide support for network traffic filtering,malicious domain name detection,and network space asset attribute identification.
Key words:domain name portrait;cyberspace mapping;pedigree construction;spatiotemporal change analysis
0引言
随着网络技术的飞速发展,网络空间逐步成为
人类生产活动的第二空间,网络空间测绘也逐渐成
为学术界研究的热点#网络空间测绘旨在将网络空间、地理空间和社会空间进行相互映射,绘制一份
动态实时可靠的网络空间地图[1]#当前网络空间测
绘以面向实体资源测绘的IP资产属性、地址位置、
网络拓扑关系的研究和以面向虚拟资源测绘的人
物画像、服务画像等为主#
域名的相关研究集中在域名分类研究[2-3]、域
*基金项目:国防基础科研计划项目(JCKY2039233B003)
《信息技术与网络安全》2021年第40卷第
名安全性研究[4-9]、恶意域名检测710-128、域名发展情况及现状的研究713-158,对域名的全面刻画和动态刻画的研究还相对较少#然而通过对域名的属性刻画和发展趋势研究能够更好地了解和认识网络空间域名的分布情况、域名的规模、域名间的相互关系、域名的历史变化情况,有助于间接了解互联网整体的发展情况,可为恶意域名识别、恶意流量监测、流量访问控制等提供支撑#
因此,本文提岀了域名画像这一概念,设计并实现了一套域名画像系统,涵盖域名基础属性识别、谱系特征识别和时空变化特征识别,对网络空间测绘具有重要作用#本文的主要研究内容和成果
6期投稿网址:www.pcachina 1
如下:
(1) 本文提出了域名画像概念,从名称、域名证
书、注册时间、到期时间、对应证书、状态信息、域 名所有者、解析路径、历史解析情况、谱系关系、位 置分布情况等20个维度实现对域名刻画;
(2) 设计并实现多源域名数据获取模块,实现
18亿域名(含子域名)自2019年12月至2020年12 月的历史解析信息的获取,2 000多万域名的注册 信息、证书信息、主页信息等基本信息的获取;
(3) 设计了域名谱系构建方案,实现了 200个顶
级域名的谱系构建,为域名规模的分析提供数据 支持;
(4) 设计并实现了域名时空变化分析流程,对全 球18亿域名数据进行时空变化分析%
!域名画像的概念
1.1域名画像的含义
定义1 (域名画像):将域名抽象成基础属性、谱
系关系、时空轨迹等一系列相关属性的方法,是采
用多维属性信息描述域名的模型,如图1所示%
定义2 (域名基础属性):域名基础属性是刻画 和描述域名某一时刻静态特征的集合,包括域名对
应IP 地址、域名拥有者、注册时间、到期时间、对应 证书、证书加密方式、状态信息、邮箱信息、更新时 间、注册链接等相关属性信息%
定义3 (域名谱系关系):域名谱系关系是指通 过域名谱系、域名同源特征、域名解析路径等属性 描述域名的渊源关系%域名谱系是指根据域名产生
的渊源关系、所有者关系、解析路径关系对域名进
行分类,构建如图2所示的谱系关系图%其中根域 名是指域名分层结构中最高层级的域,用一个点表
示,在使用过程中一般不做显示;顶级域作为根域 的下一层级,也称一级域名,一般按国家划分或按 组织性质划分,按国家划分一般使用国家代码作为 域名,例如美国、中国、日本、俄罗斯、法国分别使
用us 、cn 、jp 、ru 、fr 等字母表示,按组织性质划分一 般使用能够代表组织或机构简写的字母作为域名,
图2谱系关系示意图
2
投稿网址:www.pcachina 《信息技术与网络安全》2021年第40卷第6
期
例如com表示商业机构,org表示非营利性组织等"
二级域名是顶级域的下一层级,是公司、组织、个人
都可以注册的普通域,例如baidu,google;三
级域名是在二级域名的基础上添加一些字符,用于
对二级域名进行扩展的域名,例如map.baidu$
域名的同源特征是指两个或多个域名具有共同的
祖先域名节点$域名的解析路径是指DNS在实现
域名与IP相互映射关系时先后请求的所有服务器
及IP地址,将服务器%IP被请求顺序记录下来就得
到该域名的解析路径&
定义4(域名时空轨迹):是指通过域名时间变化%域名空间变化%域名与IP地址映射关系的变化
描述域名随时间所产生的数量变化、空间位置变化
及解析IP地址的变化关系等,是域名的动态刻画&
1.2域名画像的目标
域名画像的目标是快速%大规模地获取各类域
名相关数据,使用多维度特征对域名全方位刻画,
为域名领域概况研究提供支撑&包括以下几方面:
(1)全面掌握互联网域名的发展规模、行业分布,
不同顶级域名所包含子域名数量等特征&
(2)全面获取域名的基础属性信息&
(3)针对不同来源%不同时刻%不同方式获取的
多源%动态数据进行属性抽取,并对比不同来源信
息的真实性%时效性,确保属性抽取结果具有真实%
可靠%时效性等特征,对不同属性进行融合分析,形
成对域名的认识和知识表达&
(4)域名历史分布变化和数量增减数据统计,对
域名动态进行跟踪,识别时空变化,预测发展趋势& 1.3域名画像难点与挑战
(1)大规模域名的发现
域名画像需要全面获取当前互联网中可用域
名信息,然而由于域名的动态性%广泛性等特性以
及缺乏有效的索引机制,快速全面获取域名全集是
域名画像首要解决的问题,例如goog1e所包含
的二级域名和三级域名数量随着Google业务数量
或者业务场景的变化呈现动态增长或消亡的特征,
对Google域名全集的获取带来很大的困难&
(2)域名属性填充问题
为满足域名基础属性%谱系属性%时空轨迹等
属性的填充,需要对海量域名的Whois信息、证书
信息、解析路径等信息进行获取&由于域名数据量大、属性特征复杂,因此需要对互联网中不同网站
《信息技术与网络安全》2021年第40卷第
的信息进行主动请求,并且在域名数据获取之后需要具备一定的自然语言处理或者行业专业知识的人员,对信息正确性%完整性%时效性以及重复率进行分析推断,以满足域名属性的时效性%完整性和准确率&
(3)大规模数据存储问题
由于域名画像数据具有数据量大、数据描述维度多、时空变化动态性强等特点,需要针对性地设计数据存储方式和存储结构,以提高查询检索和数据分析的效率&
(4)面向谱系、时空变化等海量数据的分析
为实现域名谱系和时空变化分析,需要对所有域名解析路径进行获取和持续监测,由于域名(含子域名)数量巨大,导致所有域名进行解析路径获取和历史解析数据分析开销较大,另外对海量域名历史解析数据分析需要基于域名多维特征对域名进行排序,保证分析优先级,给系统性能带来很大挑战$
2系统设计与实现
本文设计并实现了一套大规模域名画像系统,该系统由数据层、业务逻辑层、表示层三层组成,系统流程如图3所示$为实现域名画像目标,本文以主动探测和获取开源数据相结合的方式,获取域名的基础属性信息、关联IP信息、网站信息、域名解析信息等各类基础数据,利用域名谱系识别技术和域名
时空变化分析技术,形成大规模域名的多维画像库;在此基础上,对域名资产数据进行了初步分析,通过域名整体概况了解互联网域名发展状况、分布情况和变化情况$
本文系统中,数据层主要获取域名的历史解析数据、Whois信息、域名的证书信息、IP定位信息、域名解析路径等信息,为后续分析提供数据支持;业务逻辑层实现域名的谱系识别和域名的时空变化分析,域名谱系识别主要通过对域名所有者信息的统计、域名证书一致性判断、解析路径相似性匹配、域名字符串层次结构划分等多种方式实现,域名的时空变化分析主要以域名对应IP地址的变化和域名空间变化分析为主;表示层是基于业务逻辑层的分析结果进行呈现;直观清晰地表示域名属性信息、谱系规模和域名的时空变化情况$
2.1多源域名数据获取系统
为解决前文提到的大规模域名发现和域名属6期投稿网址:www.pcachina 3
性填充所带来的困难,本文设计了如图4所示的多
源域名数据获取系统,使用第三方数据和主动探测 相结合的方式实现了大规模域名的发现,并对通过
主动请求获取的域名Whois 信息、证书信息、解析 路径、解析IP 、主页信息等域名相关信息,完成域 名基础属性的填充#系统主要包含以下三个模块:
(1)域名发现模块:该模块以ICANN 组织
的域名相关文件、顶级域名的区域文件、反向DNS
记录等第三方数据作为大规模域名获取的基础;通 过对网络IP 地址存活情况扫描,并对存活IP 地址
和端口进行访问,以获取存活IP 地址对应域名的
方法和网站相关链接嵌套爬取的方法作为大规模
域名获取的补充#通过第三方数据和主动探测数据
相结合有助于获取到全面的域名数据集,应对大规
模域名发现的挑战#
(2)域名静态信息获取模块:该模块主要实现3
个功能,一是实现以Whois 信息为基础的属性填充, 请求互联网中各大网站提供的Whois 数据库,获取 域名对应的所有者信息、注册时间、到期时间、状态
信息;二是实现以域名解析为基础的属性填充,为 每一个域名进行迭代查询,并记录查询结果和所请 求的域名服务器的地址及先后顺序,完成域名解析
多源数据获取
数据清洗
数据层数据存储
Whois
信息统计
证书一致性
匹配
解析路径 相似性匹配
域名字符串 后缀提取
域名对应 IP 变化域名位置 变化
业务逻辑层
【域名:所有者】域名静态信息获取模块
【域名:到期时间]【域名:关键词】【域名:相关链接】
【域名:应用场景】
图3域名画像实现流程
I 域名主页信息获取模块
图4多源域名数据获取模块
模拟域名请求 获取主页信息
搜索引擎 获取域名信息
gTLD 区域文件
1CANN
]---------网站爬取|-------| 1 1
.
请求Whois 1 1
数据库
Com\INF()等顶级
域名区域文件反向DNS 记录
IP 地址全集
种子URL 地址
文件解析 并提取域名
【域名:注册时间】【域名:状态信息】
模拟DNS 【域名:解析路径】解析过程
【域名:对应IP 地址】【域名:对应文本】
[域名:证韦颁发机构】
模拟域名访问【域名:证书加密方式】
获取网站证书
【域名:证书秘钥】
亠数据拉取」
投稿网 址:www .pcachina 《信息技术与网络安全》2021年第40卷第6
期
路径和对应ip 地址属性的填充;三是实现域名对
应证书信息的获取,模拟浏览器访问域名过程中主 机与网站服务器证书交互过程,获取域名对应证
书,实现证书的颁发机构、加密方式、证书秘钥等属
性的填充$
(3)域名主页信息获取模块:该模块实现对域名
相关主页信息的获取,主要有两种方式,第一种使 用Google 搜索引擎对域名进行搜索,获取互联网中
域名相关文本信息;第二种使用模拟访问域名主页
的方式,获取主页信息的文本、关键词、相关链接、 应用场景等,完成域名主页相关属性的填充$
2.2域名谱系构建
针对主动域名关系爬取受限、域名解析路径覆 盖率低的问题,通过对域名所有者信息的统计、域 名证书一致性判断、解析路径相似性匹配、域名字 符串层次结构划分等多种方式实现域名谱系构建,
满足用户获取域名站点组织结构关系、域名递归解 析关系的需求$在域名谱系构建的基础上实现对域 名规模分析、同源特征分析等目标$域名谱系关联
分析流程如图5所示$主要步骤如下:
(1) 从MongoDB 数据库中获取域名的Whois 信息, 并提取其中的 name 、email 、registar 、domain 等字段 ,
根据这些字段对整体域名集进行统计,以统计结果 作为域名谱系关联分析的依据$
(2) 在Whois 信息无法满足域名谱系构建需求
时,基于域名证书一致性,对相同证书的域名进行 匹配,以匹配结果实现域名的谱系分析$
(3) 在证书匹配之后还存在着部分证书没有获
企业网站域名设计与查询取到证书信息的域名,对于这部分域名以解析路径 相似比对结果作为域名谱系构建的依据$
(4) 在以上三种方案都没有实现域名谱系构建
的情况下,本文以域名字符串本身后缀一致性比对
实现域名谱系构建$
2.3域名时空变化分析
针对域名时空变化和发展趋势缺乏分析的现状,
从域名数量随时间变化和空间位置变化方面进行分 析,为重点域名时空轨迹跟踪提供数据支撑$
通过对域名历史解析数据的获取,抽取域名首 次出现时间和域名最后一次出现时间,从而分析域
名数量随时间的变化关系;从历史解析数据中获取 域名对应IP 地址和该解析记录的时间戳,分析域
名对应IP 地址的变化及对应IP 地址数量的变化,
从变化情况判断域名是否部署在CDN 上,结合域名 对应IP 地址的地理位置分析域名位置分布特征等
信息$总之,从时间维度而言,以域名对应IP 数量、 域名新增数量、域名消亡数量等为主来进行分析; 从空间维度而言,以国家或地区域名分布数量为主
进行分析,掌握域名数量、对应IP 地址、空间变化 等特征随时间的变化规律$
对域名时空轨迹分析流程如图6所示,主要步 骤如下:
(1)对域名解析记录进行数据清洗,提取域名、
图5域名谱系关联分析流程图
《信息技术与网络安全》2021年第40卷第6期 投稿网址:www.pcachina
5
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论