(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 112966158 A (43)申请公布日 2021.06.15 | ||
(21)申请号 CN202110297230.9
(22)申请日 2021.03.19
(71)申请人 天桐(苏州)网络科技有限公司
地址 215010 江苏省苏州市高新区竹园路209号4号楼1311室第7工位(集登记)
(72)发明人 邹福泰
(74)专利代理机构 31220 上海旭诚知识产权代理有限公司
代理人 郑立
(51)Int.CI
G06F16/903(20190101)
G06F16/906(20190101)
G06F16/335(20190101)
G06F40/295(20200101)
G06N3/04(20060101)
G06N3/08(20060101)
权利要求说明书 说明书 幅图 |
(54)发明名称
一种IoC自动抽取与挖掘方法与系统 | |
(57)摘要
本发明公开了一种IoC自动抽取与挖掘方法,涉及计算机网络安全领域,包括词嵌入层、序列表示层、全连接层,序列表示层包括双向LSTM网络、注意力机制和上下文特征,基于该方法,本发明还公开了IoC自动抽取与挖掘系统,包括文本自动获取模块、非结构化文本预处理模块、攻击指标(IoC)提取模块、IoC数据库和IoC短语匹配库。本发明针对非结构化文本,利用正则匹配和双向长短期记忆网络的组合算法,结合注意力机制和上下文内容特征,进一步提高了IoC提取的准确率和有效率。 | |
法律状态
正则匹配省
法律状态公告日 | 法律状态信息 | 法律状态 |
2021-06-15 | 公开 | 公开 |
2021-07-02 | 实质审查的生效 | 实质审查的生效 |
权 利 要 求 说 明 书
1.一种IoC自动抽取与挖掘方法,其特征在于,包括词嵌入层、序列表示层、全连接层;
所述词嵌入层将输入词语转换为词向量;
所述序列表示层为双向LSTM结构;
所述全连接层对所述词嵌入层和所述序列表示层的输出进行综合,输出表示是否为有效IoC。
2.如权利要求1所述的IoC自动抽取与挖掘方法,其特征在于,所述词嵌入层采用Word2Vec中的Skip-Gram算法进行训练。
3.如权利要求1所述的IoC自动抽取与挖掘方法,其特征在于,所述序列表示层还包括注意力机制。
4.如权利要求3所述的IoC自动抽取与挖掘方法,其特征在于,所述序列表示层还包括上下文特征。
5.如权利要求4所述的IoC自动抽取与挖掘方法,其特征在于,所述序列表示层在每个句子输入之前,对所述双向LSTM结构中的隐藏层的权值置零。
6.一种采用如权利要求1-5任一项所述方法的IoC自动抽取与挖掘系统,其特征在于,包括文本自动获取模块、非结构化文本预处理模块、IoC Term匹配库、IoC提取模块、IoC数据库;
所述文本自动获取模块收集IoC文本信息;
所述非结构化文本预处理模块对所述IoC文本信息进行清洗;
所述IoC Term匹配库存储IoC Term;
所述IoC提取模块提取IoC;
所述IoC数据库存储所述IoC提取模块提取到的所述IoC。
7.如权利要求6所述的IoC自动抽取与挖掘系统,其特征在于,所述IoC提取模块包括正则表达式匹配模块、IoC有效性判断模块。
8.如权利要求7所述的IoC自动抽取与挖掘系统,其特征在于,所述正则表达式匹配模块通过正则表达式匹配有效IoC。
9.如权利要求8所述的IoC自动抽取与挖掘系统,其特征在于,所述正则表达式匹配模块包括两类正则表达式,分别匹配规则严整的IoC和结构化特征不明显的语句中的IoC。
10.如权利要求7所述的IoC自动抽取与挖掘系统,其特征在于,所述IoC有效性判断模块对IoC进行有效性分类,识别出有效IoC。
说 明 书
<p>技术领域
本发明涉及计算机网络安全领域,尤其涉及一种IoC(攻击指标,IndicatorofCompromise)自动抽取与挖掘方法与系统。
背景技术
近年来,随着网络技术的快速发展,网络上的安全威胁也在增加。网络安全专家和分析师们通过积极地在公共平台上交换威胁情报来跟进对这些威胁的研究和防范。威胁情报是基于证据的知识,它是围绕着现存的或者即将对资产发生威胁和危害的信息,包括了上下文、机制、指标、含义或者以行动为中心的建议。这种情报可用于告知受害对象,让他们能够针对这样的威胁和危害进行决策。这些威胁情报大多为描述性文本包涵了关键信息(例如,僵尸网络IP,恶意软件的签名等)。这些信息通过文章、博文或是白皮书的形式呈现出来。更进一步,这些信息能够被转化成结构化信息,即攻击指标(IoC,IndicatorofCompromise),参照OpenIoC(OpenIndicatorofCompromise)标准、STIX(StructuredThreatInformationExpression)标准等。这有利于计算机进行分析,并且基于此快速开发出应对威胁的方案。
随着计算机应用领域的不断扩大,自然语言处理受到了人们的高度重视。机器翻译、语音识别以及信息检索等应用需求对计算机的自然语言处理能力提出了越来越高的要求。为了使计算机能够处理自然语言,首先需要对自然语言进行建模。自然语言建模方法经历了从基于规则的方法到基于统计方法的转变。
在对统计语言模型进行研究的背景下,Google公司在2013年开放了Word2vec这一款用于训练词向量的软件工具。Word2vec可以根据给定的语料库,通过优化后的训练模型快速有效地将一个词语表达成向量形式。Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。Skip-gram模型是在给出目标单词(中心单词)的情况下,预测它的上下文单词出现的概率。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论