2022年05-06月
35
引言
开源情报是通过对公开信息的系统性搜集、处理和分析而得到的情报。随着互联网和大数据技术的飞速发展,开源情报的地位不断上升,发挥的作
智能化开源情报分析系统设计与实现
◎◎达而观信息科技(上海)有限公司◎◎桂洪冠◎◎谭新
开源情报素具有材量大、来源广泛、价值密度低等特点,为切实解决信息过载、多源异构数据处理、要素查证补充、信息真伪判断等问题,多主题任务快速响应以及情报安全问题提升了开源情报分析效果,开展了对分布式爬虫、内外网隔离同步、信息筛选模型、机器人流程自动化、人机协同等系统关键部件的技术路线分析,提出了一种以需求为牵引,数据为基础,任务为中心的数据翔实、分析深入、界面友好、结果准确、模型通用的智能化开源情报分析系统设计与实现思路,为装备研究论证提供技术基础。
用也愈加突出。
首先,开源情报的搜集领域具有广泛性,互联网上有海量的信息素材,覆盖多个领域,可以快速填充情报地图并出情报空白;其次,开源情报的来源具有稳定性和公开性的特点,
绝大多数信息都可以通过公开的观察研究而获得,在大数据时代有着较高的性价比;再次,开源情报的搜集较为容易,互联网时代下许多文献和资料都已数字化,仅需要通过关键词搜索和查即能到所需的信息。
前沿探讨
36
MAY-JUNE 2022
进入人工智能时代后,美国投入了大量资金推动图像识别、自然语言处理等技术,用于情报的处理,特别在是开源情报处理领域进行落地应用。2019年底,BAE 系统公司(BAE)获得美国陆军价值4.37亿美元合同,主要内容是向陆军和陆军情报与安全司令部(INSCOM)批准的合作伙伴提供开源情报支持。
与美国相比,我国的开源情报建设工作相对滞后,但得益于近年来国内人工智能产业的蓬勃发展,目前我国的开源情报建设事业正处于一个绝佳的发展窗口期,在“十四五”规划的指引下,开源情报建设将向智能化大步迈进。本文以开源情报处理流程中面临的技术挑战为出发点,提出一种以需求为牵引,数据为基础,任务为中心的数据翔实、分析深入、界面友好、结果准确、模型通用的智能化开源情报分析系统设计与实现思路,为后续装备研究论证提供技术基础。
1 面临的技术挑战
基于开源情报工作的特点,本文梳理出在开源情报处理流程中,情报搜集、情报处理、情报分析等环节所面临的五大技术挑战:
1.1 开源情报安全
近年来中美之间网络空间[1]态势愈发紧张,美国安全部门屡屡为我国扣上“恶意网络攻击”的帽子,双方在网络空间的较量争夺也更加激烈。而开源情报搜集虽然是获取公开源信息,但大规模网络爬虫以及特定的网络访问行为都会引起强敌的注意,可能导
致用户单位被强敌追踪定位,乃至遭到APT 攻击[2]。
1.2 信息过载
随着互联网在全球的普及,开源情报分析所需处理的数据呈爆炸性增长,以Facebook 为例,每天新增的数据量高达600TB,而一个熟练的情报分析人员每天能够分拣处理的信息也不超过10000条。如何从海量数据中筛选出可能具备情报价值的信息,是开源情报分析必须要面对的挑战,对于高价值的信息还需要实现快速预警,避免漏情。
1.3 多源异构数据处理复杂
目前开源情报分析需要处理的数据是典型的多源异构数据,涉及不同类型数据(如结构化、半结构化、非结构化)、不同格式数据(如图片、视频、文本、网页等)、不同分类数据(如新闻、对话、专题报告、制式年鉴等)。要对这些数据价值进行充分挖掘,需要对这些多源异构数据进行多维度分类筛选,针对每类甚至每个数据的特点进行个性化处理,灵活配置多种处理规则与模型,将多源异构数据转换为较为统一的结构化数据。
1.4 分析任务主题多变
当今世界正经历百年未有之大变局,国际形势复杂多变,情报分析工作也随之充满了不确定性。除了日常值班的例行监控任务外,上级用户时常会临时对某一主题提出分析需求,业务单位需要快速进行响应,在短时
间内形成数据翔实、分析深入、结果准确、可视化良好的分析报告。这对系统数据融合的准确程度,内置分析模型的丰富程度,分析流程配置的灵活程度等提出了很高的要求。
1.5 信息关键要素缺失
公开来源获取到的情报质量通常参差不齐,从社交媒体、新闻报道中获取到的事件信息往往只有只言片语,无法完整提取出情报的5W1H 要素[3],需要从多个来源获取信息,相互补充印证,填补缺失的情报要素。这需要系统具备较强的要素提取和事件聚合能力。
1.6 信息真伪难辨
由于公开来源情报回声效应的存在,情报分析人员必须对情报的来源进行去个性化处理,使得到的信息和资料最接近于“真相”所表达的含义。另外,情报分析人员还需要对获取的信息和资料进行甄别,哪些是他国为施行战略欺骗所释放出的虚假信息和资料。这对开源情报分析系统辅助情报分析人员进行去伪存真的能力提出了很高的要求。
正则匹配一张图片2 技术路线分析
针对开源情报素材量大、来源广
泛、价值密度低等特点,为切实解决信息过载、多源异构数据处理、要素查证补充、信息真伪判断,多主题任务快速响应以及情报安全问题,提升开源情报分析效果,我们确定了如下技术路线:
2022年05-06月
37
2.1 分布式爬虫
为防止开源情报搜集行为被强敌追踪,系统采用分布式爬虫,配备多属地IP 池,灵活切换爬取IP ,不在同一IP上进行高频爬取行为。同时配备多个社交媒体的账号池,账号与IP 进行匹配绑定,轮流使用不同账号进行社交媒体信息采集。用户可以自定义爬取网站,系统自动根据爬取网站信息,推荐爬取策略,包括爬取频率、爬
取使用IP、爬取使用账号等。用户可自行修改相关的爬取策略,并保存到策略库中,之后可再次调用。技术路线示意图如图1。
2.2 采集分析内外网隔离遵照网络安全十条禁令,涉密计算机严禁连接互联网。开源情报虽然采集自公开来源,但经过整理加工,形成情报以后,性质转变为涉密信息,需要在涉密计算机上存储处理。同时,开源情报需要与秘密来源情报相互印证,才能发挥更大价值。因此本系统将采集子系
统和分析子系统分别安装在外网(互联网)和内网(涉密网),中间使用高速单向传输设备进行摆渡传输。该高速单向传输设备支持大规模数据单向实时传输,同时可对文件类型以及数据完整性进行校验,确保数据无篡改。用户可自定义数据传输计划,在内网可按传输任务或传输数据类型指定数据存储位置,与内网数据源进行灵活对接。技术路线示意图如图2。
2.3 规则模型双重筛选
为解决数据过载问题,本系统采
图1 分布式爬虫技术示意图
图2 单向传输技术示意图
图3 情报素材分拣模型示意图
前沿探讨
38
MAY-JUNE 2022
用规则加模型双重筛选的方式,从海量信息中筛选出具备情报价值的信息。
具体而言,在采集端,由用户配置采集网站、采集栏目、采集关键词和采集规则(正则表达式),系统可利用预训练模型[4]对关键词进行扩展,供用户选择。在该环节目标是追求较高的素材召回率,为第二步模型精确筛选提供足够的素材。
当原始素材被导入内网后,由模型进行进一步精确筛选。该模型是通过用户历史数据处理结果训练而成,主要是将用户历史选择处理通报的素材作为正样本,未选用素材作为负样本,训练出素材分拣模型。素材分拣模型会对原始素材的重要性进行打分,为用户提供参考。模型会根据用户在系统使用过程中对素材的选择,自动
进行校正。同时也支持用户自定义分拣规则,规定素材展示顺序等。提供
图4 机器人流程自动化示意图
全文和标题检索,并支持多维度的数据筛选功能,筛选维度可由用户自行定义,确保用户能够快速获取到高价值情报素材。技术路线示意图如图3。
2.4 基于RPA 的数据处理与分析流程构建
R P A(R o b o t i c p r o c e s s automation)是指机器人流程自动化技术,它可以根据用户设定好的业务流程,通过模拟人类在软件系统中的交互动作,自动完成对应数据处理和分析工作。用户可以在设计平台上,用拖拽的方式将各种数据处理插件、NLP 处理插件,可视化插件组装成为一个数据处理与分析流程,没有编程经验的用户也可以快速上手使用。而具备开发能力的用户则可自行编写代码,开发各种类型的插件,实现对多源异构
数据的处理,构建高度定制化的流程。
这些流程可在本地单机执行,也可上传至控制中心进行统一协调安排,一个主题分析任务往往需要多个流程协同作业完成。分析流程可以保存至流程库,作为专家经验的沉淀,后续遇到类似分析任务,可在已有处理流程上做少量调整,例如要求的可视化形式不同,直接更换可视化插件即可,实现任务的快速响应。
此外,利用RPA 模拟人类软件操作的特点,本系统无需通过底层接口打通,就可与内网部署的各种独立系统进行交互,如机器翻译系统、通报系统、态势系统等,为多源情报融合提供了极大的便利。技术路线示意图如图4。
2.5 人机协同的情报产品生成
情报分析的最终目的是生成一份情报产品,为终端用户提供决策支撑。而情报产品的生成需要对采集到的信息真伪进行判别,并从多个来源提取出情报六要素(5W1H),再根据行文规范完成相应的报告。这些工作仅靠计算机完是较为困难
的,因此我们采取人机协同的方式,确保产出高质量的情报产品。
本系统提供报文编辑模块,支持用户配置报文模板,可根据模板快速生成初版报告。同时根据用户选择的分析任务和报文主题,自动推荐历史相关报文、当前相关素材和对应分析结果。历史相关报文主要推荐之前生产通报的类似主题报文,为用户提供参考。当前相关素材主要根据主题相关性、时效性、来源权威性等维度推荐采集到的原始素材,为用户撰写报
2022年05-06月
39
图5 情报生产流程示意图
图6 系统总体框架图
文提供素材支撑。针对素材进行了命名实体识别和关键要素提取,用户可以快捷掌握素材要点,梳理总结出对应情报要素。同时提供素材聚类和素材比对功能,支持查看同一聚类主题下,两份素材的差异,辅助用户进行真伪判别。技术路线示意图如图5。
3 系统设计与技术实现
3.1 总体框架
本项目以TW 地区近期热点事件
为例(不失一般性),针对开源情报工作特点,构建了一个智能化开源情报分析系统,系统总体框架如图6。
3.2 子系统设计
系统总体可分为数据采集子系统、单向数据传输子系统、数据分析子系统、系统管理子系统四个部分。数据采集子系统部署在互联网端,主要是对接多种类型的公开数据源,如新闻网站、社交媒体、民调网站等等。通过用户配置对应的采
集内容、过滤规则以及采集策略,实现对多种类型公开源信息的采集。单向传输子系统主要是将外网采集到的公开源信息,按照用户制定的传输计划,以二维码的形式进行摆渡,单向传输至内网用户指定的数据目录下。子系统还会对数据完整性进行检查校验,支持断点续传。
数据分析子系统是智能化开源情报系统的核心,部署于内网,主要由数据存储、任务管理、业务分析三个模块构成。其中数据存储模块包括业
务数据存储和索引存储两部分内容。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论