关于多元异构数据集成融合技术研究
摘要:文章分析了多源异构数据的融合技术,包括数据采集、数据清洗、数据融合分析等。我们提出了多源异构数据融合技术的应用:一是实现科技决策,二是实现项目查重功能。
关键词:多元异构;数据集成;融合技术
一、引言
随着信息与网络技术的发展,许多企业或组织机构在管理运作中积累了大量数据,比如业务运作、客户、产品和人员等。由于各种数据和信息对企业和组织机构的运营和管理等方面的重要性,大量的信息系统、管理系统被广泛应用于企业和组织机构的各个部门。这些独立的业务子系统虽然提高了局部的效率和应用性。但是,在应用或数据等层面上,这些业务子系统是彼此分离的,它们分别采用了不同的数据库系统以及使用了不同的应用开发技术。各系统的业务逻辑不同,而且在数据库的建设上没有遵循统一的标准。随着时间的推移,每个部门或单位都是一个独立的数据源,每个数据源都是异构的,因而他们之间的信息和组织都不一样,这就构成了一个巨大的异构数据环境。本文的主要任务就是对现有的数据集成技术进行探讨,并简要对相关问题发展现状进行讨论
二、多源异构数据融合技术的分析
多源异构数据融合技术涉及数据采集、数据清洗、数据融合分析三个阶段,针对每个阶段我们首先进行了通用技术研发,然后结合相关科技平台的应用场景,在通用技术的基础上进行了专项开发、调优处理,满足具体的应用需求。
1.数据采集
多源数据来源是结构化数据(关系型数据库)、非结构化数据(文件数据、文本数据、图片数据等)和网络爬虫技术获取的数据,结构化数据和非结构化数据来源项目本身和通过与相关系统对接获取,网络爬虫数据是从互联网上获取数据。
网页爬取结果需要进行去重处理,考虑爬取网页数量非常庞大,对网页去重进行优化处理。网页爬取结果处理是从网页上获取数据后对其进行分析、清洗、转换和存储的关键步骤。以下是处理网页爬取结果的一些常用技术和方法:一是解析HTML:使用HTML解析库(如Beautiful Soup、 lxml、html.parser)来解析网页的HTML结构,从中提取需要的数据。XPath是一种用于从XML或HTML文档中选择数据的查询语言,可以通过XPath表达式来定位和提取数据。二是正则表达式:5.正则表达式是一种强大的工具,可以用于从文本中
匹配和提取特定模式的数据。它们特别适用于处理非结构化数据或需要复杂模式匹配的情况。三是记录日志以便于故障排除和分析。处理网页爬取结果是一个复杂而关键的过程,需要根据具体的爬取任务和数据特点选择合适的技术和方法来处理和存储数据。同时,务必要遵守法律和网站的使用政策,以确保合法和道德的数据采集行为。
2.数据清洗
将多源数据采集完成后,需要完成数据的清洗工作。多源数据的数据结构比较复杂(或是json或是自定义的嵌套结构),不利于数据分析,需要从这些数据中将用户关注的字段单独抽取出来,构建成一个通用的简单的业务模型,一方面简化数据结构、减少数据量,另一方面为数据分析提供通用的简单的数据模式。
数据清洗需要遵循以下要求:
1)数据一致性:按照规则进行命名,生成音视频、图像的id字段,作为数据管理的唯一标识,插入到信息表中。按照不同类型数据格式要求,将音频、视频、文本、图像转换成指定的格式,并按照目录规范,将数据放入目录中。2)缺失数据处理:当某条信息中缺失了对应的音视频,去除Fields.json(或Fields.csv)中的该条记录。当音频或视频等内容文件缺失Fields.json(或Fields.csv)中对应记录时,应补全记录或者删除该
内容文件。3)重复数据处理:去除内容重复的音频、视频、文本和图像数据项。4)内容文件异常处理:对于音频文件,需要截断音频收尾静音部分;对于图像、视频、文本,需要去除或修复异常、错误文件。数据处理过程中要对任务过程监视,处理计算任务调度。
3.数据融合分析
工程技术人员在使用数据清洗功能组件后,可以实时、批量、高速处理多种数据源的非结构化数据,极大地提升了系统的数据处理、分析能力。平台数据清洗和监控过程:数据源直接连接到爬虫数据库,将数据查询出来之后,管道开始进行批量处理,经JSON转换之后,将多余字段移除,按照清洗规则,将符合条件的数据筛选交给下一组件处理。将数据通过字段归并处理之后,按照数据源进行分类处理,并将处理过程中的临时字段移除,将数据发送到消息队列,进行数据的下一步数据融合处理。数据进行规整筛选之后,还会进行文章的智能分析,将文章所涉及的科技领域等相关属性数据进行分析、整合,最后将数据的属性保存。
三、多源异构数据融合技术的应用
为了打破多源异构数据融合障碍,使信息可以在整个企业和机构范围内以协调一致的方式收集、整理、分析和共享。研究者提出了在这种多源异构环境下的数据集成方案。
1.实现科技决策
要实现科技决策,需要做到以下三步:第一步,数据源识别和收集。决策涉及确定需要融合的数据源,包括数据库、API、文本文件、传感器等。需要考虑数据的质量、可靠性和可用性。第二步,数据清洗和预处理。在融合之前,数据通常需要清洗和预处理,以处理缺失值、重复数据、异常值和数据格式问题。决策包括哪些数据预处理方法和规则适用于每个数据源。第三步,数据集成和结合。决策需要选择合适的数据集成技术,以确保数据可以合并到一个一致的数据集中。这可能包括数据库连接、联合查询、数据合并等方法。
2.实现项目查重功能
在多源异构数据项目中实现查重功能可以帮助识别和排除重复的数据,确保数据质量和一致性。具体操作技术为四步:一是数据预处理: 首先,对所有数据源进行预处理。这包括数据清洗、标准化和规范化。确保数据格式一致,去除不必要的空格、特殊字符或标点符号等。二是选择查重算法: 选择适合的查重算法,根据项目需求和数据特点选择合适的算法。一些常用的查重算法包括基于内容的查重算法(如哈希算法、余弦相似度、编辑距离等)和基于实体匹配的查重算法(如数据库比对、模糊匹配等)。三是特征提取: 对数据进行特征提取,将数据转化为一组代表其特征的向量或特征集。特征提取的目的是使数据能够进行比较和匹配。四是查重比对: 使用选择的查重算法对数据进行比对和匹配。根据算法选择,可以进行相似度计
算、字符串匹配、相同字段比对等操作。比对过程可以逐对比对数据集中的每条记录,或者使用索引等优化技术提高匹配效率。
四、结束语
数据集成经过多年的研究,已形成了几种典型的集成方法,虽然这些方法各有不足,但随着一些关键问题的解决,依赖这些方法的数据集成方案正在被越来越多地应用到各个领域。今后,数据集成的研究可能进一步向诸如:基于网格、本体语义的数据集成方案的研究;针对集成数据的完整性、一致性约束的研究;以及数据集成过程中安全、可靠的数据传输技术等方面发展。
正则匹配哈希值参考文献:
[1] 朱鸿雨,金志凌,洪宇,等. 面向问题复述识别的定向数据增强方法[J]. 中文信息学报,2022,36(9):38-45.
[2] 金波,陈坚,李佳男,等. 大数据时代档案数据资源整合探究[J]. 档案与建设,2022(9):18-23.
[3] 王子桢. 市级国土空间基础信息平台设计与实现——以山南市为例[J]. 中国资源综合利用,2023,41(7):24-26.
[4] 王哲,王峰,胡钟颢,等. 边缘计算在流程行业应用展望[J]. 中国电信业,2022(6):53-57.
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论