(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 107168984 A
(43)申请公布日 2017.09.15
(21)申请号 CN201710165255.7
(22)申请日 2017.03.20
(71)申请人 国家计算机网络与信息安全管理中心
    地址 100029 北京市朝阳区裕民路甲3号
(72)发明人 毕慧 付戈 李超 王振宇 李斌斌 王树鹏
(74)专利代理机构 北京君尚知识产权代理事务所(普通合伙)
    代理人 邱晓锋
(51)Int.CI
     
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种基于多文件格式自动识别的跨地域关联统计方法
(57)摘要
      本发明涉及一种基于多文件格式自动识别的跨地域关联统计方法,属于大数据检索分析领域。该方法通过统一SQL查询入口接收SQL查询请求;然后对SQL查询请求进行解析,以识别查询的不同文件格式;然后全局节点将解析成功后的查询请求发送到对应的分节点;然后各分节点进行相应的查询操作,并将查询结果回传给全局节点;最后全局节点对各分节点回传的数据进行关联统计并输出统计结果。本发明可以应用在离线或在线数据统计场景中,能够实现多种文件格式的自动识别,突破了地域限制,能够将不同数据中心的数据进行关联统计。
法律状态
法律状态公告日
法律状态信息
法律状态
2021-10-29
发明专利申请公布后的驳回
发明专利申请公布后的驳回
2018-01-26
正则匹配快代理
实质审查的生效
实质审查的生效
2017-09-15
公开
公开
权 利 要 求 说 明 书
1.一种基于多文件格式自动识别的跨地域关联统计方法,其步骤包括:
1)通过统一SQL查询入口接收SQL查询请求;
2)对SQL查询请求进行解析,以识别查询的不同文件格式;
3)全局节点将解析成功后的查询请求发送到对应的分节点;
4)各分节点进行相应的查询操作,并将查询结果回传给全局节点;
5)全局节点对各分节点回传的数据进行关联统计,并输出统计结果。
2.如权利要求1所述的方法,其特征在于:步骤1)所述统一SQL查询入口支持多种过滤条件,包括数值类型的判定、逻辑表达式、模糊匹配、正则匹配,并且这些过滤条件能够任意组合。
3.如权利要求1所述的方法,其特征在于:步骤2)通过库表信息获取系统内库表唯一标识,通过标识符获取文件存储属性,从而识别不同的文件格式。
4.如权利要求1所述的方法,其特征在于:步骤2)所述不同文件格式包括HDFS中的Parquet文件;本地磁盘中Lucene索引文件;HBase中Hfile文件;其中,Parquet文件提供离线统计分析功能,Parquet格式支持多层嵌套和多种格式压缩;Lucene文件提供在线系统的实时统计功能和海量数据的索引查,Lucene文件本身包含内部索引文件并记录数据在文件中的位置信息,加快检索速度,Lucene文件默认采用压缩存储以有效降低存储空间;
Hfile文件提供精确查询功能,通过key/value存储模式实现实时查询,通过MapReduce进行离线处理或者批处理。
5.如权利要求1所述的方法,其特征在于:步骤2)中若解析失败,则返回语法错误。
6.如权利要求1所述的方法,其特征在于:步骤4)中若各分节点查询成功则将数据返回给全局节点,若查询失败且没有超过重查次数,则进行重查,若超过重查次数,则返回查询失败。
7.如权利要求6所述的方法,其特征在于:步骤4)中若数据传输成功,则结束本次查询,若传输失败且没有超过重传次数,则进行重传,否则返回传输失败。
8.如权利要求1所述的方法,其特征在于:步骤5)中若全局节点在规定时间内接收到所有分节点回传的数据,则进行下一步关联统计,否则返回查询错误。
说  明  书
<p>技术领域
本发明涉及一种在多文件格式存储系统中自动识别文件格式关联统计的技术,特别是涉及一种利用统一SQL(StructuredQueryLanguage,结构化查询语言)入口实现多文件格式自动识别并支持跨地域关联统计的方法,属于大数据检索领域。
背景技术
近几年来,随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。动辄达到数百TB甚至数十至数百PB规模的行业/企业大数据已远远超出了现有传统的计算技术和信息系统的处理能力,因此,寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求。
随着需要处理数据量越来越多,在单一服务器系统管辖下根本无法满足目前的数据存储和数据计算分析的需求,因此产生了分布式文件管理系统和基于分布式文件管理系统的检索引擎。
分布式文件系统英文名成为DFS(DistributedFileSystem),即一种允许文件通过网络在多台主机上分享的文件系统,可以让多个机器上的多个用户分享文件和存储空间。它最大的特点是“通透性”,DFS实际上是通过网络来访问文件,在用户和程序看来,就像是访问本地的磁盘一般。目前应用最广泛的分布式文件系统是Hadoop分布式文件系统(HDFS),HDFS是运行在通用硬件上的分布式文件系统。HDFS提供了一个高容错性和高吞吐
量的海量数据存储解决方案,已经成为在线/离线的海量存储事实标准,多年来在各种应用场景提供了可靠高效的服务。HDFS中的文件格式大致上分为面向行和面向列两类。面向行存储:同一行的数据存储在一起,即连续存储,包括SequenceFile,MapFile,Avro,Datafile等。采用这种方式,如果只需要访问每行的一小部分数据,亦需要将整行读入内存,推迟序列化一定程度上可以缓解这个问题,但是从磁盘读取整行数据的开销却无法避免。面向行的存储适合于整行数据需要同时处理的情况。面向列存储:整个文件被切割为若干列数据,每一列数据一起存储,包括Parquet,RCFile,ORCFile等。面向列的格式使得读取数据时,可以跳过不需要的列,适合于只处理每行的一小部分字段的情况。在处理大数据检索时为了有效地节省时间和空间,更适合选用Parquet文件格式。在数据压缩方面,Parquet文件中数据以列的形式存储,所以能将完全不同的值一起存储在内存中,为存储的数据提供了更高的压缩率;在I/O操作方面,Parquet文件只需扫描部分列,大大减少了I/O操作;在编码模式方面,列式存储在压缩选项外提供了一种高效方式来存储数据。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。