一种海量小文件快速识别处理的方法及系统--688IT编程网

(19)中华人民共和国国家知识产权局

	(12)发明专利说明书
		(10)申请公布号 CN 107657020 A (43)申请公布日 2018.02.02

(21)申请号 CN201710885836.8

(22)申请日 2017.09.27

(71)申请人上海斐讯数据通信技术有限公司

地址 201616 上海市松江区思贤路3666号

正则匹配快代理(72)发明人魏晓林

(74)专利代理机构杭州千克知识产权代理有限公司

代理人周希良

(51)Int.CI

权利要求说明书说明书幅图

(54)发明名称

一种海量小文件快速识别处理的方法及系统

(57)摘要

本发明公开了一种海量小文件快速识别处理的方法及系统，用于减轻数据处理口的压力和缩短数据处理的等待时间。其包括：S1：通过预设的命名规则，以时间戳为生成的小文件命名，并将预设时间段内生成的小文件统一保存至文件夹中；S2：将所述时间段分为各个时间点，根据预设的正则匹配法，提取出所述文件夹中与所述时间点匹配的小文件；S3：将所述提取的小文件发送至后台服务器进行数据处理。采用本发明，可以使后台服务器快速识别处理移动终端设备发送的海量小文件，提升数据处理速度。

法律状态

法律状态公告日	法律状态信息	法律状态

权利要求说明书

1.一种海量小文件快速识别处理的方法,其特征在于,包括步骤:

S1:通过预设的命名规则,以时间戳为生成的小文件命名,并将预设时间段内生成的小文件统一保存至文件夹中;

S2:将所述时间段分为各个时间点,根据预设的正则匹配法,提取出所述文件夹中与所述时间点匹配的小文件;

S3:将所述提取的小文件发送至后台服务器进行数据处理。

2.根据权利要求1所述的一种海量小文件快速识别处理的方法,其特征在于,步骤S1还包括步骤:

接收预设的命名规则,所述时间戳为设备当前显示的机器时间。

3.根据权利要求2所述的一种海量小文件快速识别处理的方法,其特征在于,还包括步骤:

将预设的时间段分为各个时间点,通过所述时间点当前时间的数字号码标识该时间点。

4.根据上述任一权利要求所述的一种实现海量小文件快速识别处理的方法,其特征在于,还包括步骤:

根据预设的正则匹配法,将所述时间点与所述小文件名称中的时间戳对比,当该时间戳与所述时间点名称匹配时,提取出以该时间戳命名的小文件。

5.根据权利要求1所述的一种实现海量小文件快速识别处理的方法,其特征在于,所述步骤S3还包括步骤:

根据提取的小文件的名称中的时间戳,按照时间戳的时间先后顺序,将其发送至后台服务器依次进行数据处理。

6.一种海量小文件快速识别处理的系统,其特征在于,包括:

存储模块:用于通过预设的命名规则,以时间戳为生成的小文件命名,并将预设时间段内生成的小文件统一保存至文件夹中;

提取模块:用于将所述时间段分为各个时间点,根据预设的正则匹配法,提取出所述文件夹中与所述时间点匹配的小文件;

发送模块:用于将所述提取的小文件发送至后台服务器进行数据处理。

7.根据权利要求6所述的一种海量小文件快速识别处理的系统,其特征在于,所述存储模块还包括:

命名单元:用于接收预设的命名规则,所述时间戳为设备当前显示的机器时间。

8.根据权利要求7所述的一种海量小文件快速识别处理的系统,其特征在于,还包括:

标识模块:用于将预设的时间段分为各个时间点,通过所述时间点当前时间的数字号码标识该时间点。

9.根据权利要求6至8所述的一种海量小文件快速识别处理的系统,其特征在于,还包括:

对比模块:用于根据预设的正则匹配法,将所述时间点与所述小文件名称中的时间戳对比,当该时间戳与所述时间点名称匹配时,提取出以该时间戳命名的小文件。

10.根据权利要求6所述的一种海量小文件快速识别处理的系统,其特征在于,所述发送模块还包括:

排序单元:用于根据提取的小文件的名称中的时间戳,按照时间戳的时间先后顺序,将其发送至后台服务器依次进行数据处理。

说明书

<p>技术领域

本发明涉及到计算机数据处理领域,尤其涉及一种海量小文件快速识别处理的方法及系统

背景技术

当今互联网,数据呈现爆炸式增长,社交网络、移动通信、网络视频、电子商务等各种应用往往能产生亿级甚至十亿、百亿级的海量小文件。随着移动终端设备上的应用越来越多,服务器要处理的小文件数量越来越庞大。

在对海量小文件进行处理时,大量小文件都是在一个文件夹下存放,采用多线程处理,往往是单个线程处理一个文件夹下的文件,将单个文件夹下的全部文件读入内存后再进行后期处理。

正则匹配对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。通过正则匹配,可以定义对不同文件进行筛选和提取。

公开号为CN106951529A的专利提供了一种海量小文件的管理方法及系统,包括接收待存储的文件;判断所述文件的大小是否低于预设存储值,如果是,则判定为小文件;确定小文件的元数据文件,并将小文件的元数据保存在元数据存储单元;将小文件合并至与元数据存储单元一一对应的大文件中,直至大文件达到预设存储值再存储大文件及其对应的元数据存储单元。该发明通过判断文件是否达到预设存储值来存储管理小文件,无法对小文件进行分类,将存储的小文件进行筛选提取,发送给后台服务器进行处理。

发明内容

一种海量小文件快速识别处理的方法,包括步骤:

S1:通过预设的命名规则,以时间戳为生成的小文件命名,并将预设时间段内生成的小文件统一保存至文件夹中;

S2:将所述时间段分为各个时间点,根据预设的正则匹配法,提取出所述文件夹中与所述时间点匹配的小文件;

S3:将所述提取的小文件发送至后台服务器进行数据处理。

进一步的,步骤S1还包括步骤:

688IT编程网

一种海量小文件快速识别处理的方法及系统

发表评论

推荐文章

C#中利用正则表达式实现字符串搜索

正则表达式匹配方法和系统及查装置[发明专利]

jmeter正则表达式提取器的使用

详解Python中正则匹配TAB及空格的小技巧

grep 不匹配正则

热门文章

一种从非结构化数据提取结构化数据的方法

【原创】如何快速将LoadRunner录制的脚本转化为Jmeter脚本,避免

一种减少图像标签融合冗余计算的方法

一种基于智能机器人的双向问答数据处理方法和系统

人事关系图谱构建方法、装置以及计算机存储介质

一种变正则化偏差补偿符号子带自适应滤波器

利用卷积神经网络代理经由梯度下降的技术设备的外形优化

获取第一应用程序中信息的方法、装置及终端设备

探地雷达多尺度全波形双参数反演方法

基于动态字典的语音语义识别方法

一种数据的过滤方法、装置、电子设备及存储介质

一种基于图数据库的家谱构建、查询方法和系统

一种基于卷积神经网络的一维信号数据修复方法

应用Moodle平台的无纸化考试模式

网络爬虫期末总结

mosquitto配置文件详解

一种优化BERT的问题语义匹配方法

检测图片隐写的方法、装置、计算机设备和存储介质

一种IPTV中EPG的文件同步的方法及其装置

服务方法及执行该方法的服务器

最新文章

C#中利用正则表达式实现字符串搜索

jmeter正则表达式提取器的使用

C#正则表达式匹配“换行回车”等问题

匹配pdf文件的正则表达式

无效的正则表达式

as-path正则表达式

标签列表