(19)中华人民共和国国家知识产权局
正则匹配法律条文
(12)发明专利说明书
(10)申请公布号 CN 109753502 A
(43)申请公布日 2019.05.14
(21)申请号 CN201811639608.3
(22)申请日 2018.12.29
(71)申请人 山东浪潮商用系统有限公司
    地址 250100 山东省济南市高新区孙村镇科航路2877号研发楼一楼
(72)发明人 曹志星 程林 杨培强
(74)专利代理机构 济南信达专利事务所有限公司
    代理人 阚恭勇
(51)Int.CI
     
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种基于NiFi的数据采集方法
(57)摘要
      本发明提供一种基于NiFi的数据采集方法,属于数据采集技术领域,大数据量的数据抽取,并在抽取过程中对数据进行清洗、转换和匹配。运用NiFi工具,能简化用户操作,实现一整套流程,展现形式图形化,操作简单高效,运用HTTP协议。如果不需要用户直接对流程进行操作,还可以进行二次封装,向NiFi提供相应的报文信息,就可以创建组件,简化用户操作。
法律状态
法律状态公告日
法律状态信息
法律状态
2023-04-25
专利申请权的转移IPC(主分类):G06F16/215专利申请号:2018116396083登记生效日:20230413变更事项:申请人变更前权利人:山东浪潮商用系统有限公司变更后权利人:浪潮软件科技有限公司变更事项:地址变更前权利人:250100 山东省济南市高新区孙村镇科航路2877号研发楼一楼变更后权利人:250000 山东省济南市高新区浪潮路1036号浪潮科技园
专利申请权、专利权的转移
2023-05-12
授权
发明专利权授予
权 利 要 求 说 明 书
1.一种基于NiFi的数据采集方法,其特征在于,
主要分为5个步骤:
步骤一:分为抽取数据库数据和读取文件数据;
步骤二:将组装的数据根据业务需求进行清洗;
步骤三:对数据根据转换规则进行转换,对于每一步的转换都有日志文件可查询转换情况;
步骤四:对数据进行匹配;
步骤五:数据入库操作,附带去重功能,支持oracle、mysql数据库。
2.根据权利要求1所述的方法,其特征在于,
所述抽取数据库数据和读取文件数据,
前一种读取oracle联机日志和归档日志增量抽取数据,根据oracle日志分析出所有的DML事件,按照顺序组装数据,拉取数据是使用批量的方式;
后一种是读取文件,根据解析规则解析出数据,这里的拉取数据每批次固定数据量大小。
3.根据权利要求2所述的方法,其特征在于,
步骤2中,对于符合清洗规则的数据,允许数据流的向下流通,对于不符合清洗规则的数据会生成日志文件,具体的清洗规则根据业务需求所定,这几个规则可自由组合。
4.根据权利要求3所述的方法,其特征在于,
所述对数据进行匹配,匹配是指与另一张数据表根据匹配规则进行匹配,符合匹配要求的进行后续操作,对于不匹配的则不进行操作。
5.根据权利要求4所述的方法,其特征在于,
首先获取数据来源,中间进行一系列的数据清洗、转换和匹配,然后同步到目标数据库。
6.根据权利要求5所述的方法,其特征在于,
其中数据抽取步骤一和入库操作步骤五是必需的,中间的步骤二到步骤四根据业务需求自由组合,完成数据的清洗和加工。
7.根据权利要求6所述的方法,其特征在于,
对于非结构化数据,设计文件的解析、数据清洗、数据转换和匹配。
8.根据权利要求7所述的方法,其特征在于,
对于这个整体流程,可以通过直接拖拽的形式,或选择调用NiFi的接口,运用HTTP协议,传送合适的报文数据,后台会根据报文数据数据创建相应的Processor及其它组件,形成一个完成的流程;这时打开浏览器界面输入相应地址访问,就可看到已创建好的流程。
说  明  书
<p>技术领域
本发明涉及数据采集技术,尤其涉及一种基于NiFi的数据采集方法。
背景技术
在税务行业,随着“金税工程”的不断深入,税务数据资源的种类不断丰富,数据量快速增长,特别是近年来飞速增长的电子票据、视频、网页等非结构化数据,已经超出了目前的处理能力。如何采集、存储和利用庞大的涉税数据,进而从海量的数据中挖掘有价值的信息,已然成为税收信息化面临的一个重大课题。从结构化数据转向大数据是下一步发展的必然选择。
任何一个大数据应用分析的软件,都需要一个强大的数据抽取组件、数据存储仓库、数据处理引擎、任务调度引擎和流程设计界面。Hadoop和Spark的重点是在数据的存储和任务调度,R的重点是数据分析引擎。
传统的数据抽取工具ETL,例如Kettle,用于将静态数据从一个源加载到另一个源。NiFi肯定能够完成类似的任务,但它的主要重点是处理真正快速的实时事件流。NiFi可以作为一个非常小的单实例JVM运行,适合作为端点的数据收集代理,也可以通过集扩展来处理来自许多端点的大量数据。一旦集启动并运行,就可以动态地进行更改,而无需重新部署或甚至对数据流造成大量中断。例如,字段中的端点以JSON格式发送事件,但是数据中心的应用程序需要一个JSON对象,该对象具有比以前更多的字段,现在正在侦听不同数据中心中的不同IP和端口。NiFi可以在现场捕获事件,然后将事件转换并以所需格式指向正确的侦听器,而无需对数据流进行编码,重新部署甚至大部分中断。最好的部分是跟踪整个流程,并且对事件的每个修改或操作都是可见的和
可搜索的。这样可以轻松解决传输过程中出现的任何问题。
NiFi是一个开源项目,虽说有以上的有点,但是其本身的功能并不能实现税务大数据方向的需求。例如利用NiFi本身的数据抽取组件,不能增量同步oracle数据库数据,亦不能从文件中读取并插入到数据库。
发明内容
根据以上背景技术的内容,本发明提出了一种基于NiFi的数据采集方法,开发了一套新的数据抽取流程,根据oracle的增量日志文件,实现数据拉取。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。