springbatch批量处理框架
spring batch精选,⼀⽂吃透spring batch批量处理框架
前⾔碎语
批处理是企业级业务系统不可或缺的⼀部分,spring batch是⼀个轻量级的综合性批处理框架,可⽤于开发企业信息系统中那些⾄关重要的数据批量处理业务.SpringBatch基于POJO和Spring框架,相当容易上⼿使⽤,让开发者很容易地访问和利⽤企业级服务.spring batch具有⾼可扩展性的框架,简单的批处理,复杂的⼤数据批处理作业都可以通过SpringBatch框架来实现。
spring batch官⽅⽂档:
spring batch3.x中⽂⽂档:
spring batch官⽅⼊门实例:
下⾯援引《SpringBatch批处理框架》⼀书作者刘相的⼀篇⽂章,分四个步骤来阐述springbatch的⽅⽅⾯⾯
初识批处理典型场景
探秘领域模型及关键架构
实现作业健壮性与扩展性
批处理框架的不⾜与增强
批处理典型业务场景
对账是典型的批处理业务处理场景,各个⾦融机构的往来业务和跨主机系统的业务都会涉及到对账的过程,如⼤⼩额⽀付、银联交易、⼈⾏往来、现⾦管理、POS业务、ATM业务、证券公司资⾦账户、证券
公司与证券结算公司。
下⾯是某⾏⽹银的部分⽇终跑批实例场景需求。
涉及到的需求点包括:
批量的每个单元都需要错误处理和回退;
每个单元在不同平台中运⾏;
需要有分⽀选择;
每个单元需要监控和获取单元处理⽇志;
提供多种触发规则,按⽇期,⽇历,周期触发;
除此之外典型的批处理适⽤于如下的业务场景:
定期提交批处理任务(⽇终处理)
并⾏批处理:并⾏处理任务
企业消息驱动处理
⼤规模的并⾏处理
⼿动或定时重启
按顺序处理依赖的任务(可扩展为⼯作流驱动的批处理)
部分处理:忽略记录(例如在回滚时)
完整的批处理事务
与OLTP类型交易不同,批处理作业两个典型特征是批量执⾏与⾃动执⾏(需要⽆⼈值守):前者能够处理⼤批量数据的导⼊、导出和业务逻辑计算;后者⽆需⼈⼯⼲预,能够⾃动化执⾏批量任务。
在关注其基本功能之外,还需要关注如下的⼏点:
健壮性:不会因为⽆效数据或错误数据导致程序崩溃;
可靠性:通过跟踪、监控、⽇志及相关的处理策略(重试、跳过、重启)实现批作业的可靠执⾏;
扩展性:通过并发或者并⾏技术实现应⽤的纵向和横向扩展,满⾜海量数据处理的性能需求;
苦于业界真的缺少⽐较好的批处理框架,Spring Batch是业界⽬前为数不多的优秀批处理框架(Java语⾔开发),SpringSource和Accenture(埃森哲)共同贡献了智慧。
Accenture在批处理架构上有着丰富的⼯业级别的经验,贡献了之前专⽤的批处理体系框架(这些框架历经数⼗年研发和使⽤,为Spring Batch提供了⼤量的参考经验)。
SpringSource则有着深刻的技术认知和Spring框架编程模型,同时借鉴了JCL(Job Control Language)和
COBOL的语⾔特性。2013年JSR-352将批处理纳⼊规范体系,并被包含在了JEE7之中。这意味着,所有的JEE7应⽤服务器都会有批处理的能⼒,⽬前第⼀个实现此规范的应⽤服务器是Glassfish 4。当然也可以在Java SE中使⽤。
但最为关键的⼀点是:JSR-352规范⼤量借鉴了Spring Batch框架的设计思路,从上图中的核⼼模型和概念中可以看出究竟,核⼼的概念模型完全⼀致。完整的JSR-252规范可以从/aboutJava/communityprocess/final/jsr352/index.html下载。
通过Spring Batch框架可以构建出轻量级的健壮的并⾏处理应⽤,⽀持事务、并发、流程、监控、纵向和横向扩展,提供统⼀的接⼝管理和任务管理。
框架提供了诸如以下的核⼼能⼒,让⼤家更关注在业务处理上。更是提供了如下的丰富能⼒:
明确分离批处理的执⾏环境和应⽤
将通⽤核⼼的服务以接⼝形式提供
提供“开箱即⽤” 的简单的默认的核⼼执⾏接⼝
提供Spring框架中配置、⾃定义、和扩展服务
所有默认实现的核⼼服务能够容易的被扩展与替换,不会影响基础层
提供⼀个简单的部署模式,使⽤Maven进⾏编译
批处理关键领域模型及关键架构
先来个Hello World⽰例,⼀个典型的批处理作业。
典型的⼀个作业分为3部分:作业读、作业处理、作业写,也是典型的三步式架构。整个批处理框架基本上围绕Read、Process、Writer来处理。除此之外,框架提供了作业调度器、作业仓库(⽤以存放Job
的元数据信息,⽀持内存、DB两种模式)。
完整的领域概念模型参加下图:
Job Launcher(作业调度器)是Spring Batch框架基础设施层提供的运⾏Job的能⼒。通过给定的Job名称和作Job Parameters,可以通过Job Launcher执⾏Job。
通过Job Launcher可以在Java程序中调⽤批处理任务,也可以在通过命令⾏或者其它框架(如定时调度框架Quartz)中调⽤批处理任务。
Job Repository来存储Job执⾏期的元数据(这⾥的元数据是指Job Instance、Job Execution、Job Parameters、Step Execution、Execution Context等数据),并提供两种默认实现。
⼀种是存放在内存中;另⼀种将元数据存放在数据库中。通过将元数据存放在数据库中,可以随时监控批处理Job的执⾏状态。Job执⾏结果是成功还是失败,并且使得在Job失败的情况下重新启动Job成为可能。Step表⽰作业中的⼀个完整步骤,⼀个Job可以有⼀个或者多个Step 组成。
批处理框架运⾏期的模型也⾮常简单:
Job Instance(作业实例)是⼀个运⾏期的概念,Job每执⾏⼀次都会涉及到⼀个Job Instance。
Job Instance来源可能有两种:⼀种是根据设置的Job Parameters从Job Repository(作业仓库)中获取⼀个;如果根据Job Parameters从Job Repository没有获取Job Instance,则新创建⼀个新的Job Instance。
Job Execution表⽰Job执⾏的句柄,⼀次Job的执⾏可能成功也可能失败。只有Job执⾏成功后,对应的Job Instance才会被完成。因此在Job执⾏失败的情况下,会有⼀个Job Instance对应多个Job Execution的场景发⽣。
总结下批处理的典型概念模型,其设计⾮常精简的⼗个概念,完整⽀撑了整个框架。
spring framework版本
Job提供的核⼼能⼒包括作业的抽象与继承,类似⾯向对象中的概念。对于执⾏异常的作业,提供重启的能⼒。
框架在Job层⾯,同样提供了作业编排的概念,包括顺序、条件、并⾏作业编排。
在⼀个Job中配置多个Step。不同的Step间可以顺序执⾏,也可以按照不同的条件有选择的执⾏(条件通常使⽤Step的退出状态决定),通过next元素或者decision元素来定义跳转规则;
为了提⾼多个Step的执⾏效率,框架提供了Step并⾏执⾏的能⼒(使⽤split进⾏声明,通常该情况下需要Step之间没有任何的依赖关系,否则容易引起业务上的错误)。Step包含了⼀个实际运⾏的批处理任务中的所有必需的信息,其实现可以是⾮常简单的业务实现,也可以是⾮常复杂的业务处理,Step的复杂程度通常是业务决定的。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。