基于模板和规则的声明式代码生成--688IT编程网

2022年 2月 February 2022

Digital Technology &Application 第40卷第2期Vol.40 No.2数字技术与应用

151

中图分类号:TP391.2 文献标识码:A 文章编号:1007-9416(2022)02-0151-04DOI:10.19695/jki12-1369.2022.02.50

基于模板和规则的声明式代码生成

北方工业大学冯俊辉刘晨郭浩然

Drools是开源业务规则引擎，规范的Drools规则代码具备简短、声明式、可读性强等特性。目前，Drools 规则代码需人工编写，缺少一套机制自动生成代码。本文中，提出一套基于模板和规则的机制以生成声明式Drools规则代码，并针对物联网环境，构建了7500条Drools规则。基于构建的规则集，对本文提出的系统架构进行了验证，并取得了一定成果。

高级编程语言依据编程规范，分为命令式语言、声明式语言。官方规范的Drools [1]规则语言是声明式的，包含命令式、条件式代码的复杂规则可转换为多条声明式规则。Drools作为推理引擎，可用于物联网环境，依据规则以及规则间的推理关系实现物联网设备的自动控制。

但是，非技术人员无法编写Drools规则代码。为解决该问题，本文提出基于模板和规则的方法帮助用户从受限自然语言生成Drools规则。基于模板的代码生成(TBCG)[2]是从高级规范生成代码的合成技术，可根据模板计算动态部分，是模型驱动工程(MDE)中的流行技术。基于规则的代码生成[3]是开发人员依据经验或者先验知识、事实等制定的一种策略，为自然语言到自然语

收稿日期:2021-11-24

作者简介：冯俊辉(1994—)，男，安徽安庆人，硕士研究生，研究方向：软件工程、代码自动生成。

言、代码之间的转换提供了依据。

目前，自然语言到代码生成的研究主要聚焦于TEXT2SQL任务[4]，忽略了其他领域基于自然语言生成代码的需求，本文正好弥补了这一缺陷。

1 Drools规则模板

Drools规则作为Drools引擎推理依据，由规则名、属性、条件部分(LHS)、动作部分(RHS)组成。结合物联网环境、Drools规则代码特点，制定如图1所示模板。

模板中：ruleName为规则名、ClassName为系统类名、instanceName为类实例对象名、Field为类属性、Operator为操作符、Value为属性值、AND|OR为逻辑符合、Method为方法名。

本文提出的架构结合Drools规则模板，可解析用户输入的受限自然语言以替换上述模板内容，自动生成Drools规则。

2 系统架构

本文基于模板和规则的方法提出如图2所示框架。框架以自然语句作为输入，将复杂自然语句切为多条简单自然语句。采用Semantic Analysis、Template

图1 Drools规则模板Fig.1 Drools rule template

数字技术与应用 www.szjsyyy 第 40 卷

152

图3 语句Lemma化结果Fig.3 Lemma result of statement

Analysis，对简单自然语句进行语法、模板分析，解析结果与Java类文件、类文件描述、Drools规则模板输入Drools规则生成器。最终，由Drools规则生成器输出自然语句对应的Drools规则。其中，Java文件则为系统类文件，Java描述文件则是对类、类方法、成员属性进行功能描述的文件。

2.1 Split Statement

Split Statement负责切分复杂自然语句，将包含多个and、or复合逻辑的自然语句分割为仅包含单个and 或or的简单自然语句，也即Simple Nature Language。语句切分必要性包含两点：简化解析难度、符合Drools 官方规范。

2.2 Semantic Analysis

S e m a n t i c A n a l y s i s模块，采用N L P技术对自然语句进行解析。本文使用斯坦福大学提供的StanfordCoreNLP[5]，通过Lemma化、依存分析、命名实体识别、part-of-speech信息和语法规则对简单自然语句进行解析。如，针对自然语句“When the air-conditioning is turned on, then close the window.”，StanfordCoreNLP解析得到的Lemma化结果、依存树结构分别如图3、图4所示。

通过Lemma化结果，如“turned on”归一为“turn on”，Lemma化的优势在于可去除时态、三单等语法形式引入的复杂性。

通过依存树的结构信息，可以分析各设备及其动作。自然语句中存在作为属性值的数字等实体时，可结合实体分析和依存树结构，判断出属性值的从属关系。

针对Drools规则在物联网环境下的特点，涉及的语法主要包括主系表、主谓宾、There be三种结构。

2.3 Template Analysis

Template Analysis通过解析模板对自然语句进行处理，以获取简单自然语句中的设备名、属性、参数值。本文系统中，解析模板包含两类：自动模板、人工模板。自动模板从小规模训练集中提取，提取步骤如下：

(1)通过StanfordCoreNLP获取简单自然语句PosTags信息，将PosTags词元形式作为模板，以提升其泛化能力；

(2)观察简单自然语句与对应的Drools规则，依据规则擦除PosTags中对应位置的信息，设备名、属性、参数值分别采用正则表达式标识；

(3)模板入库，人工模板由系统人员编写，与自动模板相比，人工模板更具针对性、可靠性。本系统中，人工模板的解析优先级高于自动模板。

Semantic Analysis、Template Analysis解析结果格式如下：

when部分：{ 设备名, 属性, 操作符, 参数值, 逻辑符号 }

then部分：{ 设备名, 属性, 动作, 参数值 }

2.4 Drools Rule Generator

Drools Rule Generator由5部分构成：

图2 Drools规则代码自动生成框架

Fig.2 Drools rule code automatic generation framework

2022年第 2 期

153

图4 依存树示例

Fig.4 Example of dependency tree

Class Component：将解析的设备名转化为系统类名。类名解析首先判断是否具备类名同设备名相同，不同时则计算类名与设备名相似度，超过相似度阈值时则解析结束。否则，将通过类描述文件判定包含关系以及相似度。经实验表明，类描述文件是解析系统的有力补充模块；

Method Component：将动作转化类方法。通过StanfordCoreNLP获取动作字段词元，字段原形态、词元形态分别记为a1、a2。遍历方法注册表，若a1、a2与方法描述语句存在匹配关系，则将方法纳入候选集。遍历结束，通过类名、属性值对候选集进行二次过滤以获取最终结果；

Field Component：将属性转化为类属性。若属性字段为空，则以设备名作为属性。遍历属性描述文件，若与描述存在匹配关系或相似度超过阈值，则将属性纳入候选集。候选集中存在多个可能属性时，通过设备名、设备名对应的类名对结果二次过滤，以获取最终属性；

Value Component：为类成员属性赋值。在赋值操作中，主要将对参数值的类型以及成员属性类型进行一致性校验，校验成功后进行赋值；

Validate Component：验证生成的Drools规则语法是否正确。

基于模板和规则的方法，结合以上架构，可自动将用户输入的受限自然语句转化为Drools规则代码。

3 实验

3.1 数据集

人工编写7500条物联网环境下的标准Drools规则，每条规则由自然语句、Drools规则构成，数据集结构如下：

(1)2500条每个规则仅包含与逻辑的数据集；

(2)2500条每个规则仅包含或逻辑的数据集；

(3)2500条每个规则同时包含与或逻辑的数据集；

(4)7500条混合数据集，由以上3

部分数据集构成。

3.2 评价指标

自然语句到Drools规则自动生成采用BLEU(Bilingual Evaluation Understudy)[6]、ROUGE(Recall-Oriented Understudy for Gisting Evaluation)[7]作为评价标准。BLEU、ROUGE指标分别计算1-gram至4-gram评分，以评估生成代码的准确度、流畅度。

BLEU评分范围为0～1，分数越接近1，翻译质量越高，计算公式如下：

其中，lc为机器译文长度，lr为最短参考翻译句子长度。BLEU需计算译文1-gram--N-gram精确率，通常N取4。Pn为N-gram精确率，Wn为N-gram权重，BP为惩罚因子。算法中，1-gram表示译文符合原文的程度，N-gram表示翻译结果流畅度。

ROUGE主要基于召回率，是常用的机器翻译和文章摘要评价指标，由Chin-Yew Lin提出，计算公式如下：

公式中，分母为参考译文中N-gram个数，分子为参考译文与机器译文共有N-gram个数。

3.3 实验结果

针对3.1部分提出的数据集，自然语句生成声明式Drools规则代码实验结果如表1所示。

冯俊辉刘晨郭浩然：基于模板和规则的声明式代码生成

∑==N

n n n P W B P BLUE 1

)

log *exp(*

数字技术与应用 www.szjsyyy 第 40 卷

154根据实验结果，7500条自然语句BLEU-1翻译得分

为0.9925、ROUGE-1为0.9870，表明生成的Drools规则与标准规则匹配度很高。2-gram至4-gram表示翻译流畅度，其中4-gram含义最强。对于7500条自然语句翻译结果，BLEU-4为0.9642，ROUGE-4为0.8888，表明生成的Drools规则与标准规则在流畅度方面表现较好。生成的Drools规则与标准规则之间的差异归结为以下两点：

(1)属性值、方法值不同。自然语言解析阶段无法获得属性值或方法值，是造成差异的原因之一。如针对

“when the light is turned on”条件，规则代码生成时可推理出该条件对应的类为Light、属性为State，但无法得知State值为0或1。方法值不同亦是如此。

(2)属性顺序不同。自然语言翻译领域，如汉英互译时，主谓宾等语法顺序的正确性决定了翻译结果的准确性。但是，Drools规则代码的条件属性顺序却有所不同。如“AirConditionor(state==1,isOn==true)”和“AirConditionor(isOn==true,state==1)”，二者条件属性顺序不同，但条件含义、语法、执行结果均一致。由此，BLEU、ROUGE在计算N-gram时，无法准确体现结构不同的代码在功能上是否一致。

4 结语

Drools作为成熟的商业引擎，同IFTTT一样可用于物联网环境。通过制定Drools规则，可依据环境状态自动控制物联网设备。本文提出的基于模板和规则的方法和系统架构，可依据受限自然语句自动生成声明式Drools规则代码。实验结果表明，基于模板和规则的方法在实际应用过程中具备可实施性、高精准性。但是，本文架构中的语义解析、模板解析模块还不够完善，有些自然语言形式化表达字段还无法解析，未来工作将提出更完善的形式化表达字段解析方法。

引用

[1] 赵芳，范倩，焦琳，等.基于Drools的冠心病康复方案自动生成[J].计算机与数字工程,2021,49(8):1520-1524.

[2] 王博，华庆一，舒新峰.一种基于模型和模板融合的自动代码生成方法[J].现代电子技术,2019,42(22):69-74.

[3] 张海玲，邵玉斌，杨丹，等.基于句法规则层次化分析的神经机器翻译[J].小型微型计算机系统,2021,42(11):2300-2306.

[4] 刘译璟，徐林杰，代其锋.基于自然语言处理和深度学习的NL2SQL技术及其在BI增强分析中的应用[J].中国信息化, 2019 (11):62-67.

[5] 祖木然提古丽·库尔班，艾山·吾买尔.中文命名实体识别模型对比分析[J].现代计算机,2019(14):3-7.

[6] 马文倩，王丽清，王娟，等.基于近义词扩充的非通用语翻译评估[J].计算机技术与发展,2021,31(8):124-128.

正则化综述[7] 王晴.基于统计的多文本网站文本内容抽取算法[J].安徽电子信息职业技术学院学报,2021,20(4):6-12.

数据集类型评价指标仅含与逻辑仅含或逻辑

与逻辑&或

逻辑

所有类型

混合

Bleu-

Score-1

0.99880.98950.97750.9925 Rouge-

Score-1

0.98890.99050.98950.9896 Bleu-

Score-2

0.99640.98940.95420.9844 Rouge-

Score-2

0.97560.96830.94270.9622 Bleu-

Score-3

0.99380.98940.92960.9758 Rouge-

Score-3

0.94920.94370.88500.9260 Bleu-

Score-4

0.98840.98070.89650.9641

Rouge-Score-4

0.92260.91280.83090.8888表1 Drools规则代码生成实验结果

Tab.1 Experimental results of Drools rule code generation

688IT编程网

基于模板和规则的声明式代码生成

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

基于模板和规则的声明式代码生成

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式