实用第一‘智慧密集
回回回IB SI IB@B B8)回IB回IBS)®回回®回回回回回回回回回回回回回回回回回B S■B S)回回回回BBTBBBIBIHBEIBS®回諮
基于ERNIE-DPCNN的短文本分类研究
齐佳琪,迟呈英*,战学刚
(辽宁科技大学计算机与软件工程学院,辽宁鞍山114051)
摘要:目前采用短文本分类的方法几乎都使用词向量,不管是机器学习还是深度学习本质上都是对数字的处理。将文本汉字转换成计算机可识别的数字信息是词向量的作用。ERNIE是百度提出主要针对中文设计的词向量模型。将ERNIE词向量与深金字塔卷积神经网络相融合,对中文类新闻文本标题进行文本分类处理。通过实验比较,ERNIE词向量与深金字塔卷积神经网络相结合的短文本分类模型具有较高的分类精度。
关键词:短文本分类;深度学习;ERNIE词向量;深金字塔卷积神经网络
1概述
短文本分类是文本分类的一个重要分支。通过短文本分类技术,人们可以充分管理短文本数据,最大程度挖掘信息[1]。然而将机器学习方法应用于短文本分类,效果并不是很理想[2]。因为短文本具有如下特点:长度短,很难抽取有用的特征词;数据海量;包含过多不规范语和网络流行语,文本噪音大。这些特点使主流的方法不能满足短文本分类的需求。
当前,知识增强语义表示模型(Enhanced Repre­sentation from Knowledge IntEgration,ERNIE)在机器翻译中被提出,但截至目前应用ERNIE模型的文本分类技术研究还不多,且ERNIE模型是否可以适用于文本分类技术尚未可知,就是在ERNIE的基础上完成的。
2短文本分类相关研究
短文本使指长度小于160个字符的文本,如新闻标题、主题搜索等。短文本分类是指根据预先给出已分类和需要分类的短文本,按照一定的分类准则进行分类的技术。
2017年谷歌提出了注意力机制的观点,认为模型的结果只与几个关键的特征有关。于是,注意力机制技术逐渐被研究者引用到短文本分类技术中。陶志勇[3]等人提出了双向长短时记忆神经网络与改进注意力机制相融合的短文本分类方法。张小川[4]等人实现了融合多头自注意力机制的中文短文本分类模型,将F1值提升了3.99%。尽管基于注意力机制的短文本分类技术近年来取得了不错的效果,但主要是针对英文短文本遥直至2019年百度新提出了一种针对中文来解决机器翻译的知识增强语义表示
模型,使中文在基于注意力机制层面上取得了进步。同时,深金字塔卷积神经网络(deep pyramid convolution neural network,DPCNN)可以通过不断加深网络,进而抽取长距离短文本依赖关系,使模型具备优质的上升空间[5]。因此,提出了融合知识增强语义表示模型的深金字塔卷积神经网络(ERNIE-DPC-NN)模型。
3ERNIE-DPCNN模型
ERNIE-DPCNN的短文本分类模型共分为7个部分:输入层、ERNIE层、DPCNN层、池化层、全连接层、分类器层和输出层。ERNIE-DPCNN的短文本分类模型结构如图1所示。
图1知识增强语义表示-深金字塔卷积神经网络的
短文本分类模型结构图
第一层是输入层,向模型中输入训练数据。第二层是ERNIE层,将输入的训练数据进行短文本表示,将每一个短文本转化为对应的词向量,ERNIE层的输入
基金项目:国家自然科学基金(61672138)。
作者简介:齐佳琪(1996-),女,硕士,研究方向:自然语言处理、深度学习;迟呈英(1963-),女,通
信作者,教授,硕士,研究方向:自然语言处理、人工智能;战学刚(1962-),男,副教授,博士,研究方向:人工智能、机器学习
软件研发与应用SOFTWARE DEVELOPMENT&APPLICATION
公式如示:
讥H八”“);...“(》(1)其中x为ERNIE层得到的结果,文中n=768o第三层是DPCNN层,通过加深卷积网络,更加精准提取短文本特征,DPCNN层的卷积公式如示。
V=I4a(.x)+b(2)
其中,x代表一个小区域(相互重叠)输入的每个位置,滓(•)是一个特定组件的非线性激活,和重量W 和偏见b(每一层所特有的)训练有素的参数。第四层是池化层,选用K-MaxPooling进行池化,在DPCNN提取的特征中选出K个最大的特征值,即K个对分类来说最重要的信息。第五层是全连接层,防止从DPCNN 层抽取的短文本特征升维,因维度过大使模型复杂度太高导致模型泛化性能差。第六层是分类器层,运用soft-max分类器用是把短文本分到所属类别。第七层是输出层,把分类的结果进行输出。
4实验结果评价和对比
4.1数据集介绍python中文文档
选用了清华大学THUCNews开源数据集做对比实验。在清华大学THUCNews开源数据集中,训练集18万条,测试集1万条,验证集1万条,每个数据集包含10个类别。10种类别分别对应为财经、房产、家
居、教育、科技、时尚、时政、体育、游戏和军事。
4.2实验环境及目的
基于Ubuntu操作系统、选用NVIDIA T4Tensor Core的GPU和Intel(R)Core(TM)i7-1065G7的CPU 进行的实验。本文实验应用Python3.6,Pytorch1.2.0框架。实验统一使用utf-8编码。
4.3实验评价指标
式中:correct是样本分类的正确率;total是分类样本的总数。A为判别属于该文档且真正属于该文档的样本数量,B为判别属于该文档但真正不属于该文档的样本数量,C为判别不属于该文档但真正属于该文档的样本数量,D为既判别不属于该文档也真正不属于该文档的样本数量。在F1-Measure中,茁为调整参数,用于调整精确率Precision与召回率Recall在计算公式中的比重,在实验中,选取茁=1。
4.4实验结果对比分析
ERNIE、基于知识增强语义表示-卷积神经网络(ERNIE-CNN)、基于知识增强语义表示-循环卷积神经网络(ERNIE-RCNN)和ERNIE-DPCNN模型训练损失函数的折线图如图2所示。
图2模型训练中的损失
实验衡量模型标准的指标包括准确率(Accuracy)A 精确率(Precision)、召回率(Recall)和 Fl-Measure。定义公式为:
Accuracy=correct
total
xlOO%(3)
可以从图2中观察得知,模型中损失函数的数值在
不断下降。其中不同模型损失函数训练情况用不同的颜
进行表示。可以看到,每个模型的损失函数曲线都很
像,都能在一开始迅速地降低损失函数的数值。在
4200轮的时候ERNIE-CNN模型和ERNIE-RCNN模型
处于训练完成或者处于稳定,但可以看到ERNIE-
DPCNN模型可以一直训练,仍旧可以缓慢降低损失函
数。在实际训练过程中,代码被设置为如果超过1000
轮没有损失函数的下降,那么模型就达到了稳定状态,
就会停止训练。在ERNIE、ERNIE—CNN、ERNI-RC-
NN、ERNIE-DCNN网络模型各个分类器的准确率如表
1所示。
correct=A+D total=A-\-B+C-\-D Precisions—
m=I7F x100%(4)
(5)
(6)
(7)
… (02十1)乂Precision x Recall_.卜p=——————----------------x100%
表1模型性能对比
模型名称准确率
ERNIE94.25% ERNIE-CNN93.95%
ERNIE-RCNN94.03%
ERNIE-DPCNN94.26% (下转第81页)
01x Precision+Recall
(8)
数据库与信息管理DATABASE&INFORMATION MANAGE
度、繁忙度,同时可以雷达式自动巡检业务的状态。
4.4网络流量管理功能配置
在资源管理模块下的接口流量选择添加相应的楼栋汇聚设备的基本信息就可以查看该楼栋的流量情况,通过统计报表模块下的流量报表可以查看相应的端口流量趋势报表和流量统计报表,可以为学校的流量分配提供数据支撑。
4.5网络拓扑管理功能配置
通过拓扑发现,同时生成出二层网络拓扑和三层网络拓扑。
二层网络拓扑展示区内仅包含物理节点、虚拟节 点、物理链路、虚拟链路、互联链路,二层网络拓扑的子拓扑展示区内可包含物理节点、虚拟节点、物理链路、虚拟链路、互联链路、图片节点、形状节点,可添加背景。
三层网络拓扑展示区内仅包含物理节点、子网、逻辑链路,三层网络拓扑的子拓扑展示区内可包含物理节点、子网、逻辑链路、图片节点、形状节点,可添加背景。
自定义拓扑展示区内可包含物理节点、虚拟节点、物理链路、虚拟链路、互联链路、图片节点、形状节点、区域,可添加背景。
(上接第27页)
ERNIE-DPCNN的准确率比ERNIE高0.01%,比ERNIE-CNN高0.31%,比ERNIE-RCNN高023%。可以看出ERNIE,ERNIE-CNN,ERNIE-RCNN,ERNIE-DPCNN这4种短文本分类模型准确率相差不大,原因是在短文本分类中,相比较卷积神经网络及其变体自动 获取表征能力,特征表示是重中之重,是自然语言处理领域最重要的问题。
5结语
将常用的处理短文本分类技术的卷积神经网络及其变体与知识增强语义表示模型进行融合,实验证明,
结合知识增强语义表示模型的深金字塔卷积神经网络效果最好,证明了基于知识增强语义表示-深金字塔卷积神经网络的短文本分类模型的可行性。得出与知识增强语义表示模型最相匹配的卷积神经网络变体是深度神经网络模型的结论。4.6统计分析报表功能配置
报表条件可以自定义,通过相应的选择类型可输出资源报表、告警报表、流量报表、无线报表,报表格式可以支持Excel、Word、PDF。
5结语
随着当前高校信息化的进一步深化发展,对基础网络环境要求越来越高,这种图形化、可视化的网络运维管理平台为校园网络运维管理带来了极大的技术支撑,网络运维人员可以直观地发现的网络故障,并快速解决问题,减少了排查故障的时间,大大提升了信息中心网络管理的效率。
参考文献
[1]孙浩峰.不一样的IT管理不一样的RIIL[J].网
络安全和信息化,2016.
[2]李颖,邓翔,王子聪,张景桢.智能化网络运维管
理平台的实践探究[J].信息系统工程,2019.
⑶孙永杰.北京电力公司网络运维管理平台建设[J].
电力信息化,2008.
[4]胡方禄,唐源.基于实时智能基础架构库的医院信
息技术运维管理系统研究及解决方案[J].医学信息学杂志,2017.
参考文献
[1]裴志利.数据挖掘技术在短文本分类和生物信息学
中的应用[D].吉林大学,2008.
[2]江大鹏.基于词向量的短文本分类方法研究[D].
浙江大学,2015,  2.
[3]陶志勇,李小兵,刘影,等.基于双向长短时记忆
网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29.
[4]张小川,戴旭尧,刘璐,等.融合多头自注意力机
制的中文短文本分类模型[J/OL].计算机应用,1-6[2020-11-22].
[5]Johnson R,Zhang T.Deep Pyramid Convolutional Neu­
ral N etworks for Text Categorization[C].Proceedings of the55th Annual Meeting of the Association for Com­putational Linguistics(Volume1:Long Papers).
2017.

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。