指针生成网络和覆盖损失优化的Transformer在生成式文本摘要领域的应用...--688IT编程网

2021⁃06⁃10

计算机应用,Journal of Computer Applications

2021,41(6):1647-1651ISSN 1001⁃9081

CODEN JYIIDU http ：//www.joca

指针生成网络和覆盖损失优化的Transformer 在

生成式文本摘要领域的应用

李

想，王卫兵*，尚学达

（哈尔滨理工大学计算机科学与技术学院，哈尔滨150080）

（∗通信作者wangweibing163@163 ）

摘要：针对生成式文本摘要应用场景，提出了以Transformer 为基础的摘要模型，并在Transformer 模型中加入了

指针生成（Pointer Generator ）网络和覆盖损失（Coverage Loss ）进行优化。首先，提出了基于Transformer 模型作为基础结构的方法，利用其注意力机制更好地捕捉上下文的语意信息。然后，在模型的损失函数中引入Coverage Loss 来惩罚不断出现的重复的词的分布和覆盖范围，从而解决Transformer 模型中的注意力机制在生成式任务中出现不断生成同一个词的问题。最后，在模型中加入了Pointer Generator 网络，从而允许模型从源文本中复制词用作生成词来解决词表无法覆盖（OOV ）的问题。探索了改进后的模型是否减少了不准确的表达以及重复出现相同词的现象是否得以解决。该模型相较于原始的Transformer 模型在ROUGE -1评测函数上得分提升了1.98个百分点、ROUGE -2评测函数上得分提升0.95个百分点，在ROUGE -L 评测函数上得分提升了2.27个百分点，并提升了摘要结果的可读性及准确性。实验结果表明，Transformer 在加入Coverage Loss 和Pointer Generator 网络后可应用于生成式文本摘要领域。

关键词：生成式文本摘要；注意力机制；Transformer ；覆盖损失；指针生成网络中图分类号：TP389.1

文献标志码：A

Application of Transformer optimized by pointer generator network and

coverage loss in field of abstractive text summarization

LI Xiang ，WANG Weibing *，SHANG Xueda

（School of Computer Science and Technology ，Harbin University of Science and Technology ，Harbin Heilongjiang 150080，China ）

Abstract:Aiming at the application scenario of abstractive text summarization ，a Transformer -based summarization

model with Pointer Generator network and Coverage Loss added to the Transformer model for optimization was proposed.

First ，the method based on the Transformer model as the basic structure was proposed ，and its attention mechanism was used to better capture the semantic information of the context.Then ，the Coverage Loss was introduced into the loss function of the model to punish the distribution and coverage of repeated words ，so as to solve the problem that the attention mechanism in the Transformer model continuously generates the same word in abstractive tasks.Finally ，the Pointer Generator network was added to the model ，which allowed the model to copy words from the source text as generated words to solve the Out of Vocabulary （OOV ）problem.Whether the improved model reduced inaccurate expressions and whether the phenomenon of repeated occurren

ce of the same word was solved were explored.Compared with the original Transformer model ，the improved model improved the score on ROUGE -L evaluation function by 1.98percentage points ，the score on ROUGE -2

evaluation function by 0.95percentage points ，and the score on ROUGE -L evaluation function by 2.27percentage points ，

and improved the readability and accuracy of the summarization results.Experimental results show that Transformer can be applied to the field of abstractive text summarization after adding Coverage Loss and Pointer Generator network.Key words:abstractive text summarization;attention mechanism;Transformer;coverage loss;pointer generator

network

引言

面临着信息过载问题的日益严重，对于各类文本信息进

行“降维”处理显得格外重要，其中文本摘要是一个有效的解决方式。文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要。按照输出类型可分为抽取式摘要和生成式摘

要。抽取式摘要从源文档中抽取关键句和关键词组成摘要，

摘要全部来源于原文。生成式摘要根据原文，允许生成原文本中没有的词语或是进行同义替换来生成摘要。

目前工业领域所使用的抽取式摘要已经愈发成熟并得到了广泛的应用，与之相比生成式摘要难度更大且更具有挑战性。文献［1］提出的Seq2Seq （Sequence -to -Sequence ）模型在生

文章编号：1001-9081（2021）06-1647-05

DOI ：10.11772/j.issn.1001-9081.2020091375

收稿日期：2020⁃09⁃07；修回日期：2020⁃12⁃10；录用日期：2020⁃12⁃11。基金项目：国家自然科学基金资助项目（61673142）。

作者简介：李想（1994—），男，黑龙江绥化人，硕士研究生，主要研究方向：数据挖掘、自然语言处理；王卫兵（1964-），男，湖北武汉人，教授，博士，CCF 会员，主要研究方向：计算机控制、智能信息处理；尚学达（1995-），男，河南新乡人，硕士研究生，主要研究方向：机器学习、自然语言处理。

第41卷

计算机应用成式任务中取得了重大突破，随后基于长短时记忆（Long Short Term Memory ，LSTM ）神经网络的Seq2Seq 模型在生成式摘要的任务中也得以广泛应用。随着文献［2］模型的提出，Transformer 在机器翻译等任务中的表现超越了基于LSTM 实现的Seq2Seq 模型，随后文献［3］也证明了Transformer 在抽取式的摘要中同样拥有良好的表现，所以本文旨在验证采用Transformer 来实现生成式文本摘要任务是否可以取得更好的结果。

然而无论是Transformer 还是Seq2Seq ，在生成式任务中都面临着两个相同的问题：第一点是生成的文本中含有大量的重复词，第二点是生成的词表无法覆盖（Out Of Vocabulary ，OOV ）全部的生成词汇，从而导致了生成的文本准确率降低。

本文基于文献［4-5］在机器翻译任务出现重复的问题所

使用的Coverage Vector 同样适用于摘要任务中，实验结果表明引入Coverage 机制减少了重复率。文献［6］提出的CopyNet 可以解决在机器翻译中所遇到的词表无法覆盖（OOV ）的问题，同样本文采用类似的方法指针生成网络（Pointer Generator Network ）来解决摘要中OOV 的问题。本文的模型基于Pointer Generator Network 同时具备生成新的词以及在原文中拷贝词的能力，如果待生成词汇生成词表中无法到，便

通过指针在原文中复制一词。

1摘要模型算法设计

1.1

Transformer

Transformer 模型摒弃了以往深度学习任务中所使用到的卷积神经网络（Convolutional Neural Networ

k ，CNN ）和循环神经网络（Recurrent Neural Network ，RNN ），其核心部分是注意力机制。注意力机制缓解了RNN 以往解决自然语言处理（Natural Language Processing ，NLP ）任务的两点不足：首先RNN 是一个自回归模型，时间片t 的计算依赖于t -1时刻的计算结果，这样忽略的t 时刻之后的信息是无法捕捉到的，同时也限制了模型并行计算的能力。第二点是顺序计算的过程会信息丢失，尤其对于长文本任务捕捉全文信息的能力不足。虽然针对RNN 的缺陷提出了LSTM 及双向LSTM 用来缓解长期依赖问题以及捕捉t 时刻前后的位置信息，但是在机器翻译、问答系统，文本摘要领域Transformer 的表现都要优于基于RNN 的Seq2Seq 模型。

Transformer 分为编码器和解码器两个部分。编码器部分

负责编码语义信息，经过词嵌入表达将词转换成词向量后，经过多头注意力机制来获取每个词与当前句子内的其他词的语意相关性。首先利用注意力机制来计算当前词与其他词的得分分布，再通过softmax 函数进行一次映射，经过映射后的得

分越高说明两个词的相关性越强。Transformer 的研究者提出多头注意力机制通过将词向量的维度切分，并行做注意力分布的计算从而加强语义信息的解析，计算式为：

a t =softmax

(

)

(W q *X EncoderInput )*(W k *X EncoderInput )T

d k

（1）Context_vector =a t *W v *X EncoderInput

（2）

其中：

W q 、W k 、W v 是3个可学习的参数矩阵；d k 为词向量的维度，X EncoderInput 为Encoder 输入的词向量，而自注意力机制中作

线性变换的向量X EncoderInput 来源相同，这也是和后续解码器中

的编码器与解码器的多头注意力机制（Encoder -Decoder Multi -

Head Attention ）不同之处；

a t 是通过自注意力计算后得到的每个词对同一句话中所有词的注意力分布；

Context_vector 是编码器阶段输出的隐向量。

在解码器结构中进行两次注意力计算：第一次是利用覆盖的多头自注意力机制（Mask Multi -Head Self -Attention ）对解码器中的输入信息进行语意解析，然后通过Encoder -Decoder Multi -Head Attention 解码由编码器中输出的信息，这里的Encoder -Decoder Multi -Head Attention 计算式与式（1）~（2）中所给相同，但是做点积的元素略有不同：

a t =softmax

(

)

(W q *X t )*(W k *Context_vector )T

d k

（3）Decoder_output t =a t *W v *Context_vectordecoder

（4）

其中：Context_vector 是编码器阶段的输出结果，而X t 则是解码器的阶段中的输入信息经过Mask Multi -Head Self -Attention 后得到的输出结果。此处的a t 是生成的词向量对编码器中输

出的Context_vector 的注意力分布，

Decoder_output t 是t 时刻Encoder -Decoder Multi -Head Attention 的输出。

将上面得到的Decoder_output t ，经过两层线性变换及softmax 函数得到了最终的词表分布P vocab ：

P vocab =softmax (W '(W *Decoder_output t +b )+b ')

（5）

其中：

W '、W 、b 、b '都是可学习的参数；P vocab 是词表中所有单词的概率分布。利用最终的概率分布得到当前时刻预测的词w ：

P (w )=P vocab (W )（6）

本文将上述模型部分作为实验中的Baseline 模型进行对比，模型结构如图1所示。

1.2

Pointer Generator Network

Pointer Network 最开始被Vinyals 等［7］所提出，目前被广泛应用于NLP 任务中，如机器翻译［8］和语言模型［9］。本文所提出的Pointer Generator Network 是介于Transformer 和Pointer Network 之间的混合形式。

Pointer Generator Network 所解决的问题是经过P vocab

得到

图1Transformer 摘要模型结构

Fig.1Structure of Transformer -based summarization model

1648

第6期李想等：指针生成网络和覆盖损失优化的Transformer 在生成式文本摘要领域的应用

的词最终词表没有覆盖，也就是生成式任务中的OOV 问题。因此本文定义一个概率分布P gen ，将上

面章节得到的Decoder_output t 、a t ，以及t 时刻编码器中的输入X t 进行拼接

（Concat ）后进行一层线性变换后，再经过sigmoid 函数进行一次映射得到[0，

1]区间的映射：P gen =sigmoid (W [X t ，Decoder_output t ，a t ]+b )

（7）

其中W 、

b 是可学习参数。在生成摘要的过程中，是通过P vocab 在词表中生成新的词

汇还是根据得到的文本的概率分布a t 在原文中拷贝一个相关性最大的词，本文可以通过P gen 进行一次软性选择：

P (w )=P gen *P vocab (w )+(1-P gen )*a t

（8）

如果w 是一个词表没有覆盖的词，则P vocab (w )的值为0，

相反如果w 并没有在原文本中出现，则a t 为0。解决OOV 的能力是本文模型的一个重大优势，本文会在后续实验章节中

将其与本文的baseline 模型的结果作比较。Transformer 摘要模型的主要模块如图2所示。

1.3

Coverage Loss

在生成式任务中，采用注意力机制的模型产生重复问题

是一个常见的问题，尤其是产生多个句子的任务中。这一点文献［10-12］也都有提及。因为在按时间片t 去逐个生成词时，很有可能连续几个时间片得到最高分的都是同一个词，从而导致了这个得分最高的词不断地重复，影响到语意的通顺性。

为此本文尝试在损失函数中加入覆盖损失（Coverage

Loss ）去惩罚不断重复位置。在本文的模型里，首先定义向量c t ，它所表达的含义是t 时刻之前t -1时刻分布的累加和：

c t =∑t '=0

t -1a t '

（9）

其中，c t 所表示的是前t -1时刻的词汇分布，即到t 时刻位置

这些单词从注意力机制中获得的覆盖程度（预测t 时刻的单词

时，让模型看到前t -1时刻中原文本注意力分布的情况）。初始化c 0是一个零向量，因为第1个时刻没有文本被覆盖。

本文希望模型更多地注意到之前没有关注到的信息，所以在c t 、

a t 之间取得一个最小值：cov _loss =∑i

min (a t i ，c t i )

（10）

其中：

a t

是t 时刻的注意力分布，i 代表了词向量的维度；min (a t i ，c t i )表示t 时刻第i 维词向量在a t i 和c t i 中取最小。在cov _loss 中加入超参数λ，并得到模型最终的损失函数：

loss t =-ln P (w *t )+λ*∑

min (a t i ，c t i )（11）

2实验与结果分析

2.1

Beam Search 算法

模型在生成概率分布之后，需要到词表中进行查询，在实

验中本文使用束搜索（Beam Search ）算法［13］进行查。由于模型最终可以学习到t 时刻的条件概率分布，即

p (y t |x ，y 1，y 2，⋯，y t -1)，并且该研究任务的目标是根据编码器阶段的输出x 以及前t -1时刻所生成的词寻到t 时刻生成概率最大的词，所以目标函数可表示为：

arg max ∏i =1t p (y i |x ，y 1，y 2，⋯，y i -1)

（12）

因为概率值都是在[0，1]内，连乘会导致数值下溢，为了

方便计算及存储数值，取目标函数的对数值如下：

arg max ∏i =1

ln p (y i |x ，y 1，y 2，⋯，y i -1)

（13）

对于一个较长的句子，不断地对概率值进行连乘会得到一个很小的值，这样目标函数会倾向于生成一个较短的摘要。虽然上文中将概率分布取了对数值，但是数值的分布区间是小于0的，多个负数进行累加同样会出现长文本生成较短摘要的问题。所以本文对目标函数进一步进行优化，将目标函数通过除以输出文本的长度的方式进行了归一化处理。最终可以取得每个单词的概率对数的平均值，很明显地减少了对输出长的结果的惩罚。在实验中本文加入了一个超参数软性因子α，作为输出文本长度T y 的指数：

arg max 1T αy ∏i =1t

ln p (y i |x ，y 1，y 2，⋯，y i -1)（14）

基于贪心搜索（Greedy Search ）方法在生成每个词时都挑选概率最大的词作为当前时刻的最优解，但是在生成式任务中概率最大的词通常不是最优的表达方式。

Beam Search 算法可以看作是对于Greedy Search 的改进算法，相较于贪心算法扩大了搜索空间，但是时间开销又远小于穷举算法，可以看作是二者的折中方案。

Beam Search 存在一个超参数beam size ，设为k 。第一个

时间步长，选取当前条件概率最大的k 个词，当作候选输出序列的第一个词。之后的每个时间步长，基于上个步长的输出

序列，挑选出所有组合中条件概率最大的k 个，作为该时间步长下的候选输出序列。始终保持k 个候选值，最后从k 个候选值中挑出最优的。当k =1时，Beam Search 等价于Greedy Search 。2.2

ROUGE 评价函数

本文将Rouge 函数［14］

作为模型生成的摘要的评价标准。

图2

Transformer +Pointer Network 摘要模型流程

Fig.2

Flow chart of Transformer -based

summarization model with Pointer Network

1649

第41卷

计算机应用ROUGE -N 函数计算式如下：

ROUGE N (c )=

∑s ∈S ref ∑

gram n ∈s

match (gram n )∑s ∈S ref ∑

gram n ∈s

count (gram n )

（15）

其中：

c 是生成的摘要文本；S ref 是参考摘要；match (gram n )是在生成的摘要中n 元词组（N -gram ）出现的次数；

count (gram n )是N -gram 在参考摘要中出现的次数。

ROUGE -N 是从N -gram 维度去比较参考摘要和生成摘

要，ROUGE -L 是从最长子序列的维度去比较的：

ROUGE L (c )=

(1+β2)R lcs P lcs R lcs +β2*P lcs

（16）

R lcs =LCS (X ，Y )

m （17）

P lcs =LCS (X ，Y )n

（18）

其中：

LCS (X ，Y )表示X 、Y 最长公共子序列的长度，X 表示参考摘要，

Y 表示生成摘要；m 和n 分别表示X 和Y 的长度；R lcs 、P lcs 分别表示召回率和准确率，

β=R lcs /P lcs 。2.3

数据集

本文实验采用的是Hu 等［15］提供的新浪微博数据集

LSCST （Large Scale Chinese Short Text summarization dataset ）。该数据集以微博短文及其摘要作为文本摘要对。整个数据集分为训练、验证和测试三部分。数据集中包含了人工对摘要和文本相关程度的打分（1~5分），经过打分不低于3分的筛选和采样，最终每个部分分别保留20000、5000和700条数据。2.4

实验细节

实验过程中模型遵循标准的Transformer 结构，使用了6层编码器和解码器，Multi -Head Attention 中头使用了8个。本文实现了Transformer 研究中所建议的衰减学习率，在热启动时学习率线性增加，之后随着时间衰减学习率。

Dropout 设置为0.3，batch size 设置为32，最大原文输入

长度设置为512，生成摘要的长度设置为100，本文使用的损

失函数是交叉熵损失函数。对模型一共训练了400个epoch 。

作为对比，本文将Transformer 作为baseline ，第二个对比模型是Transformer 中加入Point Generator Network ，第三个对比模型是Transformer 中加入Pointer Generator Network 和

Coverage Loss 。其中Coverage Loss 中的超参数λ最终设置为1。

2.5

摘要结果对比

以一条数据为例，原文内容为：春运期间，盐城交警加大

对客运车辆的检查力度大力开展“两客一危”专项整治行动2月17日14时左右盐城交警高速三大队在盐城北收费站对一辆号牌为苏mj3940驶进行检查时发现了客车狭小的过道里竟挤满了人，经过核查相关证件得知该车核载人数为53人

而车上竟有61人超员8人！在对车辆进行检查时民警发现车辆的前挡风玻璃上竟还有一道裂缝！民警杨星随后责令车辆驳载通知泰兴市运输总公司安全主管人员24小时内到盐城交警高速三大队接受约谈。千万不要认为“挤一挤没事”下面这位网友的做法就值得表扬盐城交警也迅速反应，对涉事车辆进行了处罚不要为了赶时间而乘坐超员车不要认为挤一挤没有事不要认为自己有座就漠不关心拒绝超员车，平安回家路。

摘要内容为：核定53人，实载61人，前挡风玻璃竟然还有一道裂缝！你真的认为乘坐超员车只是“挤一挤没事儿”吗？安全问题不容忽略！

针对该短文各模型的结果展示如表1所示。

通过对比实验中得出的结果可知，Baseline 得出的结果中存在大量的无法覆盖的字符（［UNK ］），表明词表没有覆盖的信息，这类无法覆盖的词大多是成语、人名或者一些网络自造词，这些词语通过预训练语料也是难以覆盖全面的。同时Baseline 的结果中也存在大量的重复字词，由于生成长度的限制如果摘要中出现了大量的重复无意义的信息，必然会导致

最后生成的摘要不完整，从而影响语意的通顺。

引入Pointer Generator Network 后的实验结果表明，解决了因为词表无法覆盖从而产生［UNK ］的问题，语意大致连贯。但是由于重复造成的语意断层、前后衔接不连贯的问题仍然存在。

引入Coverage Loss 后的实验结果表明，Coverage Loss 在一定程度上可以解决重复问题，结果中重复频次大幅度减小，语意连贯性也显著增强，所以对比实验结果表明加入Pointer Generator Network 和Coverage Loss 后作用明显。

ROUGE 函数评价不同模型的得分如表2所示。

表1

Transformer 及其优化模型的摘要结果对比

Tab.1

Comparison of summarization results of Transformer and its optimization models

模型

Transformer Transformer -Pointer Generator Network

Transformer -Pointer Generator Network -Coverage Loss

摘要结果

广东［UNK ］交警高速应对一威威威威威威危机。号牌［UNK ］超员车超员车超员车超员工，检查车辆［UNK ］，北京涉事车司机司机不要认为自己有座就漠不关心关心心心心心心心心心。

广东盐城开展两客一危危危危危危危行动，过道挤满人员，8人超载超载载载，车辆玻璃裂缝，责令司机盐城约谈，司机不要漠不关心关心心心心心心心。

广东盐城开展两客一危行动，2月17日日日，对号牌mj3940进行查验查验超载，车辆玻璃裂缝缝缝，超员8人，司机被接受约谈！不要漠不关心安全安全问题。

表2

Transformer 及其优化模型的摘要结果ROUGE 得分对比

单位：%Tab.2

Comparison of ROUGE scores of summarization results of Transformer and its optimization models

unit ：%

模型

Transformer

Transformer -Pointer Generator Network

Transformer -Pointer Generator Network -Coverage Loss

评价指标ROUGE -1

24.3025.1726.28

ROUGE -24.635.025.58

ROUGE -L 23.0623.9825.33

1650

第6期李想等：指针生成网络和覆盖损失优化的Transformer在生成式文本摘要领域的应用

3结语

本文所提出的基于Transformer实现文本摘要的模型，分别利用Pointer Generator Network以及Coverage Loss解决了OOV、表达重复以及不准确的问题。实验结果表明，每加入新的模块后得分都会相较之前有所提高，从验证集的结果来看，每加入新的模块得到的摘要内容也更加具有可读性，这也验证了本文后续加入的两个模块在Baseline的基础上提升了模型的性能。

参考文献（References）

[1]SEE A，LIU P J，MANNING C D.Get to the point：summarization with pointer-generator networks［C］//Proceedings of the201755th Annual Meeting of the Association for Computational Linguistics. Stroudsburg：ACL，2017：1073-1083.

[2]VASWANI A，SHAZEER N，PARMAR N，et al.Attention is all you need［C］//Proceedings of the201731st International Conference on Neural Information Processing Systems.Red Hook：Curran Associates Inc.，2017：6000-6010.

[3]LEE H，CHOI Y，LEE J H.Attention history-based attention for abstractive text summarization［C］//Proceedings of the202035th Annual ACM Symposium on Applied Computing.New York：ACM，2020：1075-1081.

[4]TU Z，LU Z，LIU Y，et al.Modeling coverage for neural machine translation［C］//Proceedings of the201654th Annual Meeting of the Association for Computational Linguistics.Stroudsburg：ACL，2016：76-85.

[5]巩轶凡，刘红岩，何军，等.带有覆盖率机制的文本摘要模型研究

［J］.计算机科学与探索，2019，13（2）：205-213.（GONG Y F，LIU H Y，HE J，et al.Research on text summarization model with coverage mechanism［J］.Journal of Frontiers of Computer Science and Technology，2019，13（2）：205-213.）

[6]GU J，LU Z，LI H，et al.Incorporating copying mechanism in sequence-to-sequence learning［C

］//Proceedings of the201654th Annual Meeting of the Association for Computational Linguistics. Stroudsburg：ACL，2016：1631-1640.

[7]VINYALS O，FORTUNATO M，JAITLY N.Pointer networks［C］// Proceedings of the201528th International Conference on Neural Information Processing Systems.Cambridge：MIT Press，2015：2692-2700.[8]GULCEHRE C，AHN S，NALLAPATI R，et al.Pointing the unknown words［C］//Proceedings of the201654th Annual Meeting of the Association for Computational Linguistics.Stroudsburg：ACL，2016：140-149.

[9]MERITY S，XIONG C，BRADBURY J，et al.Pointer sentinel mixture models［EB/OL］.［2020-09-20］.https：///pdf/ 1609.07843.pdf.

[10]MI H，SANKARAN B，WANG Z，et al.Coverage embedding

models for neural machine translation［C］//Proceedings of the

2016Conference on Empirical Methods in Natural Language

Processing.Stroudsburg：ACL，2016：955-960.

[11]SANKARAN B，MI H，Al-ONAIZAN Y，et al.Temporal

attention model for neural machine translation［EB/OL］.［2020-

09-20］.https：///pdf/1608.02927.pdf.

[12]SUZUKI J，NAGATA M.RNN-based encoder-decoder approach

with word frequency estimation［EB/OL］.［2020-09-20］.https：//

[13]KOEHN P.Pharaoh：a beam search decoder for phrase-based

statistical machine translation models［C］//Proceedings of the

20046th Conference of the Association for Machine Translation in

the Americas，LNCS3265.Berlin：Springer，2004：115-124. [14]LIN C Y，HOVY E.Automatic evaluation of summaries using N-

gram co-occurrence statistics［C］//Proceedings of the2003

Human Language Technology Conference of the North American

Chapter of the Association for Computational Linguistics.

Stroudsburg：ACL，2003：71-78.

[15]HU B，CHEN Q，ZHU F.LCSTS：a large scale Chinese short text

summarization dataset［C］//Proceedings of the2015Conference

on Empirical Methods in Natural Language Processing.

Stroudsburg：ACL，2015：1967-1972.

This work is partially supported by the National Natural Science Foundation of China（61673142）.

LI Xiang，born in1994，M.S.candidate.His research interests include data mining，natural language processing.

WANG Weibing，born in1964，Ph.D.，professor.His research interests include computer control，intelligent information processing.

SHANG Xueda，born in1995，M.S.candidate.His research interests include machine learning，natu

ral language processing.

1651

688IT编程网

指针生成网络和覆盖损失优化的Transformer在生成式文本摘要领域的应用...

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

指针生成网络和覆盖损失优化的Transformer在生成式文本摘要领域的应用...

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式