NLP领域⽂本增强
1.何为⽂本增强?
所谓的⽂本的增强,并不是简单的增加样本的“数量”,⽽是针对当前模型出现的问题,去产⽣有针对性的样本,从⽽提⾼模型的效果。因为光⽚⾯增加样本的数量,对模型效果的提升并没有太⼤的帮助。
2.常见的⽂本增强的⽅法有哪些?
2.1 同义词替换 Synonym Replacement (SR)
将句⼦中的词语替换成对应的同义词
2.2 随机插⼊ Random Insert(RI)
在句⼦中随机插⼊⼀些词语
2.3 随机交换 Random Swap(RS)
将句⼦中的某⼀些成分进⾏交换,在句⼦的表达中,有⼀些句⼦颠倒语序之后,句⼦的意思并没有发⽣改变
2.4 随机删除 Random Delete(RD)
随机删除句⼦中的⼀部分词语,在⼀些句⼦中,遗漏其中⼀些词语,并不会对句⼦的⼤意造成影响
2.5 回译
将句⼦翻译成其他语⾔,然后再翻译回来
2.6 embedding 增强
在NLP中,⼀般都会将⽂本表⽰为向量(做 word embedding),可以通过在embedding的数据加⼊⼀些噪⾳
2.7 条件⽣成⽂本
Contextual Augment就是这样⼀种⽅法,他本⾝其实可以认为是EDA的升级版。它实际上是使⽤BiLSTM的⽅式,预测可以被替换的位置并通过语⾔模型(Language model,LM)预测可以被替换成的词,从⽽完成了⼀个新样本的⽣成。另外由于语⾔模型本⾝给的结果只基于上下⽂,⽽忽略了本⾝正负语义,对⼀个句⼦“今天天⽓真好”,“坏”被替换的概率其实很⾼,因此作者对原有的基于上下⽂的语⾔模型进⾏改进,除了基于上下⽂,还会基于标签,这样来保证⽂本替换的准确性。除了BiLSTM还有BERT
random翻译参考⽂献
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论