【综述】⾯向少量标注数据的命名实体识别研究
⽂章⽬录
这篇博客的总结参考下⾯这篇⽂章,引⽤的序号对应论⽂中的引⽤,没有重新排序
论⽂中总结了少量标注数据NER⽅法,具体地,按照数据、模型、特征、知识的学习逻辑区分为4类:
数据增强
模型迁移
特征变换
知识链接
数据增强
数据增强的⽅法即:在少量数据集训练模型导致过拟合时,通过样本选择、权重调整等策略以创建⾼质量样本集,再返回分类器中迭代学习,使之能够较好地完成学习任务的⽅法[6]
[6] Wen Y D, Qiang Y, Gui R X, et al. Boosting for transfer learning[C]. Proceedings of the 24th international conference on Machine learning, 2007:193-200.
1. 样本选择(主动学习)
在⾯向少量标注数据时,最直接的策略是挑选出⾼质量样本以扩⼤训练数据。其中,样本选择是数据增强式NER的核⼼模块,它通过⼀定的度量准则(不确定性标准、版本空间缩减标准、泛化误差缩减标准)挑选出置信度⾼、信息量⼤的样本参与训练,⼀种典型的思路为主动学习(Active learning)采样。
主动学习通过⼀定的算法查询最有⽤的未标记样本,并交由专家标注,然后将带标注样本加⼊训练样本集迭代训练提升模型性能。
[7] Shen Y, Yun H, Lipton Z C, et al. Deep active learning for named entity recognition[J]. ar Xiv preprint ar Xiv:1707.05928, 2017.
[8] ⾼冰涛 张阳 , 刘斌 . Bio Tr HMM: 基于迁移学习的⽣物医学命名实体识别算法 [J]. 计算机应⽤研究 , 2019, 36(1):45-48.
[9] Shun Z, Shao F L, Jiang F G, et al. Recognizing Small-Sample Biomedical Named Entity Based o
n Contextual Domain Relevance[C]. 2019 IEEE 3rd Information Technology, Networking, Electronic and Automation Control Conference (ITNEC). 2019:1509-1516.
[10] 钟志农 , 刘⽅驰 , 吴烨 , 等 . 主动学习与⾃学习的中⽂命名实体识别 [J]. 国防科技⼤学学报 , 2014, 36(4):82-88.
[11] 梅涛 . 基于主动⾃步学习的⽂本分类研究 [D]. 西安 : 西安电⼦科技⼤学 , 2018.
2. 分类器集成(Boosting)
在数据增强中,训练多个弱分类器来获得⼀个强分类器的学习⽅法也是⼀种可⾏的思路。
[6] Wen Y D, Qiang Y, Gui R X, et al. Boosting for transfer learning[C]. Proceedings of the 24th international conference on Machine learning, 2007:193-200.
[12] 王红斌 , 沈强 , 线岩团 . 融合迁移学习的中⽂命名实体识别 [J]. ⼩型微型计算机系统 , 2017, 38(2):346-351.
模型迁移
[外链图⽚转存失败,源站可能有防盗链机制,建议将图⽚保存下来直接上传(img-Ref29DGt-1638694595365)(en-
resource://database/3065:1)]
1. 共享词嵌⼊(预训练)
⼀些常⽤的⽅法就是预训练:
ELMo
GPT3
BERT
2. 共享参数
共享词嵌⼊侧重于词义表⽰,⽽共享参数则侧重于模型参数的迁移。
18] Yosinski J, Clune J, Bengio Y, et al. How transferable are features in deep neural networks?[C]. Proceedings of the 28th Conference on Neural Information Processing Systems(NIPS), 2014:3320-3
328.
[19] Giorgi J M, Bader G D. Transfer learning for biomedical namedentity recognition with neural networks[ J ]. Bioinformatics, 2018 ,34(23):4087-4094.
[20] Zhi L Y, Ruslan S, William W C. Transfer learning for sequence tagging with hierarchical recurrent networks[J]. ar Xiv preprint ar Xiv:1703.06345, 2017.
模型迁移的问题:模型迁移在解决领域相近的任务时表现良好。但是当领域之间存在较⼤差异时,模型⽆法捕获丰富、复杂的跨域信息。特征变换
1. 特征选择
即通过⼀定的度量⽅法选取相似特征并转换,在源域和⽬标之间构建有效的桥梁的策略。
[22] Hal D. Frustratingly easy domain adaptation[C]. Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics. 2007:256-263.
[23] Young B K, Karl S, Rruhi S, et al. New transfer learning techniques for disparate label sets[C]. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. 2015, 1:473-482.
2. 特征映射
即俄⽇了减少跨领域数据的偏置,在不同领域之间构建资源共享的特征空间,并将各个领域的初始特征映射到该共享空间,并将各领域的初始特征映射到该共享空间上。
利⽤预测的源标签嵌⼊⾄⽬标领域是⼀种常见策略。
[25] Lizhen Q, Gabriela F, Liyuan Z, et al. Named Entity Recognition for Novel Types by Transfer Learning[C]. Proceedings
of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016:899-905.
知识链接
即使⽤本体、知识库等结构化资源来启发式地标记数据,将数据的结构关系作为共享对象,从⽽帮助解决⽬标NER任务,其本质上是⼀种基于远程监督的学习⽅式,利⽤外部知识库和本体库来补充标注实体。
1. 基于知识库
这种⽅式通常借⽤外部的知识库来处理NER,Dbpedia、YAGO、百度百科等知识库存在海量结构化信息,利⽤这些知识库的结构话信息框、⽇志信息可以抽取出海量知识。
[29] Alexander E R, Patrick S. Mining Wiki Resources for Multilingual Named Entity Recognition[C]. Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies. 2008:1-9.
[30] Xiao M P, Bo L Z, Jonathan M, et al. Cross-lingual name tagging and linking for 282 languages[C]. proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, 2017:1946–1958.
[31] Ren X, Wu Z, He W, et al. Cotype: Joint extraction of typed entities and relations with knowledge bases[C]. proceedings of the 26th International Conference on World Wide Web. 2017:1015-1024.
2. 基于本体系统
该⽅式通过⼀定的规则,将本体库中的概念映射为实体。
[32] 史树敏 , 冯冲 , 黄河燕 , 等 . 基于本体的汉语领域命名实体识别 [J]. 情报学报 , 2009, 28(6):857-863.
[33] Rinaldo L, Bernard E, Fred F. Onto ILPER: an ontology - and inductive logic programming-based system to extract entities and relations from text[J]. Knowledge and Information Systems, 2018, 56(1):223-255.
[34] 李贯峰 , 张鹏 . ⼀个基于农业本体的 Web 知识抽取模型 [J]. 江苏农业科学 , 2018, 46(4):201-205.
四种⽅法⽐较
[外链图⽚转存失败,源站可能有防盗链机制,建议将图⽚保存下来直接上传(img-Lix5z5yV-1638694595366)(en-
resource://database/3067:1)]
⾯向少量标注数据 NER,最直接的⽅法是数据增强,通过优先挑选⾼质量样本参与训练,这种⽅法在窄域中能实现较⾼的准确率。但是针对不同领域所需的策略也不同,领域的泛化能⼒⼀般。
模型迁移从海量⽆结构化⽂本中获取知识,这种⽅式对⽬标领域的数据需求较少,只需“微调”模型避免了重新训练的巨⼤开销,但是它依赖领域的强相关性,当领域差异性太⼤时,容易产⽣域适应问题。
相较于模型迁移,特征变换更加注重细粒度知识表⽰,这种⽅法利⽤特征重组和映射,丰富特征表⽰,
减少知识迁移中的损失,在⼀定程度上能实现“零样本”学习,但是这种⽅法往往难以求出优化解,过适配现象也会造成消极影响。
知识链接能利⽤任何结构化信息,通过知识库、本体库中的语义关系来辅助抽取⽬标实体,但是这种⽅法易产⽣噪声,实体的映射匹配依赖强假设条件,所需的知识库通常难以满⾜领域实体的抽取。
常⽤数据集
模型测评
[外链图⽚转存失败,源站可能有防盗链机制,建议将图⽚保存下来直接上传(img-Y7SklVA3-1638694595366)(en-
resource://database/3069:1)]
数据增强:
[7] Shen Y, Yun H, Lipton Z C, et al. Deep active learning for named entity recognition[J]. ar Xiv preprint ar Xiv:1707.05928, 2017.
[35]
[9] Shun Z, Shao F L, Jiang F G, et al. Recognizing Small-Sample Biomedical Named Entity Based on Contextual Domain Relevance[C]. 2019 IEEE 3rd Information Technology, Networking, Electronic and Automation Control Conference (ITNEC). 2019:1509-1516.
[16]李妮 , 关焕梅 , 杨飘 , 等 . 基于 BERT-IDCNN-CRF的中⽂命名实体识别⽅法 [J]. ⼭东⼤学学报 ( 理学版 ), 2020, 55(1):102-109.
模型迁移:
[36] Lee J, Yoon W, Kim S, et al. Bio BERT:a pre-trained biomedical language representation model for biomedical text mining[J]. Bioinformatics, 2020, 36(4):1234-1240.
[20] Zhi L Y, Ruslan S, William W C. Transfer learning for sequence tagging with hierarchical recurrent networks[J]. ar Xiv preprint ar Xiv:1703.06345, 2017.
[23] Young B K, Karl S, Rruhi S, et al. New transfer learning techniques for disparate label sets[C]. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. 2015, 1:473-482.
bootstrapped特征变换:
[25] Lizhen Q, Gabriela F, Liyuan Z, et al. Named Entity Recognition for Novel Types by Transfer Learning[C]. Proceedings
of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016:899-905.
[26] Bill Y L, Wei L. Neural Adaptation Layers for Cross-domain Named Entity Re-cognition[C]. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018:2012–2022.
[37] Brooke J, Hammond A, Baldwin T. Bootstrapped text-level named entity recognition for literature[C]. proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2:Short Papers). 2016:344-350.
知识链接:
[31] Xiao M P, Bo L Z, Jonathan M, et al. Cross-lingual name tagging and linking for 282 languages[C]. proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, 2017:1946–1958.
[38] Karadeniz I, Özgür A. Linking entities through an ontology using word embeddings and syntactic
re-ranking[J], BMC bioinformatics, 2019, 20(1):156.
未来研究⽅向
1. 样本选择策略的改进
结合⽣成模型和样本选择是不错的策略,例如利⽤GAN[39]能迭代⽣成样本的优势以进⾏数据增强。
2. 考虑零样本学习
考虑零样本学习[40],后续的研究可以考虑基于预训练模型进⾏改进,也可以分析不同领域零样本语料对模型的影响强度。
3. 考虑予以漂移与噪声
借助第三⽅域完成是指传递,也可以来联合多任务学习完成。在未来结合予以与深度增强模型区分正例和反例是⼀个可选的⽅向。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。