(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 114218921 A
(43)申请公布日 2022.03.22
(21)申请号 CN202111442232.9
(22)申请日 2021.11.30
(71)申请人 中国医学科学院医学信息研究所
    地址 100020 北京市朝阳区雅宝路3号
(72)发明人 高东平 秦奕 杨渊 李玲 池慧
(74)专利代理机构 11639 北京正阳理工知识产权代理事务所(普通合伙)
    代理人 张利萍
(51)Int.CI
      G06F40/211(20200101)
      G06F40/30(20200101)
      G06N3/04(20060101)
      G06N3/08(20060101)
      G06K9/62(20220101)
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种优化BERT的问题语义匹配方法
(57)摘要
      本发明公开了一种基于Bert的语义匹配方法,该方法基于哈工大的预训练模型Bert‑wwm‑ext,我们先使用该模型在我们的大数据背景下做全词遮罩的无监督训练,使得模型先适应下我们的数据特点,保存基于我们数据的模型后,我们在该模型的结构上做了以下调整,在Bert的输出层加上Pooling层,在句子输入的时候,每个Batch我们输入的是一组特定的句子,其中一部分句子是语义相近的,剩下的句子是语义不同的,这样做是考虑到使得模型像人学习时一样,考虑数据之间的对比学习,使得模型更快收敛,模型架构改造完成后,我们基于该模型,再次在我们的大语料背景下做句子语义相似性训练,在训练的过程中,我们加入了同义句和非同义句之间的对比计算,然后使模型反向传播,最终得到的句向量语义表示更贴合实际。
正则匹配快代理
法律状态

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。