(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 111597304 A (43)申请公布日 2020.08.28 | ||
(21)申请号 CN202010410620.8
(22)申请日 2020.05.15
(71)申请人 上海财经大学
地址 200433 上海市杨浦区国定路777号
(72)发明人 刘建国 李仁德 郭强 王梓懿 马皓添
(74)专利代理机构 北京科亿知识产权代理事务所(普通合伙)
代理人 汤东凤
(51)Int.CI
权利要求说明书 说明书 幅图 |
(54)发明名称
一种中文企业名实体精准识别二次匹配方法 | |
(57)摘要
本发明提供了一种中文企业名实体精准识别二次匹配方法,通过一种二次匹配的方法来从公众提到的多个实体中识别出精确的目标实体。通过BiLSTM‑CRF模型从公众舆论中提取潜在实体并通过TF‑IDF通过特征词提取特征词。其次,通过Jaro‑Winkler距离算法在潜在实体和工商企业名录之间实现第一次匹配。然后,二次识别需要构建一个行业特征词词典,根据与行业特征字典匹配的特征词的数量来识别精确实体。实验证明,本发明最高关联率和准确率分别为0.93和0.95,比仅使用一次匹配过程的准确率提到约30%。 | |
法律状态
正则匹配公司名称
法律状态公告日 | 法律状态信息 | 法律状态 |
2023-04-07 | 授权 | 发明专利权授予 |
权 利 要 求 说 明 书
1.一种中文企业名实体精准识别二次匹配方法,其特征在于,具体包括如下步骤:
S1、从工商局获取企业基础信息,构建企业名称词库;所述企业基础信息包括企业全称、归属行业及经营范围;所述企业名称词库中的企业名称由字号和行业构成;
S2、爬取舆情文本信息内容;
S3、对舆情文本信息内容进行初步切词、分词,得到关键词集合;
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论