(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 113128490 A
(43)申请公布日 2021.07.16
(21)申请号 CN202110466829.0
(22)申请日 2021.04.28
(71)申请人 湖南荣冠智能科技有限公司
    地址 410205 湖南省长沙市高新开发区文轩路27号麓谷钰园F2栋5层512-1室
(72)发明人 窦钰涛 胡彪 夏飞 肖坚 金持
(74)专利代理机构 11421 北京天盾知识产权代理有限公司
    代理人 周敏云
(51)Int.CI
      G06K9/20(20060101)
      G06K9/34(20060101)
      G06K9/62(20060101)
      G06F16/903(20190101)
      G06N3/04(20060101)
      G06N3/08(20060101)
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种处方信息扫描和自动识别方法
(57)摘要
      本申请属于数据处理方法技术领域,尤其涉及一种处方信息扫描和自动识别方法。包括用于进行文本识别的步骤;包括获取处方笺图片,以处方笺图片为输入获取输出的文本识别数据以及文本位置数据;用于完成信息抽取的步骤,包括步获取文本识别数据和文本位置数据;通过处方笺上固有的Rp文本作为参考点,将文本识别数据和文本位置数据分割为处方信息部分及药方信息部分;本申请提出了一种能够用于快速识别和分析处方笺上文本信息,并实现自动化分类信息收集和处方信息预处理的技术方案,本方法实现方式相对简单,适应性好,且能够充分保证信息收集的准确性,并具有一定的纠错勘误能力,能够提高处方笺信息电子化的效率,降低操作成本。
法律状态
法律状态公告日
法律状态信息
法律状态
2021-07-16
公开
公开
2021-08-03
实质审查的生效
实质审查的生效
权 利 要 求 说 明 书
1.一种处方信息扫描和自动识别方法,其特征在于,包括步骤1~2:
1用于进行文本识别的步骤;包括:
A1.获取处方笺图片,基于TrWebOCR,以处方笺图片为输入获取输出的文本识别数据以及文本位置数据;
所述TrWebOCR采用CNN+RNN+CTC模型,具体而言,包括:
构建自下而上的卷积层、循环层和转录层三个部分;在卷积层输入图像特征提取序列,利用双向LSTM组成循环层,循环层对卷积层输出的特征序列的每一帧进行预测,利用转录层将每帧的预测转化为标签序列;
2用于完成信息抽取的步骤,包括步骤B1~B4:
B1.获取文本识别数据和文本位置数据;
B2.通过处方笺上固有的Rp文本作为参考点,将文本识别数据和文本位置数据分割为处方信息部分及药方信息部分;
B3.对于处方信息部分;
以“医院”作为关键字进行匹配,截取与医院直接连接的文本串,获取医院名称数据;
以“医院”和“处方笺”为关键字进行匹配后,截取位于两者之间的文本串,获取处方类型数据;
以“处方笺”为关键字进行匹配确定处方笺文本位置,在处方笺后侧以有效为关键字进行匹配,截取与有效直接连接的文本串作为有效期数据;
以“门诊号”作为关键字进行匹配,截取与门诊号直接连接的文本串直接连接的文本串作为门诊号数据;
以“科室”作为关键字进行匹配,截取与科室直接连接的文本串直接连接的文本串作为科室数据;
以“年”、“月”、“日”作为关键字进行匹配,截取与年月日直接连接的文本串直接连接的文本串作为处方日期数据;
以依次相连的数字加关键字“:”加数字的三组合为匹配规则,确定处方时间数据;
以“姓名”和“性别”为关键字进行匹配后,截取位于两者之间的文本串,获取姓名数据;
正则匹配多行
以“姓名”为关键字进行匹配确定姓名文本位置,在姓名后侧以“男”或“女”为关键字进行匹配,以截取到的男或女作为性别数据;
以依次相连的数字加关键字“岁”的组合为匹配规则,截取相应的数字文本作为年龄数据;
以“临床诊断”为关键字进行匹配,截取位于“临床诊断”关键字后侧文本数据作为临床诊断数据;
B4.对于药方信息部分,采用步骤b1~b3处理,具体而言:
b1.是指利用文本识别模块所获取的位置信息,将每一条药方进行切分,包括步骤I~III:
I、利用已有药方文本位置信息中的宽度信息求得所有药方文本的平均宽度;
II、将相对位置小于平均宽度的文本拼接,作为单条药方的其中一行;
III、每两行作为一条药方,若出现单条药方占处方笺三行,确定该行最左侧文本的横坐标与上一行最左侧文本的横坐标的距离大于判定阈值,若大于阈值则认为此此行与上一行为一行信息;
b2.将易错文本字符进行修正;
b3.对药方的各行分别使用正则匹配的方式分别抽取得到药方数据。
2.根据权利要求1所述的一种处方信息扫描和自动识别方法,其特征在于,所述步骤b3中具体是指:
C1、使用数字文本对药方的第一行进行正则匹配,截取位于数字文本前侧的字符串作为药品名称数据;
C2、删除前述药方名称文本,在剩下的字符串中使用正则方法匹配中文或中文+字母,以得到的文本串作为要药品来源数据;
C3、以C2的匹配结果切分第一行删除药方名称的部分,切分得到的前一部分为药品规格数据;切分得到的后一部分为药品数量数据;
C4、使用关键字“/”+“周”或“日”的组合方式进行正则匹配,匹配得到的文本串为药品频次数据;
C5、以C4的匹配结果切分药方的第二行,切分得到的前一部为药品单次剂量;
C6、对C5中切分得到的后一部分,使用关键字天进行正则匹配,截取得到的数字字符作为药品周期数据;
C7、对C5中切分得到的后一部分,使用关键字口服、吸入、外用、皮下注射进行正则匹配,以得到的相同字样文本串作为使用类型数据;
C8、对C5中切分得到的后一部分,删除C6、C7相应数据,截取剩下的文本数据作为药方医嘱数据。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。