一种处方信息扫描和自动识别方法--688IT编程网

(19)中华人民共和国国家知识产权局

	(12)发明专利说明书
		(10)申请公布号 CN 113128490 A (43)申请公布日 2021.07.16

(21)申请号 CN202110466829.0

(22)申请日 2021.04.28

(71)申请人湖南荣冠智能科技有限公司

地址 410205 湖南省长沙市高新开发区文轩路27号麓谷钰园F2栋5层512-1室

(72)发明人窦钰涛胡彪夏飞肖坚金持

(74)专利代理机构 11421 北京天盾知识产权代理有限公司

代理人周敏云

(51)Int.CI

G06K9/20(20060101)

G06K9/34(20060101)

G06K9/62(20060101)

G06F16/903(20190101)

G06N3/04(20060101)

G06N3/08(20060101)

权利要求说明书说明书幅图

(54)发明名称

一种处方信息扫描和自动识别方法

(57)摘要

本申请属于数据处理方法技术领域，尤其涉及一种处方信息扫描和自动识别方法。包括用于进行文本识别的步骤；包括获取处方笺图片，以处方笺图片为输入获取输出的文本识别数据以及文本位置数据；用于完成信息抽取的步骤，包括步获取文本识别数据和文本位置数据；通过处方笺上固有的Rp文本作为参考点，将文本识别数据和文本位置数据分割为处方信息部分及药方信息部分；本申请提出了一种能够用于快速识别和分析处方笺上文本信息，并实现自动化分类信息收集和处方信息预处理的技术方案，本方法实现方式相对简单，适应性好，且能够充分保证信息收集的准确性，并具有一定的纠错勘误能力，能够提高处方笺信息电子化的效率，降低操作成本。

法律状态

法律状态公告日	法律状态信息	法律状态
2021-07-16	公开	公开
2021-08-03	实质审查的生效	实质审查的生效

权利要求说明书

1.一种处方信息扫描和自动识别方法,其特征在于,包括步骤1~2:

1用于进行文本识别的步骤;包括:

A1.获取处方笺图片,基于TrWebOCR,以处方笺图片为输入获取输出的文本识别数据以及文本位置数据;

所述TrWebOCR采用CNN+RNN+CTC模型,具体而言,包括:

构建自下而上的卷积层、循环层和转录层三个部分;在卷积层输入图像特征提取序列,利用双向LSTM组成循环层,循环层对卷积层输出的特征序列的每一帧进行预测,利用转录层将每帧的预测转化为标签序列;

2用于完成信息抽取的步骤,包括步骤B1~B4:

B1.获取文本识别数据和文本位置数据;

B2.通过处方笺上固有的Rp文本作为参考点,将文本识别数据和文本位置数据分割为处方信息部分及药方信息部分;

B3.对于处方信息部分;

以“医院”作为关键字进行匹配,截取与医院直接连接的文本串,获取医院名称数据;

以“医院”和“处方笺”为关键字进行匹配后,截取位于两者之间的文本串,获取处方类型数据;

以“处方笺”为关键字进行匹配确定处方笺文本位置,在处方笺后侧以有效为关键字进行匹配,截取与有效直接连接的文本串作为有效期数据;

以“门诊号”作为关键字进行匹配,截取与门诊号直接连接的文本串直接连接的文本串作为门诊号数据;

以“科室”作为关键字进行匹配,截取与科室直接连接的文本串直接连接的文本串作为科室数据;

以“年”、“月”、“日”作为关键字进行匹配,截取与年月日直接连接的文本串直接连接的文本串作为处方日期数据;

以依次相连的数字加关键字“:”加数字的三组合为匹配规则,确定处方时间数据;

以“姓名”和“性别”为关键字进行匹配后,截取位于两者之间的文本串,获取姓名数据;

正则匹配多行

以“姓名”为关键字进行匹配确定姓名文本位置,在姓名后侧以“男”或“女”为关键字进行匹配,以截取到的男或女作为性别数据;

以依次相连的数字加关键字“岁”的组合为匹配规则,截取相应的数字文本作为年龄数据;

以“临床诊断”为关键字进行匹配,截取位于“临床诊断”关键字后侧文本数据作为临床诊断数据;

B4.对于药方信息部分,采用步骤b1~b3处理,具体而言:

b1.是指利用文本识别模块所获取的位置信息,将每一条药方进行切分,包括步骤I~III:

I、利用已有药方文本位置信息中的宽度信息求得所有药方文本的平均宽度;

II、将相对位置小于平均宽度的文本拼接,作为单条药方的其中一行;

III、每两行作为一条药方,若出现单条药方占处方笺三行,确定该行最左侧文本的横坐标与上一行最左侧文本的横坐标的距离大于判定阈值,若大于阈值则认为此此行与上一行为一行信息;

b2.将易错文本字符进行修正;

b3.对药方的各行分别使用正则匹配的方式分别抽取得到药方数据。

2.根据权利要求1所述的一种处方信息扫描和自动识别方法,其特征在于,所述步骤b3中具体是指:

C1、使用数字文本对药方的第一行进行正则匹配,截取位于数字文本前侧的字符串作为药品名称数据;

C2、删除前述药方名称文本,在剩下的字符串中使用正则方法匹配中文或中文+字母,以得到的文本串作为要药品来源数据;

C3、以C2的匹配结果切分第一行删除药方名称的部分,切分得到的前一部分为药品规格数据;切分得到的后一部分为药品数量数据;

C4、使用关键字“/”+“周”或“日”的组合方式进行正则匹配,匹配得到的文本串为药品频次数据;

C5、以C4的匹配结果切分药方的第二行,切分得到的前一部为药品单次剂量;

C6、对C5中切分得到的后一部分,使用关键字天进行正则匹配,截取得到的数字字符作为药品周期数据;

C7、对C5中切分得到的后一部分,使用关键字口服、吸入、外用、皮下注射进行正则匹配,以得到的相同字样文本串作为使用类型数据;

C8、对C5中切分得到的后一部分,删除C6、C7相应数据,截取剩下的文本数据作为药方医嘱数据。

688IT编程网

一种处方信息扫描和自动识别方法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

一种处方信息扫描和自动识别方法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式