基于规则的中文地址分词与匹配方法
正则表达式提取中文规则基于地址格式的中文地址分词和匹配方法,采用一种基于结构地址格式匹配的方法,对中文地址进行分词,从中提取出省份、城市、区县、乡镇、街道、村等信息。
1、根据中国省市行政架构,将中文地址按照固定格式来进行分词;
2、使用字典匹配法,将中文地址中的关键字提取出来,进而将关键字与中国省市行政架构划分为省、市、县、乡等;
3、由地址中的关键信息进行模式匹配,以提取出详细的地址信息。模式匹配的方法通常采用正则表达式、结构化地址方法或其他方法;
4、将中文地址分出关键字信息后,针对每一个关键字进行精确的定位,得到每一个关键字的详细地址信息;
5、对分词后的中文地址进行校对和细节调整,将被识别的地址信息进行融合,最终得到正确的地址信息。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。