(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 111563211 A (43)申请公布日 2020.08.21 | ||
(21)申请号 CN202010251493.1
(22)申请日 2020.04.01
(71)申请人 深信服科技股份有限公司
地址 518055 广东省深圳市山区学苑大道1001号南山智园A1栋
(72)发明人 吴汉桥
(74)专利代理机构 北京派特恩知识产权代理有限公司
代理人 王军红
(51)Int.CI
权利要求说明书 说明书 幅图 |
(54)发明名称
一种统一资源定位符提取方法、装置、设备和存储介质 | |
(57)摘要
本发明实施例提出了一种统一资源定位符提取方法、装置、设备和存储介质,该URL提取方法,通过确定待提取数据的开始字符;基于所述开始字符依次扫描所述待提取数据,根据预设的特殊字符确定所述待提取数据中的结束字符,所述特殊字符包括不属于URL中的字符;根据所述开始字符和所述结束字符,提取URL,由于该URL提取方法是对待提取数据直接确定URL的开始字符和结束字符,以实现对URL的提取,因此,避免了对网络通信的格式的要求,也不需要设置正则表达式,URL的提取准确性更高。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
权 利 要 求 说 明 书
1.一种统一资源定位符提取方法,其特征在于,所述方法包括:
确定待提取数据中的开始字符;
基于所述开始字符依次扫描所述待提取数据,根据预设的特殊字符确定所述待提取数据中的结束字符,所述特殊字符包括不属于URL中的字符;
根据所述开始字符和所述结束字符,提取URL。
2.根据权利要求1所述的方法,其特征在于,所述根据预设的特殊字符确定所述待提取数据中的结束字符,包括:
在所述待提取数据中查到所述预设的特殊字符的情况下,确定查到的所述预设的特殊字符对应的前一个字符为所述结束字符。
3.根据权利要求1所述的方法,其特征在于,所述根据预设的特殊字符确定所述待提取数据中的结束字符,包括:
在所述待提取数据中未查到所述预设的特殊字符的情况下,确定所述待提取数据对应的最后一个字符为所述结束字符。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述特殊字符是除数字和字母以外的字符。
5.根据权利要求1所述的方法,其特征在于,所述确定待提取数据中的开始字符,包括:
在所述待提取数据中按照顺序查第一个定位字符,所述定位字符表示预设的字符集合中的任一字符,确定查到的第一个定位字符为所述开始字符。
6.根据权利要求5所述的方法,其特征在于,所述预设的字符集合包括字母和或/数字。
7.根据权利要求1所述的方法,其特征在于,所述待提取数据包括邮件正文数据。
8.一种统一资源定位符提取装置,其特征在于,所述装置包括:确定模块和提取模块,其中,
确定模块,用于确定待提取数据中的开始字符;
提取模块,用于基于所述开始字符依次扫描所述待提取数据,根据预设的特殊字符确定所述待提取数据中的结束字符,所述特殊字符包括不属于URL中的字符;根据所述开始字符和所述结束字符,提取URL。
9.一种电子设备,其特征在于,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序时,执行权利要求1-7任一项所述的统一资源定位符提取方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7任一项所述的统一资源定位符提取方法。
正则匹配多个数字
说 明 书
<p>技术领域
本发明涉及统一资源定位符(UniformResourceLocator,URL)提取技术领域,尤其涉及一种统一资源定位符提取方法、装置、电子设备和计算机存储介质。
背景技术
目前,针对URL提取方法主要包括以下两种:方案1,解析法,通过解析超文本标记语言(HyperTextMarkupLanguage,HTML)文档中可能携带有URL的特定标签,来提取文档中的URL;方案2,正则表达式提取法,通过扫描待提取数据确定是否有匹配正则表达式的URL,在确定有匹配正则表达式的URL时,提取正文中的URL,可以看出,方案1需要待提取数据符合HTML格式,且URL出现在特定的标签中才能正确的提取,在待提取数据不是HTML格式时,将会导致URL无法提取的问题;方案2消除了对待提取数据的格式的要求,只需扫描待提取数据中的内容是否有匹配正则表达式的URL并提取即可,但提取URL的准确性依赖于选择的正则表达式的准确性,且正则表达式提取URL时,对于URL的特殊情况可能引起性能问题。
发明内容
本发明实施例期望提供一种URL提取的技术方案,以解决现有技术中URL提取的准确性对正则表达式的准确性的依赖以及对于URL的特殊情况可能引起的性能问题。
本发明实施例提供了一种URL提取方法,所述方法包括:
确定待提取数据中的开始字符;
基于所述开始字符依次扫描所述待提取数据,根据预设的特殊字符确定所述待提取数据中的结束字符,所述特殊字符包括不属于URL中的字符;
根据所述开始字符和所述结束字符,提取URL。
可选地,所述根据预设的特殊字符确定所述待提取数据中的结束字符,包括:
在所述待提取数据中查到所述预设的特殊字符的情况下,确定查到的所述预设的特殊字符对应的前一个字符为所述结束字符。
可选地,所述根据预设的特殊字符确定所述待提取数据中的结束字符,包括:
在所述待提取数据中未查到所述预设的特殊字符的情况下,确定所述待提取数据对应的最后一个字符为所述结束字符。
可选地,所述特殊字符是除数字和字母以外的字符。
可选地,所述确定待提取数据中的开始字符,包括:
在所述待提取数据中按照顺序查第一个定位字符,所述定位字符表示预设的字符集合中的任一字符,确定查到第一个定位字符为所述开始字符。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论