一种统一资源定位符提取方法、装置、设备和存储介质--688IT编程网

(19)中华人民共和国国家知识产权局

	(12)发明专利说明书
		(10)申请公布号 CN 111563211 A (43)申请公布日 2020.08.21

(21)申请号 CN202010251493.1

(22)申请日 2020.04.01

(71)申请人深信服科技股份有限公司

地址 518055 广东省深圳市山区学苑大道1001号南山智园A1栋

(72)发明人吴汉桥

(74)专利代理机构北京派特恩知识产权代理有限公司

代理人王军红

(51)Int.CI

权利要求说明书说明书幅图

(54)发明名称

一种统一资源定位符提取方法、装置、设备和存储介质

(57)摘要

本发明实施例提出了一种统一资源定位符提取方法、装置、设备和存储介质，该URL提取方法，通过确定待提取数据的开始字符；基于所述开始字符依次扫描所述待提取数据，根据预设的特殊字符确定所述待提取数据中的结束字符，所述特殊字符包括不属于URL中的字符；根据所述开始字符和所述结束字符，提取URL，由于该URL提取方法是对待提取数据直接确定URL的开始字符和结束字符，以实现对URL的提取，因此，避免了对网络通信的格式的要求，也不需要设置正则表达式，URL的提取准确性更高。

法律状态

法律状态公告日	法律状态信息	法律状态

权利要求说明书

1.一种统一资源定位符提取方法,其特征在于,所述方法包括:

确定待提取数据中的开始字符;

基于所述开始字符依次扫描所述待提取数据,根据预设的特殊字符确定所述待提取数据中的结束字符,所述特殊字符包括不属于URL中的字符;

根据所述开始字符和所述结束字符,提取URL。

2.根据权利要求1所述的方法,其特征在于,所述根据预设的特殊字符确定所述待提取数据中的结束字符,包括:

在所述待提取数据中查到所述预设的特殊字符的情况下,确定查到的所述预设的特殊字符对应的前一个字符为所述结束字符。

3.根据权利要求1所述的方法,其特征在于,所述根据预设的特殊字符确定所述待提取数据中的结束字符,包括:

在所述待提取数据中未查到所述预设的特殊字符的情况下,确定所述待提取数据对应的最后一个字符为所述结束字符。

4.根据权利要求1至3任一项所述的方法,其特征在于,所述特殊字符是除数字和字母以外的字符。

5.根据权利要求1所述的方法,其特征在于,所述确定待提取数据中的开始字符,包括:

在所述待提取数据中按照顺序查第一个定位字符,所述定位字符表示预设的字符集合中的任一字符,确定查到的第一个定位字符为所述开始字符。

6.根据权利要求5所述的方法,其特征在于,所述预设的字符集合包括字母和或/数字。

7.根据权利要求1所述的方法,其特征在于,所述待提取数据包括邮件正文数据。

8.一种统一资源定位符提取装置,其特征在于,所述装置包括:确定模块和提取模块,其中,

确定模块,用于确定待提取数据中的开始字符;

提取模块,用于基于所述开始字符依次扫描所述待提取数据,根据预设的特殊字符确定所述待提取数据中的结束字符,所述特殊字符包括不属于URL中的字符;根据所述开始字符和所述结束字符,提取URL。

9.一种电子设备,其特征在于,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,

所述处理器用于运行所述计算机程序时,执行权利要求1-7任一项所述的统一资源定位符提取方法。

10.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7任一项所述的统一资源定位符提取方法。

正则匹配多个数字

说明书

<p>技术领域

本发明涉及统一资源定位符(UniformResourceLocator,URL)提取技术领域,尤其涉及一种统一资源定位符提取方法、装置、电子设备和计算机存储介质。

背景技术

目前,针对URL提取方法主要包括以下两种:方案1,解析法,通过解析超文本标记语言(HyperTextMarkupLanguage,HTML)文档中可能携带有URL的特定标签,来提取文档中的URL;方案2,正则表达式提取法,通过扫描待提取数据确定是否有匹配正则表达式的URL,在确定有匹配正则表达式的URL时,提取正文中的URL,可以看出,方案1需要待提取数据符合HTML格式,且URL出现在特定的标签中才能正确的提取,在待提取数据不是HTML格式时,将会导致URL无法提取的问题;方案2消除了对待提取数据的格式的要求,只需扫描待提取数据中的内容是否有匹配正则表达式的URL并提取即可,但提取URL的准确性依赖于选择的正则表达式的准确性,且正则表达式提取URL时,对于URL的特殊情况可能引起性能问题。

发明内容

本发明实施例期望提供一种URL提取的技术方案,以解决现有技术中URL提取的准确性对正则表达式的准确性的依赖以及对于URL的特殊情况可能引起的性能问题。

本发明实施例提供了一种URL提取方法,所述方法包括:

确定待提取数据中的开始字符;

基于所述开始字符依次扫描所述待提取数据,根据预设的特殊字符确定所述待提取数据中的结束字符,所述特殊字符包括不属于URL中的字符;

根据所述开始字符和所述结束字符,提取URL。

可选地,所述根据预设的特殊字符确定所述待提取数据中的结束字符,包括:

在所述待提取数据中查到所述预设的特殊字符的情况下,确定查到的所述预设的特殊字符对应的前一个字符为所述结束字符。

可选地,所述根据预设的特殊字符确定所述待提取数据中的结束字符,包括:

在所述待提取数据中未查到所述预设的特殊字符的情况下,确定所述待提取数据对应的最后一个字符为所述结束字符。

可选地,所述特殊字符是除数字和字母以外的字符。

可选地,所述确定待提取数据中的开始字符,包括:

在所述待提取数据中按照顺序查第一个定位字符,所述定位字符表示预设的字符集合中的任一字符,确定查到第一个定位字符为所述开始字符。

688IT编程网

一种统一资源定位符提取方法、装置、设备和存储介质

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

一种统一资源定位符提取方法、装置、设备和存储介质

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式