数据采集过程中对内容快速截取提取⽅法
平台已集成丰富的数据处理功能,可以在采集过程中⼀并把数据进⾏加⼯。这⼀章节就要讲关于使⽤正则表达式提取或替换匹配的内容,内置常见提取正则表达式:⽇期、数字、⽹址、号码、截取前X个字符和获取第⼆张图⽚链接等。
详细使⽤步骤:
1.
2.
1. 常⽤截取&提取表达式
  提供常见的提取和截取正则表达式,不懂正则语法也可轻松使⽤,只需点击下对应的按钮;
  常见的提取和截取正则表达式:⽇期、中⽂⽇期、正整数、负整数、正浮点数、负浮点数、⽹址URL、邮箱、IP、⾝份证号码、⼿机号码、固定电话号码、号、5到11位的数字、截取前X个字符、获取第2张图⽚链接;
  注意:如果没匹配到内容则该字段为空内容,所以需要时才设置;
  例⼦1:假设⽇期和其他信息混在⼀起,⽆法通过选择区域分开,这时可使⽤⽇期提取功能,记得最后保存:
  例⼦2:如果想保留标题的前20个字,可以使⽤截取前X个字符功能,默认是保留前10个字符,将数字改为20即可;正则表达式提取中文
2. ⾃定义正则表达式
  可⾃定义填写正则表达式提取或替换需要的内容,如果没匹配到内容则该字段为空内容;
字段原值:字段的采集内容,未执⾏正则语法的原来内容;
将匹配的内容:填写正则表达式,匹配原值中符合条件的所有内容;
替换为:如果不填,会提取匹配的内容; 如果填写了,匹配的内容会被填写的值替换,原值其他内容保持不变;

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。