数据采集过程中对内容快速截取&提取方法

简数采集平台已集成丰富的数据处理功能,可以在采集过程中一并把数据进行加工。这一章节就要讲关于使用正则表达式提取或替换匹配的内容,内置常见提取正则表达式:日期、数字、网址、号码、截取前X个字符和获取第二张图片链接等。

详细使用步骤:

  1. 常用截取&提取表达式
  2. 自定义正则表达式

 

1. 常用截取&提取表达式

  简数文章采集提供常见的提取和截取正则表达式,不懂正则语法也可轻松使用,只需点击下对应的按钮;

  常见的提取和截取正则表达式:日期、中文日期、正整数、负整数、正浮点数、负浮点数、网址URL、邮箱、IP、身份证号码、手机号码、固定电话号码、微信号、5到11位的数字、截取前X个字符、获取第2张图片链接;

  注意:如果没匹配到内容则该字段为空内容,所以需要时才设置;

  例子1:假设日期和其他信息混在一起,无法通过选择区域分开,这时可使用日期提取功能,记得最后保存:

  例子2:如果想保留标题的前20个字,可以使用截取前X个字符功能,默认是保留前10个字符,将数字改为20即可;

 

2. 自定义正则表达式

  可自定义填写正则表达式提取或替换需要的内容,如果没匹配到内容则该字段为空内容;

  • 字段原值:字段的采集内容,未执行正则语法的原来内容;

  • 将匹配的内容:填写正则表达式,匹配原值中符合条件的所有内容;

  • 替换为:如果不填,会提取匹配的内容; 如果填写了,匹配的内容会被填写的值替换,原值其他内容保持不变;