正则表达式在爬虫中的基础知识

正则表达式在爬虫的基础知识 一、爬虫的四个主要步骤: 1、明确目标(明确准备在哪个范围或者网站搜索) 2、爬(将确定范围的网站内容全部爬下来) 3、取(去掉无用处的数据) 4、处理数据(按照要求将数据存储和使用) 二、正则表达式定义 1、正则表达式又称规则表达式,通常被用来检索,替换那些符合某个模式或规则的文本。 2、对字符串操作的一种逻辑公式,组成一个“规则字符串”,用来表达对字符串的一种过滤逻
相关文章
相关标签/搜索