Python爬虫学习：3、爬虫的基本操做流程

时间 2019-11-30

标签 python 爬虫学习基本流程栏目 Python 繁體版

原文原文链接

通常咱们使用Python爬虫都是但愿实现一套完整的功能，以下：正则表达式

1.爬虫目标数据、信息；数据库

2.将数据或信息存入数据库中；浏览器

3.数据展现，即在Web端进行显示，并有本身的分析说明。学习

此次我先介绍第一个功能中所须要实现的基本操做：网站

爬虫的基本操做：

导入爬虫所须要的库（如：urllib、urllib二、BeautifulSoup、Scrapy等）
定义目标连接：url="http://www.cnblogs.com/Maple2cat/"
添加data信息：data为字典类型，能够添加name，password等一些登陆所需信息
定义headers：有些网站会识别连接是否由浏览器发出的请求，须要定义headers用假装是浏览器所访问的
若是在第三步中添加了data信息，则须要对data进行转编码：urlencode(data)
请求连接：res=urllib2.Request(url,data,headers)
读取HTML源码：html=res.read()
解析html，通常经常使用的方法有两种：¹ 正则表达式（根据提取规则截取目标内容）；² BeautifulSoup（根据html标签进行提取，如：<a>……</a>）
存入本地或者数据库

Python正则表达式学习请看这边→|||Python正则表达式学习|||编码