本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:3、爬虫的基本操做与流程html
通常咱们使用Python爬虫都是但愿实现一套完整的功能,以下:正则表达式
1.爬虫目标数据、信息;数据库
2.将数据或信息存入数据库中;浏览器
3.数据展现,即在Web端进行显示,并有本身的分析说明。学习
此次我先介绍第一个功能中所须要实现的基本操做:网站
爬虫的基本操做:
表示必须步骤 表示可选步骤
- 导入爬虫所须要的库(如:urllib、urllib二、BeautifulSoup、Scrapy等)
- 定义目标连接:url="http://www.cnblogs.com/Maple2cat/"
- 添加data信息:data为字典类型,能够添加name,password等一些登陆所需信息
- 定义headers:有些网站会识别连接是否由浏览器发出的请求,须要定义headers用假装是浏览器所访问的
- 若是在第三步中添加了data信息,则须要对data进行转编码:urlencode(data)
- 请求连接:res=urllib2.Request(url,data,headers)
- 读取HTML源码:html=res.read()
- 解析html,通常经常使用的方法有两种:¹ 正则表达式(根据提取规则截取目标内容);² BeautifulSoup(根据html标签进行提取,如:<a>……</a>)
- 存入本地或者数据库
Python正则表达式学习请看这边→|||Python正则表达式学习|||编码
下一篇将简单介绍如何查看网站登陆的data信息以及headers,^_^~