带你入门Python爬虫，8个经常使用爬虫技巧盘点

时间 2019-12-13

标签入门 python 爬虫经常使用技巧盘点栏目 Python 繁體版

原文原文链接

python做为一门高级编程语言，它的定位是优雅、明确和简单。python

我学用python差很少一年时间了，web

用得最多的仍是各种爬虫脚本，正则表达式

写过抓代理本机验证的脚本、写过论坛中自动登陆自动发贴的脚本编程

写过自动收邮件的脚本、写过简单的验证码识别的脚本。浏览器

这些脚本有一个共性，都是和web相关的，服务器

总要用到获取连接的一些方法，故累积了很多爬虫抓站的经验，cookie

在此总结一下，那么之后作东西也就不用重复劳动了。网络

若是你在学习Python的过程当中碰见了不少疑问和难题，能够加-q-u-n 227 -435-450里面有软件视频资料免费领取多线程

一、基本抓取网页

get方法并发

post方法

2.使用代理服务器

这在某些状况下比较有用，

好比IP被封了，或者好比IP访问的次数受到限制等等。

3.Cookies处理

是的没错，若是想同时用代理和cookie，

那就加入proxy_support而后operner改成，以下：

4.假装成浏览器访问

某些网站反感爬虫的到访，因而对爬虫一概拒绝请求。

这时候咱们须要假装成浏览器，

这能够经过修改http包中的header来实现：

五、页面解析

对于页面解析最强大的固然是正则表达式，

这个对于不一样网站不一样的使用者都不同，就不用过多的说明。

其次就是解析库了，经常使用的有两个lxml和BeautifulSoup。

对于这两个库，个人评价是，

都是HTML/XML的处理库，Beautifulsoup纯python实现，效率低，

可是功能实用，好比能用经过结果搜索得到某个HTML节点的源码；

lxmlC语言编码，高效，支持Xpath。

6.验证码的处理

碰到验证码咋办？

这里分两种状况处理：

google那种验证码，没办法。

简单的验证码：字符个数有限，只使用了简单的平移或旋转加噪音而没有扭曲的，

这种仍是有可能能够处理的，通常思路是旋转的转回来，噪音去掉，

而后划分单个字符，划分好了之后再经过特征提取的方法(例如PCA)降维并生成特征库，

而后把验证码和特征库进行比较。

这个比较复杂，这里就不展开了，

具体作法请弄本相关教科书好好研究一下。

7. gzip/deflate支持

如今的网页广泛支持gzip压缩，这每每能够解决大量传输时间，

以VeryCD的主页为例，未压缩版本247K，压缩了之后45K，为原来的1/5。

这就意味着抓取速度会快5倍。

然而python的urllib/urllib2默认都不支持压缩

要返回压缩格式，必须在request的header里面写明’accept-encoding’，

而后读取response后更要检查header查看是否有’content-encoding’一项来判断是否须要解码，很繁琐琐碎。

如何让urllib2自动支持gzip, defalte呢？

其实能够继承BaseHanlder类，

而后build_opener的方式来处理：

八、多线程并发抓取

单线程太慢的话，就须要多线程了，

这里给个简单的线程池模板这个程序只是简单地打印了1-10，

可是能够看出是并发的。

虽说Python的多线程很鸡肋

可是对于爬虫这种网络频繁型，

仍是能必定程度提升效率的。

9. 总结

阅读Python编写的代码感受像在阅读英语同样，这让使用者能够专一于解决问题而不是去搞明白语言自己。

Python虽然是基于C语言编写，可是摒弃了C中复杂的指针，使其变得简明易学。

而且做为开源软件，Python容许对代码进行阅读，拷贝甚至改进。

这些性能成就了Python的高效率，有“人生苦短，我用Python”之说，是一种十分精彩又强大的语言。

总而言之，开始学Python必定要注意这4点：

代码规范，这自己就是一个很是好的习惯，若是开始不养好好的代码规划，之后会很痛苦。
多动手，少看书，不少人学Python就一味的看书，这不是学数学物理，你看例题可能就会了，学习Python主要是学习编程思想。
勤练习，学完新的知识点，必定要记得如何去应用，否则学完就会忘，学咱们这行主要都是实际操做。
学习要有效率，若是本身都以为效率很是低，那就停不停，找一下缘由，去问问过来人这是为何。