python做为一门高级编程语言,它的定位是优雅、明确和简单。python
我学用python差很少一年时间了,web
用得最多的仍是各种爬虫脚本,正则表达式
写过抓代理本机验证的脚本、写过论坛中自动登陆自动发贴的脚本编程
写过自动收邮件的脚本、写过简单的验证码识别的脚本。浏览器
这些脚本有一个共性,都是和web相关的,服务器
总要用到获取连接的一些方法,故累积了很多爬虫抓站的经验,cookie
在此总结一下,那么之后作东西也就不用重复劳动了。网络
若是你在学习Python的过程当中碰见了不少疑问和难题,能够加-q-u-n 227 -435-450里面有软件视频资料免费领取多线程
get方法并发
post方法
这在某些状况下比较有用,
好比IP被封了,或者好比IP访问的次数受到限制等等。
是的没错,若是想同时用代理和cookie,
那就加入proxy_support而后operner改成 ,以下:
某些网站反感爬虫的到访,因而对爬虫一概拒绝请求。
这时候咱们须要假装成浏览器,
这能够经过修改http包中的header来实现:
对于页面解析最强大的固然是正则表达式,
这个对于不一样网站不一样的使用者都不同,就不用过多的说明。
其次就是解析库了,经常使用的有两个lxml和BeautifulSoup。
对于这两个库,个人评价是,
都是HTML/XML的处理库,Beautifulsoup纯python实现,效率低,
可是功能实用,好比能用经过结果搜索得到某个HTML节点的源码;
lxmlC语言编码,高效,支持Xpath。
碰到验证码咋办?
这里分两种状况处理:
google那种验证码,没办法。
简单的验证码:字符个数有限,只使用了简单的平移或旋转加噪音而没有扭曲的,
这种仍是有可能能够处理的,通常思路是旋转的转回来,噪音去掉,
而后划分单个字符,划分好了之后再经过特征提取的方法(例如PCA)降维并生成特征库,
而后把验证码和特征库进行比较。
这个比较复杂,这里就不展开了,
具体作法请弄本相关教科书好好研究一下。
如今的网页广泛支持gzip压缩,这每每能够解决大量传输时间,
以VeryCD的主页为例,未压缩版本247K,压缩了之后45K,为原来的1/5。
这就意味着抓取速度会快5倍。
然而python的urllib/urllib2默认都不支持压缩
要返回压缩格式,必须在request的header里面写明’accept-encoding’,
而后读取response后更要检查header查看是否有’content-encoding’一项来判断是否须要解码,很繁琐琐碎。
如何让urllib2自动支持gzip, defalte呢?
其实能够继承BaseHanlder类,
而后build_opener的方式来处理:
单线程太慢的话,就须要多线程了,
这里给个简单的线程池模板 这个程序只是简单地打印了1-10,
可是能够看出是并发的。
虽说Python的多线程很鸡肋
可是对于爬虫这种网络频繁型,
仍是能必定程度提升效率的。
阅读Python编写的代码感受像在阅读英语同样,这让使用者能够专一于解决问题而不是去搞明白语言自己。
Python虽然是基于C语言编写,可是摒弃了C中复杂的指针,使其变得简明易学。
而且做为开源软件,Python容许对代码进行阅读,拷贝甚至改进。
这些性能成就了Python的高效率,有“人生苦短,我用Python”之说,是一种十分精彩又强大的语言。
总而言之,开始学Python必定要注意这4点: