学习Python也有一段时间了,在学习过程当中不断的练习学到的各种知识,作的最多的仍是爬虫,也就是简单的数据采集,有采集图片(这个最多了。。。),有下载电影的,也有学习相关的好比ppt模板的抓取,固然也写过相似收发邮件,自动登陆论坛发帖,验证码相关操做等等!html
这些脚本有一个共性,都是和web相关的,总要用到获取连接的一些方法,在此总结一下,也分享给正在学习的小伙伴python
python的各个版本其实分别并不大,因此不用太纠结用3.6仍是3.7.web
而咱们常常使用的库呢,建议你们学到什么库安装什么库浏览器
有的同窗会纠结,库安装不上的问题,这个推荐你们百度搜索:python whl 第一个就是吧,在里面有各个库的各个版本,选择对应的下载回来,用pip install 文件完整路径 安装便可!服务器
pip install d:\requests_download-0.1.2-py2.py3-none-any.whl
最基本的抓站——获取源代码cookie
import requests#导入库 html = requests.get(url)#获取源代码 html.encoding='utf-8'#指定含中文的网页源代码编码格式,具体格式通常存在于源代码的meta标签内
适用于静态网页框架
大部分的网站(各种中小型网站)都会须要你的代码有headers的信息,若是没有,会直接拒绝你的访问!大型网站反而不多,尤为是门户网站,好比新浪新闻、头条图集、百度图片的爬虫,基本没有什么反爬措施,相关内容能够看看个人其余文章!学习
而有反爬措施的网站,大部分能够按加入UA信息——加入HOST、Referer(反盗链)信息的顺序加入到headers数据(字典格式)中来尝试!代码格式 网站
requeststs.get(url,headers=headers)
UA信息是浏览器信息,告诉对方服务器咱们是什么浏览器,平时能够收集下相关信息作个UA池,须要的时候调用就能够,也能够随机调用,防止被网站发现,注意的是若是是移动端,必定要注意移动端的网页和pc端的不同,好比作微博爬虫,咱们就比较喜欢移动端,它的反爬力度比pc端的要低不少,也提醒你们,若是一个网站反爬很厉害,你能够去看看移动端(手机登陆而后复制url),也许会有惊喜!编码
HOST信息, 网站的主机信息,这个通常是不变的
Referer信息 ,这个就是“反盗链”的关键信息,简单的说,就是你是从哪里到当前页面的,破解也很简单,把url放到里面就行!
若是上述办法仍是绕不过反爬,那么就麻烦一些,把headers里面的信息都写进去吧
终极反“反爬”:去学习selenium吧少年!
其实能够简单的分两大类:字符串内容保存和其余内容保存!简单的2行代码就能够解决
a+为文末追加写入模式,适用于字符串内容的写入,注意排版,也能够在'a+'后面添加参数encoding='utf-8'指定保存文本的编码格式
wb为二进制写入模式,适用于找到对象的真实下载地址后用二进制方式下载文件
未完待续
篇幅有限,原本想写完的,可是有人和我说,写的太多没人看。。。这就很尴尬了!那就先写到这里吧!
也正好有时间从新整理下后面的内容,大概有:自动登陆(cookie池)和保持登陆、ip代理、验证码(这个是大项)以及scarpy框架的一些注意事项。
有其余技巧或者疑问的同窗,也能够在评论区写上或者私信我,我们一块儿讨论哦!
关注博客或者公众号:python入门,获取更多信息!