Python学习汇总，作数据采集的一些小技巧，干货满满

时间 2019-12-14

原文原文链接

学习Python也有一段时间了，在学习过程当中不断的练习学到的各种知识，作的最多的仍是爬虫，也就是简单的数据采集，有采集图片（这个最多了。。。），有下载电影的，也有学习相关的好比ppt模板的抓取，固然也写过相似收发邮件，自动登陆论坛发帖，验证码相关操做等等！html

这些脚本有一个共性，都是和web相关的，总要用到获取连接的一些方法，在此总结一下，也分享给正在学习的小伙伴python

安装相关

python的各个版本其实分别并不大，因此不用太纠结用3.6仍是3.7.web

而咱们常常使用的库呢，建议你们学到什么库安装什么库浏览器

有的同窗会纠结，库安装不上的问题，这个推荐你们百度搜索：python whl 第一个就是吧，在里面有各个库的各个版本，选择对应的下载回来，用pip install 文件完整路径安装便可！服务器

pip install d:\requests_download-0.1.2-py2.py3-none-any.whl

最基本的抓站——获取源代码cookie

import requests#导入库

html = requests.get(url)#获取源代码

html.encoding='utf-8'#指定含中文的网页源代码编码格式，具体格式通常存在于源代码的meta标签内

适用于静态网页框架

网站反“反爬”

大部分的网站（各种中小型网站）都会须要你的代码有headers的信息，若是没有，会直接拒绝你的访问！大型网站反而不多，尤为是门户网站，好比新浪新闻、头条图集、百度图片的爬虫，基本没有什么反爬措施，相关内容能够看看个人其余文章！学习

而有反爬措施的网站，大部分能够按加入UA信息——加入HOST、Referer（反盗链）信息的顺序加入到headers数据(字典格式)中来尝试！代码格式网站

requeststs.get(url,headers=headers)

UA信息是浏览器信息，告诉对方服务器咱们是什么浏览器，平时能够收集下相关信息作个UA池，须要的时候调用就能够，也能够随机调用，防止被网站发现，注意的是若是是移动端，必定要注意移动端的网页和pc端的不同，好比作微博爬虫，咱们就比较喜欢移动端，它的反爬力度比pc端的要低不少，也提醒你们，若是一个网站反爬很厉害，你能够去看看移动端（手机登陆而后复制url），也许会有惊喜！编码

HOST信息, 网站的主机信息，这个通常是不变的

Referer信息，这个就是“反盗链”的关键信息，简单的说，就是你是从哪里到当前页面的，破解也很简单，把url放到里面就行！

若是上述办法仍是绕不过反爬，那么就麻烦一些，把headers里面的信息都写进去吧

终极反“反爬”：去学习selenium吧少年！

保存文件

其实能够简单的分两大类：字符串内容保存和其余内容保存！简单的2行代码就能够解决

a+为文末追加写入模式，适用于字符串内容的写入，注意排版，也能够在'a+'后面添加参数encoding='utf-8'指定保存文本的编码格式

wb为二进制写入模式，适用于找到对象的真实下载地址后用二进制方式下载文件

未完待续

篇幅有限，原本想写完的，可是有人和我说，写的太多没人看。。。这就很尴尬了！那就先写到这里吧！

也正好有时间从新整理下后面的内容，大概有：自动登陆（cookie池）和保持登陆、ip代理、验证码（这个是大项）以及scarpy框架的一些注意事项。

有其余技巧或者疑问的同窗，也能够在评论区写上或者私信我，我们一块儿讨论哦！

关注博客或者公众号：python入门，获取更多信息！