猫哥教你写爬虫 029--爬虫初探-requests

时间 2019-12-07

原文原文链接

什么是爬虫?

从本质上来讲，就是利用程序在网上拿到对咱们有价值的数据

爬虫能作不少事，能作商业分析，也能作生活助手，

好比：分析北京近两年二手房成交均价是多少？

深圳的Python工程师平均薪资是多少？

北京哪家餐厅粤菜最好吃？等等。

这是我的利用爬虫所作到的事情，而公司，一样能够利用爬虫来实现巨大的商业价值。

好比你所熟悉的搜索引擎——百度和谷歌，它们的核心技术之一也是爬虫，并且是超级爬虫。

百度这家公司会源源不断地把千千万万个网站爬取下来，存储在本身的服务器上。

你在百度搜索的本质就是在它的服务器上搜索信息，

你搜索到的结果是一些超连接，在超连接跳转以后你就能够访问其它网站了

浏览器工做原理

当服务器把数据响应给浏览器以后，浏览器并不会直接把数据丢给你。

由于这些数据是用计算机的语言写的，浏览器还要把这些数据翻译成你能看得懂的样子，

这是浏览器作的另外一项工做【解析数据】。

爬虫的工做原理

获取数据

咱们将会利用一个强大的库——requests来获取数据。

安装requests pip install requests

requests库能够帮咱们下载网页源代码、文本、图片，甚至是音频。

其实，“下载”本质上是向服务器发送请求并获得响应。

requests.get()

import requests
#引入requests库
res = requests.get('URL')
#requests.get是在调用requests库中的get()方法，它向服务器发送了一个请求，括号里的参数是你须要的数据所在的网址，而后服务器对请求做出了响应。
#咱们把这个响应返回的结果赋值在变量res上。
复制代码

尝试下载三国演义...

localprod.pandateacher.com/python-manu…

import requests 
#引入requests库
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md') 
#发送请求，并把响应结果赋值在变量res上
print(res)
print(type(res))
复制代码

Response对象的经常使用属性

在爬虫中，理解数据是什么对象是很是、特别、以及极其重要的一件事。

由于只有知道了数据是什么对象，咱们才知道对象有什么属性和方法可供咱们操做

res是一个对象，属于requests.models.Response类

import requests 
res = requests.get('https://res.pandateacher.com/2018-12-18-10-43-07.png') 
print(res.status_code)
#打印变量res的响应状态码，以检查请求是否成功
复制代码

301—永久移动。被请求的资源已被永久移动位置；
302—请求的资源如今临时从不一样的 URI 响应请求；
305—使用代理。被请求的资源必须经过指定的代理才能被访问；
307—临时跳转。被请求的资源在临时从不一样的URL响应请求；
400—错误请求；
402—须要付款。该状态码是为了未来可能的需求而预留的，用于一些数字货币或者是微支付；
403—禁止访问。服务器已经理解请求，可是拒绝执行它；
404—找不到对象。请求失败，资源不存在；
406—不可接受的。请求的资源的内容特性没法知足请求头中的条件，于是没法生成响应实体；
408—请求超时；
409—冲突。因为和被请求的资源的当前状态之间存在冲突，请求没法完成；
410—遗失的。被请求的资源在服务器上已经再也不可用，并且没有任何已知的转发地址；
413—响应实体太大。服务器拒绝处理当前请求，请求超过服务器所能处理和容许的最大值。
417—指望失败。在请求头 Expect 中指定的预期内容没法被服务器知足；
418—我是一个茶壶。超文本咖啡罐控制协议，可是并无被实际的HTTP服务器实现；
420—方法失效。
422—不可处理的实体。请求格式正确，可是因为含有语义错误，没法响应；
500—服务器内部错误。服务器遇到了一个不曾预料的情况，致使了它没法完成对请求的处理；

接着的属性是response.content，它能把Response对象的内容以二进制数据的形式返回，

适用于图片、音频、视频的下载

import requests
res = requests.get('https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1559093899057&di=f87221caaa1719bf8a99623f18ee9866&imgtype=0&src=http%3A%2F%2Fk.zol-img.com.cn%2Fsjbbs%2F7692%2Fa7691515_s.jpg')
#发出请求，并把返回的结果放在变量res中
pic=res.content
#把Reponse对象的内容以二进制数据的形式返回
photo = open('ppt.jpg','wb')
#新建了一个文件ppt.jpg，这里的文件没加路径，它会被保存在程序运行的当前目录下。
#图片内容须要以二进制wb读写。你在学习open()函数时接触过它。
photo.write(pic) 
#获取pic的二进制内容
photo.close()
#关闭文件
复制代码

response.text，这个属性能够把Response对象的内容以字符串的形式返回，

适用于文字、网页源代码的下载。

import requests
#引用requests库
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md')
#下载《三国演义》第一回，咱们获得一个对象，它被命名为res
novel=res.text
#把Response对象的内容以字符串的形式返回
print(novel[:800])
#如今，能够打印小说了，但考虑到整章太长，只输出800字看看就好。在关于列表的知识那里，你学过[:800]的用法。
复制代码

response.encoding，它能帮咱们定义Response对象的编码。

import requests
#引用requests库
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md')
#下载《三国演义》第一回，咱们获得一个对象，它被命名为res
res.encoding='gbk'
#定义Response对象的编码为gbk
novel=res.text
#把Response对象的内容以字符串的形式返回
print(novel[:800])
#打印小说的前800个字
复制代码

咱们打印出来的response.text的内容就是正常的、没有乱码的，那就用不到res.encoding；

若是乱码，去查看目标数据的编码，再用res.encoding把编码定义成和目标数据一致的类型便可。

爬虫伦理

一般状况下，服务器不太会在乎小爬虫，

可是，服务器会拒绝频率很高的大型爬虫和恶意爬虫，由于这会给服务器带来极大的压力或伤害

服务器在一般状况下，对搜索引擎是欢迎的态度（谷歌和百度的核心技术之一就是爬虫）。

固然，这是有条件的，而这些条件会写在Robots协议。

Robots协议是互联网爬虫的一项公认的道德规范，

全称是“网络爬虫排除标准”（Robots exclusion protocol），

这个协议用来告诉爬虫，哪些页面是能够抓取的，哪些不能够。

如何查看网站的robots协议呢，很简单，在网站的域名后加上/robots.txt就能够了。

淘宝的robots协议（ www.taobao.com/robots.txt）。

在截取的部分，能够看到淘宝对百度和谷歌这两个爬虫的访问规定，以及对其它爬虫的规定。

User-agent:  Baiduspider #百度爬虫
Allow:  /article #容许访问 /article.htm
Allow:  /oshtml #容许访问 /oshtml.htm
Allow:  /ershou #容许访问 /ershou.htm
Allow: /$ #容许访问根目录，即淘宝主页
Disallow:  /product/ #禁止访问/product/
Disallow:  / #禁止访问除 Allow 规定页面以外的其余全部页面

User-Agent:  Googlebot #谷歌爬虫
Allow:  /article
Allow:  /oshtml
Allow:  /product #容许访问/product/
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow: /$
Disallow:  / #禁止访问除 Allow 规定页面以外的其余全部页面

…… # 文件太长，省略了对其它爬虫的规定，想看全文的话，点击上面的连接

User-Agent:  * #其余爬虫
Disallow:  / #禁止访问全部页面
复制代码

Allow表明能够被访问，Disallow表明禁止被访问。

并且有趣的是，淘宝限制了百度对产品页面的爬虫，却容许谷歌访问。

网站的服务器被爬虫爬得多了，也会受到较大的压力，所以，各大网站也会作一些反爬虫的措施。

不过呢，有反爬虫，也就有相应的反反爬虫

限制好爬虫的速度，对提供数据的服务器心存感谢，避免给它形成太大压力，维持良好的互联网秩序

总结

小做业1

获取文章《HTTP状态响应码》所有内容，而且打印出全文内容。

localprod.pandateacher.com/python-manu…

小做业2

从网上下载图片 user-gold-cdn.xitu.io/2019/6/9/16…

小做业3

从网上下载音乐 static.pandateacher.com/Over The Ra…

HTTP响应状态码

1xx：临时响应

表示临时响应并须要请求者继续执行操做的状态代码。

100 继续请求者应当继续提出请求。服务器返回此代码表示已收到请求的第一部分，正在等待其他部分。 101 切换协议请求者已要求服务器切换协议，服务器已确认并准备切换。

2xx ：成功

表示成功处理了请求的状态代码。

200 成功服务器已成功处理了请求。一般，这表示服务器提供了请求的网页。 201 已建立请求成功而且服务器建立了新的资源。 202 已接受服务器已接受请求，但还没有处理。 203 非受权信息服务器已成功处理了请求，但返回的信息可能来自另外一来源。 204 无内容服务器成功处理了请求，但没有返回任何内容。 205 重置内容服务器成功处理了请求，但没有返回任何内容。 206 部份内容服务器成功处理了部分 GET 请求。

3xx ：重定向

表示要完成请求，须要进一步操做。一般，如下状态代码用来重定向。

300 多种选择针对请求，服务器可执行多种操做。服务器可根据请求者 (user agent) 选择一项操做，或提供操做列表供请求者选择。 301 永久移动请求的网页已永久移动到新位置。服务器返回此响应（对 GET 或 HEAD 请求的响应）时，会自动将请求者转到新位置。 302 临时移动服务器目前从不一样位置的网页响应请求，但请求者应继续使用原有位置来进行之后的请求。 303 查看其余位置请求者应当对不一样的位置使用单独的 GET 请求来检索响应时，服务器返回此代码。 304 未修改自从上次请求后，请求的网页未修改过。服务器返回此响应时，不会返回网页内容。 305 使用代理请求者只能使用代理访问请求的网页。若是服务器返回此响应，还表示请求者应使用代理。 307 临时重定向服务器目前从不一样位置的网页响应请求，但请求者应继续使用原有位置来进行之后的请求。

4xx：请求错误

如下状态代码表示请求可能出错，妨碍了服务器的处理。

400 错误请求服务器不理解请求的语法。 401 未受权请求要求身份验证。对于须要登陆的网页，服务器可能返回此响应。 403 禁止服务器拒绝请求。 404 未找到服务器找不到请求的网页。 405 方法禁用禁用请求中指定的方法。 406 不接受没法使用请求的内容特性响应请求的网页。 407 须要代理受权此状态代码与 401（未受权）相似，但指定请求者应当受权使用代理。 408 请求超时服务器等候请求时发生超时。 409 冲突服务器在完成请求时发生冲突。服务器必须在响应中包含有关冲突的信息。 410 已删除若是请求的资源已永久删除，服务器就会返回此响应。 411 须要有效长度服务器不接受不含有效内容长度标头字段的请求。 412 未知足前提条件服务器未知足请求者在请求中设置的其中一个前提条件。 413 请求实体过大服务器没法处理请求，由于请求实体过大，超出服务器的处理能力。 414 请求的 URI 过长请求的 URI（一般为网址）过长，服务器没法处理。 415 不支持的媒体类型请求的格式不受请求页面的支持。 416 请求范围不符合要求若是页面没法提供请求的范围，则服务器会返回此状态代码。 417 未知足指望值服务器未知足"指望"请求标头字段的要求。

5xx：服务器错误

如下状态代码表示服务器在尝试处理请求时发生内部错误。

这些错误多是服务器自己的错误，而不是请求出错。

500 服务器内部错误 服务器遇到错误，没法完成请求。 501 还没有实施服务器不具有完成请求的功能。例如，服务器没法识别请求方法时可能会返回此代码。 502 错误网关服务器做为网关或代理，从上游服务器收到无效响应。 503 服务不可用服务器目前没法使用（因为超载或停机维护）。一般，这只是暂时状态。 504 网关超时 服务器做为网关或代理，可是没有及时从上游服务器收到请求。 505 HTTP 版本不受支持服务器不支持请求中所用的 HTTP 协议版本。html

快速跳转:

猫哥教你写爬虫 029--爬虫初探-requests

什么是爬虫?

从本质上来讲，就是利用程序在网上拿到对咱们有价值的数据

爬虫能作不少事，能作商业分析，也能作生活助手，

好比：分析北京近两年二手房成交均价是多少？

深圳的Python工程师平均薪资是多少？

北京哪家餐厅粤菜最好吃？等等。

这是我的利用爬虫所作到的事情，而公司，一样能够利用爬虫来实现巨大的商业价值。

好比你所熟悉的搜索引擎——百度和谷歌，它们的核心技术之一也是爬虫，并且是超级爬虫。

百度这家公司会源源不断地把千千万万个网站爬取下来，存储在本身的服务器上。

你在百度搜索的本质就是在它的服务器上搜索信息，

你搜索到的结果是一些超连接，在超连接跳转以后你就能够访问其它网站了

浏览器工做原理

当服务器把数据响应给浏览器以后，浏览器并不会直接把数据丢给你。

由于这些数据是用计算机的语言写的，浏览器还要把这些数据翻译成你能看得懂的样子，

这是浏览器作的另外一项工做【解析数据】。

爬虫的工做原理

获取数据

咱们将会利用一个强大的库——requests来获取数据。

安装requests pip install requests

requests库能够帮咱们下载网页源代码、文本、图片，甚至是音频。

其实，“下载”本质上是向服务器发送请求并获得响应。

requests.get()

尝试下载三国演义...

localprod.pandateacher.com/python-manu…

Response对象的经常使用属性

在爬虫中，理解数据是什么对象是很是、特别、以及极其重要的一件事。

由于只有知道了数据是什么对象，咱们才知道对象有什么属性和方法可供咱们操做

res是一个对象，属于requests.models.Response类

接着的属性是response.content，它能把Response对象的内容以二进制数据的形式返回，

适用于图片、音频、视频的下载

response.text，这个属性能够把Response对象的内容以字符串的形式返回，

适用于文字、网页源代码的下载。

response.encoding，它能帮咱们定义Response对象的编码。

咱们打印出来的response.text的内容就是正常的、没有乱码的，那就用不到res.encoding；

若是乱码，去查看目标数据的编码，再用res.encoding把编码定义成和目标数据一致的类型便可。

爬虫伦理

一般状况下，服务器不太会在乎小爬虫，

可是，服务器会拒绝频率很高的大型爬虫和恶意爬虫，由于这会给服务器带来极大的压力或伤害

服务器在一般状况下，对搜索引擎是欢迎的态度（谷歌和百度的核心技术之一就是爬虫）。

固然，这是有条件的，而这些条件会写在Robots协议。

Robots协议是互联网爬虫的一项公认的道德规范，

全称是“网络爬虫排除标准”（Robots exclusion protocol），

这个协议用来告诉爬虫，哪些页面是能够抓取的，哪些不能够。

如何查看网站的robots协议呢，很简单，在网站的域名后加上/robots.txt就能够了。

淘宝的robots协议 （ www.taobao.com/robots.txt）。

在截取的部分，能够看到淘宝对百度和谷歌这两个爬虫的访问规定，以及对其它爬虫的规定。

Allow表明能够被访问，Disallow表明禁止被访问。

并且有趣的是，淘宝限制了百度对产品页面的爬虫，却容许谷歌访问。

网站的服务器被爬虫爬得多了，也会受到较大的压力，所以，各大网站也会作一些反爬虫的措施。

不过呢，有反爬虫，也就有相应的反反爬虫

限制好爬虫的速度，对提供数据的服务器心存感谢，避免给它形成太大压力，维持良好的互联网秩序

总结

小做业1

获取文章《HTTP状态响应码》所有内容，而且打印出全文内容。

localprod.pandateacher.com/python-manu…

小做业2

从网上下载图片 user-gold-cdn.xitu.io/2019/6/9/16…

小做业3

从网上下载音乐 static.pandateacher.com/Over The Ra…

HTTP响应状态码

1xx：临时响应

表示临时响应并须要请求者继续执行操做的状态代码。

100 继续请求者应当继续提出请求。服务器返回此代码表示已收到请求的第一部分，正在等待其他部分。 101 切换协议请求者已要求服务器切换协议，服务器已确认并准备切换。

2xx ： 成功

表示成功处理了请求的状态代码。

3xx ： 重定向

表示要完成请求，须要进一步操做。一般，如下状态代码用来重定向。

4xx：请求错误

如下状态代码表示请求可能出错，妨碍了服务器的处理。

5xx：服务器错误

如下状态代码表示服务器在尝试处理请求时发生内部错误。

这些错误多是服务器自己的错误，而不是请求出错。

快速跳转:

咱们将会利用一个强大的库——`requests`来获取数据。

安装requests `pip install requests`

`requests`库能够帮咱们下载网页源代码、文本、图片，甚至是音频。

res是一个对象，属于`requests.models.Response`类

接着的属性是`response.content`，它能把Response对象的内容以二进制数据的形式返回，

`response.text`，这个属性能够把`Response`对象的内容以字符串的形式返回，

`response.encoding`，它能帮咱们定义`Response`对象的编码。

咱们打印出来的`response.text`的内容就是正常的、没有乱码的，那就用不到`res.encoding`；

若是乱码，去查看目标数据的编码，再用`res.encoding`把编码定义成和目标数据一致的类型便可。

固然，这是有条件的，而这些条件会写在`Robots`协议。

`Robots`协议是互联网爬虫的一项公认的道德规范，

如何查看网站的robots协议呢，很简单，在网站的域名后加上`/robots.txt`就能够了。

淘宝的robots协议（ www.taobao.com/robots.txt）。

`Allow`表明能够被访问，`Disallow`表明禁止被访问。

2xx ：成功

3xx ：重定向