Python 从零开始爬虫(零)——爬虫思路&requests模块使用

时间 2019-11-08

标签 python 开始爬虫思路 requests 模块使用栏目 Python 繁體版

原文原文链接

前言

python 3.6 ！！
本爬虫系列是面对有Python语法基础的读者写的，若是你没学过python，emmmm.....也不要紧，你或许能从每篇文章中学到一些爬虫的思路；若是你的python基础语法已经应用自如，那是极好的。
本系列的教程和实例均总结于笔者的自学经历，若有不足欢迎指正和讨论，问题我会尽可能回复，也但愿你们能有所收获。
爬虫真好玩.jpg

废话很少说，赶忙开始这条不归路吧html

爬虫思路

无思路不成器，若是你怎么想都想不出爬虫的原理，不妨来看下咱们平时是如何上网的，大概就是这样：
①点开目标网址→→[可选：登陆/回复]→→②浏览全页筛选出价值内容→→③若是很喜欢，还会拷贝下载回来python

因此爬虫归结起来也就这几步：chrome

构造目标网址（重点）
发起请求（request），至关于点开网页。
获取网页内容（坑）。
定制筛选器，对内容进行筛选（重点）。
把爬取结果保存到容器里。

本节学习的requests模块将会实现二，三步，其余步骤和注意事项将会在后续文章中展现出来。json

F12审查元素

这是浏览器自带的工具，提供抓包和检查网页源码的功能，供使用者分析网页。也是学爬虫必需要学会的工具，一个优秀的虫爸/虫妈应该花更多的时间在网页分析和debug上。浏览器

使用很是简单，打开任一浏览器（笔者的是google chrome），按F12或鼠标右键检查。服务器

选择Element是查看网页源码，是树结构的html文档，里面有要爬取的内容。
选择Network是查看本地和服务器端交互的包，能够从中获取目标网址和headers。

requests模块

为何选择requests，由于它能彻底胜任python自带的urllib模块，简化了没必要要的功能的同时让使用更加简单。cookie

安装

很是简单，打开cmd，直接pip安装工具

pip install requests

或pycharm中搜索requests安装post

简单使用

首先呈上官方文档，有中文版，欢迎来啃。
下面主要介绍两种方法：get和post学习

get，就是本地向服务器索取的意思，服务器检查请求头（request headers）后，若是以为没问题，就会返回信息给本地。

r = requests.get(url,**args)#返回一个Response对象，咱们能够从这个对象中获取全部咱们想要的信息

post，就是本地要向服务器提交一些数据的意思，服务器仍是会检查请求头，若是提交的数据和请求头都没问题，就会返回信息给本地。

r = requests.post(url,**args)#也是返回Response对象

参数详解

get和post方法中有许多参数可使用，部分参数后面会详解。

url：就是目标网址，接收完整（带http）的地址字符串。
headers：请求头，存储本地信息如浏览器版本，是一个字典。
data：要提交的数据，字典。
cookies：cookies，字典。
timeout：超时设置，若是服务器在指定秒数内没有应答，抛出异常，用于避免无响应链接，整形或浮点数。
params：为网址添加条件数据，字典。

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.get("http://httpbin.org/get", params=payload)
#至关于目标网址变成了http://httpbin.org/get?key2=value2&key1=value1

proxies：ip代理时使用，字典。

Response对象使用

从这个对象中获取全部咱们想要的信息很是简单，毕竟爬虫要的数据主要就三种，html源码，图片二进制数据，json数据，Response对象一次性知足你三个愿望。

r.encoding = 'ISO-8859-1'    #指定r.text返回的数据类型，写在r.text以前。
r.text    #默认以unicode形式返回网页内容，也就是网页源码的字符串。

r.content    #以二进制形式返回网页内容，下载图片时专用。
r.json()    #把网页中的json数据转成字典并将其返回。

#还有一些不多用到的方法。
r.headers    #返回服务器端的headers，字典。
r.status_code    #返回链接状态，200正常。

小实例

requests 学完后就能够处处试试了，若是红了（抛出异常），那大概是服务器拒绝你了，毕竟假装什么的还没提到，服务器知道你是虫子就把你踢掉了。

import requests
r = requets.get('http://cn.python-requests.org/zh_CN/latest/')
with open('test.txt','w',encoding = 'utf-8') as file:#编码要对应
    file.write(r.text)
    #而后打开看看吧，是否是和F12看到的源码同样，只不过是把分支全展开了而已。

小提示：并非全部网站的F12源码和爬取源码是一致的，网站有动态的，也有静态的；有防爬虫的，也有敞开大门任意爬的。关于对策以后会讲到。

第一次写文章，挺累的，我须要作(wan)几(ji)道(pan)数(you)学(xi)题放松一下本身才行。