基于python的request库，模拟登陆csdn博客

时间 2019-11-17

标签基于 python request 模拟登陆 csdn 博客栏目 Python 繁體版

原文原文链接

之前爬虫用urllib2来实现，也用过scrapy的爬虫框架，此次试试requests，刚开始用，用起来确实比urllib2好，封装的更好一些，使用起来简单方便不少。chrome

安装requests库浏览器

最简便的方法就是使用pip来安装：pip install requests；若是须要安装特定版本，则在后面加上版本号便可：pip install requests == 1.9.7，这样就搞定了。cookie

快速上手的小例子框架

下面说一个最简单的例子：scrapy

第一行，引入requests库，这是必然的。工具

第二行，经过get方法获取百度首页的内容。post

第三行，把返回的response内容，输出出来。优化

果真很简单，这样就能够发送一个get请求，同理，也可使用requests.post,requests.put,requests.options,requests.head，发送请求。网站

模拟登陆csdnurl

咱们须要其余的辅助工具

浏览器：Firefox

浏览器插件：tamper data，firebug

咱们须要tamper data来拦截请求，由于chrome没有这个功能的插件，因此这个只能使用firefox来作（除了拦截请求chrome没有，其余的工做均可以使用chrome）。

分析登陆过程

1.打开登陆页面

咱们首先打开csdn的登陆页面：https://passport.csdn.net/account/login?ref=toolbar，这个连接，前面的部分是登陆的网址，问号后面的参数，referer，就是你从哪里跳过来的，也许是一个页面跳转到登陆的，toolbar就是我本身点击顶部导航栏，而后跳转到登陆页面的。

2.清除相关的cookie

为了清除没必要要的干扰，咱们先清除掉全部的相关的cookie，这样方便咱们分析哪些参数是必须的。

3.登陆过程分析

清除了cookie后，咱们刷新一下页面，https://passport.csdn.net/account/login?ref=toolbar，从新获取对应的cookie。

而后咱们就开始用tamper data来拦截请求。

咱们点击start tamper ，在网页中填写用户名和密码，点击“登陆”，会发出一个请求，而后tamper data 会拦截下这个请求，询问咱们是否拦截，点击tamper，咱们能够在这个请求提交以前，查看请求的内容，还能够作删除。

发送一个登陆表单过去，就登陆成功了。

4.开始模拟登陆

知道登陆过程了，咱们就开始写登陆的代码。

至此，登陆就成功了。

5.优化

当你登陆成功后，你会问，我怎么知道登陆成功了呢？当你试图去抓取http://write.blog.csdn.net/postlist的内容的时候，你会发现一个403的错误，这是为啥呢？

很简单，user agent没有修改，咱们用的是默认的user agent，这不是一个正常的用户，因此被网站拒绝了。咱们加上它就行了：

后话

咱们都知道cookie是有有效期的，在作调试时，每修改一次，就要模拟登陆一次，这样很差，咱们要保存cookie，这样下次就不须要从新发送登陆请求了。

完整代码以下：