Python爬虫学习——使用Cookie登陆新浪微博

1.首先在浏览器中进入WAP版微博的网址,由于手机版微博的内容较为简洁,方便后续使用正则表达式或者beautifulSoup等工具对所须要内容进行过滤html

https://login.weibo.cn/login/

 

2.人工输入帐号、密码、验证字符,最后最重要的是勾选(记住登陆状态)python

 3.使用Wireshark工具或者火狐的HttpFox插件对GET请求进行分析,须要是取得GET请求中的Cookie信息正则表达式

未登陆新浪微博的状况下,是能够经过网址查看一个用户的首页的,可是不能进一步查看该用户的关注和粉丝等信息,若是点击关注和粉丝,就会重定向回到登陆页面api

好比使用下面函数对某个用户 http://weibo.cn/XXXXXX/fans 的粉丝信息进行访问,会重定向回登陆页面浏览器

#获取网页函数
def getHtml(url,user_agent="wswp",num_retries=2):       #下载网页,若是下载失败从新下载两次
	print '开始下载网页:',url
	#	headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:24.0) Gecko/20100101 Firefox/24.0'}
	headers = {"User-agent":user_agent}
	request = urllib2.Request(url,headers=headers)		#request请求包
	try:
		html = urllib2.urlopen(request).read()          #GET请求
	except urllib2.URLError as e:
		print "下载失败:",e.reason
		html = None
		if num_retries > 0:
			if hasattr(e,'code') and 500 <= e.code < 600:
				return getHtml(url,num_retries-1)
	return html

因此须要在请求的包中的headers中加入Cookie信息,函数

在勾选了记住登陆状态以后,点击关注或者粉丝按钮,发出GET请求,并使用wireshark对这个GET请求进行抓包工具

能够抓到这个GET请求url

右键Follow TCP Stream,图片中打码的部分就Cookie信息spa

4.加入Cookie信息,从新获取网页插件

有了Cookie信息,就能够对Header信息就行修改

#获取网页函数
def getHtml(url,user_agent="wswp",num_retries=2):       #下载网页,若是下载失败从新下载两次
	print '开始下载网页:',url
	#	headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:24.0) Gecko/20100101 Firefox/24.0'}
	headers = {"User-agent":user_agent,"Cookie":"_T_WM=XXXXXXXX; SUB=XXXXXXXX; gsid_CTandWM=XXXXXXXXX"}
	request = urllib2.Request(url,headers=headers)		#request请求包
	try:
		html = urllib2.urlopen(request).read()          #GET请求
	except urllib2.URLError as e:
		print "下载失败:",e.reason
		html = None
		if num_retries > 0:
			if hasattr(e,'code') and 500 <= e.code < 600:
				return getHtml(url,num_retries-1)
	return html

 

import urllib2  

if __name__ == '__main__':
	URL = 'http://weibo.cn/XXXXXX/fans'			#URL替代
	html = getHtml(URL)
	print html

 成功访问到某个用户的粉丝信息

试一试访问一下最近一年很火的papi酱的微博她的我的信息页面

import urllib2 

if __name__ == '__main__':
	URL = 'http://weibo.cn/2714280233/info'			#URL替代
	html = getHtml(URL)
	print html

相关文章
相关标签/搜索