Python爬虫，抓取淘宝商品评论内容

时间 2019-11-06

原文原文链接

做为一个资深吃货，网购各类零食是很频繁的，可是可否在浩瀚的商品库中找到合适的东西，就只能参考评论了！今天给你们分享用python作个抓取淘宝商品评论的小爬虫！html

思路python

咱们就拿“德州扒鸡”作为参考目标吧~！若是想抓其余商品的话，自行更换目标便可！打开淘宝，搜索目标，随便点击一个商品进入,在点击累计评论，打开F12开发者工具——网络，先清除现有的全部内容，而后点击下一页评论，在弹出的内容中查找文件中开头为list_detail_rate.htm的html类型，以下图所示ajax

这个html中就含有咱们须要的内容，左键点击而后选择响应，就能够看到具体响应内容了！json

这里面是一大串包含咱们须要的内容在内的源代码，若是你们有兴趣能够提取内容作成json数据，而咱们这里只须要评论数据，因此，用正则匹配评论部分就能够了！服务器

开始写代码

具体过程就赘述了，新建一个函数，接受店铺ID（惟一）做为参数，作一个无限循环来翻页，并以评论时间为判断是否重复，若是重复则跳出循环（return能够直接跳出循环），整个函数部分代码以下网络

# -*- coding=utf-8 -*-
#qq群:542110741

import requests
import re
import time

def get_comment(itemid):
	i = 1#开始页码
	d = []#构建一个列表用于判断是否继续循环
	lis = []#放置抓取到的内容
	while i:
		#构建循环用的url
		url = 'https://rate.tmall.com/list_detail_rate.htm?itemId={}&order=3&sellerId=1914459560&currentPage={}'.format(itemid,str(i))
		html = requests.get(url).text#获取相关内容的源代码
		pl = re.findall(r'"rateContent":"(.*?)","rateDate"',html)#评论抓取
		dat = re.findall(r'"rateDate":"(.*?)","reply"',html)#评论时间抓取
		if dat == d or pl ==[]:#判断是否重复或者是否存在评论
			print('==============================')
			return lis #跳出循环并返回值
		else:
			try:
				d = dat#没有重复则将评论时间赋值给d，用于下次循环判断
			except IndexError as e:
				continue#出现该错误则跳出循环，进行下一次
		print("第%d页评论"%i,pl)#打印评论内容
		lis.append(pl)
		i += 1
		time.sleep(2)#访问间隔

加入try是由于代码一直在抽风的跳出index错误,后续还能够改进！app

做为一个爬虫爱好者，必然要加深抓取的广度的，试着将整个页面的店铺ID抓取出来！此次简单，直接抓到json数据，而后用正则匹配，放回列表，由于时间有限，没有研究出url翻页的依据，就只抓取了一页！函数

def get_id(kw='德州扒鸡'):
	'''
	只抓了首页44家店铺的，没有抓后面页面，后续需改进
	'''
	url = 'https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&' \
		  '_ksTS=1529811793535_1018&callback=jsonp1019&q={}&imgfile=&js=1&' \
		  'stats_click=search_radio_all:1&initiative_id=staobaoz_20180624&' \
		  'ie=utf8&bcoffset=4&p4ppushleft=1,48'.format(kw)
	html = requests.get(url).text
	id_list = re.findall(r',"auctionNids":\[(.*?)\],"ifDoufuAuction"',html,re.S)[0]
	return id_list.replace('"','').split(',')

而后开始写主函数，保存到文档！运行结果以下工具

emmm，看评论是能够入手的！哈哈！学习

最后

想说几点，一个是本身写个小爬虫玩玩能够，作分析也行，可是务必切记不要外传扩散，很容易进坑！二是淘宝的反爬其实也不是很难，好比上面的爬虫，并无作反爬措施，你们能够拿这个来练练手，记得加入sleep就能够，不要给对方服务器形成压力为最好！

代码写的很差，各路高手请见谅!欢迎你们来一块儿交流、学习！