python简单应用！用爬虫来采集天猫全部优惠券信息，写入本地文件

时间 2019-11-11

标签 python 简单应用爬虫采集天猫全部优惠券信息写入本地文件栏目 Python 繁體版

原文原文链接

今天给你们分享一个小网站的数据采集，并写到excel里面！php

分析网站

目标网站是“小咪购”，这里有天猫全部的含有购物券的商品信息，咱们今天就来抓它吧！html

随便找一段文字，而后点击右键查看网页源代码，看看是否存在该文字，若是存在，那么这个网页就是静态网站了！很幸运，这个网站竟然是静态的。python

那就简单了，不须要去分析ajax加载数据或者找json包了，直接获取网页源代码==>>匹配相关内容==>>保存数据便可！ajax

工具和库

Windows+python3.6json

import random多线程

import timeapp

import requestsdom

from lxml import etree函数

import xlwt工具

用这几个库就能够搞定了！注意xlwt和xlrd这2个库都是操做excel的，一个是保存数据，一个是读取数据，不要搞混了。

开始写代码

首先写一个函数，将全部的爬虫工做写到函数里，以下图

这个网站须要写上headers，不写是抓不到数据的！新建一个列表，将爬到的相关数据写入列表，它的形式大概是这样的：【【产品信息A1，2，3……】，【产品信息B1，2，3……】……】，这么写列表是由于咱们最后要将他们写如excel表格，那么列表中的每个元素（仍是列表形式）都是一行数据，方便写入！

注意第33行，列表构成的时候，用+链接会将全部列表中的元素放入一个列表，好比：【1，2，3】+【4，5】=【1，2，3，4，5】，而用append()函数则会将后面的内容做为一个元素加入列表中，好比：[1,2,3].append([4,5])=[1,2,3,[4,5]]

下来就是写入excel了，首先是新建excel表格，并写入第一行数据

wb = xlwt.Workbook(encoding='utf-8')
	ws = wb.add_sheet('优惠券')
	path = 'E://python//优惠券.xls'
	head = ['序号','商品类型','商品名称','优惠券','券后价','在售价','销量','推荐理由','商品连接']
	for i in range(9):
		ws.write(0,i,head[i])

后面的数据，依次按格式写入并最后用wb.save(路径)的方式保存便可！完整代码及效果以下

import random
import time
import requests
from lxml import etree
import xlwt

def main(line = 1):
	headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0'}
	url = 'http://www.hlxns.com'
	html = requests.get(url, headers=headers)
	html.encoding = 'utf-8'
	page = etree.HTML(html.text).xpath('//a[@class="item"]/text()')[-1]
	for i in range(int(line/100)+1, int(page) + 1):
		k = 1
		lis = []
		print('【开始下载】第%d页数据'%i)
		htm = requests.get(url + '/index.php?r=l&page={}'.format(str(i)), headers=headers)
		htm.encoding = 'utf-8'
		data = etree.HTML(htm.text)
		url_sps = data.xpath('//div[@class="title"]/a/@href')
		for url_sp in url_sps:#一页100条
			time.sleep(random.random()*2)
			print('      【正在下载】第%03d页第%03d条商品数据'%(i,k),end='')
			k += 1
			html_sp = requests.get(url + url_sp, headers=headers)
			html_sp.encoding = 'utf-8'
			info = etree.HTML(html_sp.text)
			title = info.xpath('//span[@class="title"]/text()')  # 产品
			summary = [x.replace('推荐理由：','') for x in  info.xpath('//span[@class="theme-color-3"]/text()')]  # 推荐理由
			category = info.xpath('//div[@class="nav-wrap"]/div/a[3]/text()')  # 类别
			now_price = info.xpath('//span[@class="now-price"]/b[2]/i/text()')  # 券后价
			old_price = info.xpath('//span[@class="org-price"]/i/text()')  # 在售价
			nums = info.xpath('//div[@class="text-wrap"]/span[2]/i/text()')  # 销量
			coupon = info.xpath('//div[@class="buy-coupon theme-color-8"]/span/b/text()')  # 优惠券
			sp_url = info.xpath('//a[@class="theme-bg-color-8"]/@href')  # 连接
			lis.append(category+title+coupon+now_price+old_price+nums+summary+sp_url)
			print('................................【下载完成】')
		print('######第%d页数据   【下载完成】'%i)
		for ii in range(len(lis)):
			lis[ii].insert(0, line)  # 添加序号
			for j in range(9):  # 列
				ws.write(line, j, lis[ii][j])
			line += 1
		print('>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>【写入本页数据完成】<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<')
		wb.save(path)
if __name__ == '__main__':
	wb = xlwt.Workbook(encoding='utf-8')
	ws = wb.add_sheet('优惠券')
	path = 'E://python//优惠券.xls'
	head = ['序号','商品类型','商品名称','优惠券','券后价','在售价','销量','推荐理由','商品连接']
	for i in range(9):
		ws.write(0,i,head[i])
	main()

因为网站更新的很快（官方说是10分钟。。。），因此也没有抓取那么多，全部的页面有大约600多页，一页100条信息，也就是说一共有6万多条商品信息，若是不用多线程的话会很慢！