python简单应用!用爬虫来采集天猫全部优惠券信息,写入本地文件

今天给你们分享一个小网站的数据采集,并写到excel里面!python

python简单应用!用爬虫来采集天猫全部优惠券信息,写入本地文件 

分析网站

目标网站是“小咪购”,这里有天猫全部的含有购物券的商品信息,咱们今天就来抓它吧!ajax

python简单应用!用爬虫来采集天猫全部优惠券信息,写入本地文件 

随便找一段文字,而后点击右键查看网页源代码,看看是否存在该文字,若是存在,那么这个网页就是静态网站了!很幸运,这个网站竟然是静态的。json

python简单应用!用爬虫来采集天猫全部优惠券信息,写入本地文件 

那就简单了,不须要去分析ajax加载数据或者找json包了,直接获取网页源代码==>>匹配相关内容==>>保存数据便可!多线程

python简单应用!用爬虫来采集天猫全部优惠券信息,写入本地文件 

工具和库

Windows+python3.6app

import randomdom

import time函数

import requests工具

from lxml import etree网站

import xlwt线程

用这几个库就能够搞定了!注意xlwt和xlrd这2个库都是操做excel的,一个是保存数据,一个是读取数据,不要搞混了。

python简单应用!用爬虫来采集天猫全部优惠券信息,写入本地文件 

开始写代码

首先写一个函数,将全部的爬虫工做写到函数里,以下图

python简单应用!用爬虫来采集天猫全部优惠券信息,写入本地文件
 这个网站须要写上headers,不写是抓不到数据的!新建一个列表,将爬到的相关数据写入列表,它的形式大概是这样的:【【产品信息A1,2,3……】,【产品信息B1,2,3……】……】,这么写列表是由于咱们最后要将他们写如excel表格,那么列表中的每个元素(仍是列表形式)都是一行数据,方便写入!

注意第33行,列表构成的时候,用+链接会将全部列表中的元素放入一个列表,好比:【1,2,3】+【4,5】=【1,2,3,4,5】,而用append()函数则会将后面的内容做为一个元素加入列表中,好比:[1,2,3].append([4,5])=[1,2,3,[4,5]]

下来就是写入excel了,首先是新建excel表格,并写入第一行数据

python简单应用!用爬虫来采集天猫全部优惠券信息,写入本地文件 

后面的数据,依次按格式写入并最后用wb.save(路径)的方式保存便可!完整代码及效果以下

python简单应用!用爬虫来采集天猫全部优惠券信息,写入本地文件 
python简单应用!用爬虫来采集天猫全部优惠券信息,写入本地文件 

因为网站更新的很快(官方说是10分钟。。。),因此也没有抓取那么多,全部的页面有大约600多页,一页100条信息,也就是说一共有6万多条商品信息,若是不用多线程的话会很慢!

python简单应用!用爬虫来采集天猫全部优惠券信息,写入本地文件 

代码在上传的过程当中会有压缩,若是实在看不清楚的话,你们能够私信我获取源码!

相关文章
相关标签/搜索