此文承接上文,让咱们写一个简简单单的爬虫,循序而渐进不是吗?这次进行的练习是爬取前5页什么值得买网站中的白菜价包邮信息。包括名称,价格,推荐人,时间。python
咱们所须要作的工做:1.肯定URL并得到页面代码。 2.用正则匹配每件商品咱们所须要的内容 3.打印信息 我仍是直接上代码吧,具体步骤看注释就好啦!(代码会引用HttpClient.py,能够参考以前的SmartQQ协议一文)!函数
1 # -*- coding: utf-8 -*- 2 import re,time,os 3 from HttpClient import HttpClient 4 class Smzdm(HttpClient): 5 def __init__(self): 6 self.__pageIndex = 1 7 self.__Url = "http://faxian.smzdm.com/9kuai9/p" 8 9 #正则获得每页商品信息 10 def __getAllGoods(self,pageIndex): 11 realurl = self.__Url + str(pageIndex) 12 pageCode = self.Get(realurl) 13 pattern = re.compile('<h2 .*?itemName"><a.*?<span .*?black">(.*?)</span><span .*?red">(.*?)</span></a></h2>.*?'+ 14 '<div .*?itemUserInfo">.*?<a .*?<span .*?rankTitle">(.*?)</span>.*?<span .*?time">(.*?)</span>',re.S) 15 items = re.findall(pattern,pageCode.decode("utf-8")) 16 for item in items: 17 print item[0],item[1],item[2],item[3] 18 19 def start(self): 20 print("正在读取前五页白菜价包邮,请稍等...") 21 for i in range(1,6): 22 print i 23 self.__getAllGoods(i) 24 25 pc = Smzdm() 26 pc.start()
执行结果以下:网站
是否是感受,代码怎么这么少,这就搞定了?YES!编码
稍微解释一下思路,通常相似于这种网站都是页面+页号构成url。因此定义一个基础url,根据传入的页号构造一个真实的url。经过urllib2模块访问页面获得页面代码,经过构造正则pattern,调用re.findall()函数找到当前页面全部的信息,而后打印出来。一个功能智障,代码简单的爬虫就造好了,easy的会了default的固然就水到渠成了,接下来你能够去试试糗事百科的段子,百度贴吧的帖子,网易新闻的留言等等!另外,个人环境为2.7.10,python3如下须要注意编码问题,处处都是坑!url