自学Python七爬虫实战一

时间 2019-11-16

原文原文链接

　　此文承接上文，让咱们写一个简简单单的爬虫，循序而渐进不是吗？这次进行的练习是爬取前5页什么值得买网站中的白菜价包邮信息。包括名称，价格，推荐人，时间。python

　　咱们所须要作的工做：1.肯定URL并得到页面代码。 2.用正则匹配每件商品咱们所须要的内容 3.打印信息我仍是直接上代码吧，具体步骤看注释就好啦！（代码会引用HttpClient.py，能够参考以前的SmartQQ协议一文）！函数

 1 # -*- coding: utf-8 -*-
 2 import re,time,os
 3 from HttpClient import HttpClient
 4 class Smzdm(HttpClient):
 5     def __init__(self):
 6         self.__pageIndex = 1
 7         self.__Url = "http://faxian.smzdm.com/9kuai9/p" 
 8 
 9     #正则获得每页商品信息
10     def __getAllGoods(self,pageIndex):
11         realurl = self.__Url + str(pageIndex)
12         pageCode = self.Get(realurl)
13         pattern = re.compile('<h2 .*?itemName"><a.*?<span .*?black">(.*?)</span><span .*?red">(.*?)</span></a></h2>.*?'+
14                              '<div .*?itemUserInfo">.*?<a .*?<span .*?rankTitle">(.*?)</span>.*?<span .*?time">(.*?)</span>',re.S)
15         items = re.findall(pattern,pageCode.decode("utf-8"))
16         for item in items:
17             print item[0],item[1],item[2],item[3]
18 
19     def start(self):
20         print("正在读取前五页白菜价包邮，请稍等...")
21         for i in range(1,6):
22             print i
23             self.__getAllGoods(i)
24 
25 pc = Smzdm()
26 pc.start()

　　执行结果以下：网站

　　是否是感受，代码怎么这么少，这就搞定了？YES!编码

　　稍微解释一下思路，通常相似于这种网站都是页面+页号构成url。因此定义一个基础url，根据传入的页号构造一个真实的url。经过urllib2模块访问页面获得页面代码，经过构造正则pattern，调用re.findall()函数找到当前页面全部的信息，而后打印出来。一个功能智障，代码简单的爬虫就造好了，easy的会了default的固然就水到渠成了，接下来你能够去试试糗事百科的段子，百度贴吧的帖子，网易新闻的留言等等！另外，个人环境为2.7.10，python3如下须要注意编码问题，处处都是坑！url

1. 爬虫实战（一）
2. Python爬虫实战
3. Python爬虫（七）
4. 自学Python爬虫
5. 爬虫实战篇——12306抢票爬虫
6. 爬虫入门实战（一）
7. 自学Python十一 Python爬虫总结
8. python实战——网络爬虫
9. Python网络爬虫实战
10. Python爬虫入门实战
更多相关文章...
• SQLite - Python - SQLite教程
• Docker 安装 Python - Docker教程
• Docker容器实战(七) - 容器眼光下的文件系统
• Java Agent入门实战（一）-Instrumentation介绍与使用

自学Python七 爬虫实战一

自学Python七爬虫实战一