抓取图书信息的网站地址为www.packtpub.com/allpython
展现内容以下:正则表达式
咱们的目的很简单——获取当前页每本书的名字和价格。网站
审查元素能够看出页面结构以下:编码
能够经过查找"book-block-title"定位标题,这里用到find_all()方法,这样就能够找到全部书的标题,它们构成了一个列表。而后循环查找书的价格。注意到书的价格独立于任何标签以外,因此运用到了上篇文章讲到的正则表达式匹配进行查找。url
注:这里遇到了一个问题,我用NOTEPAD运行我写的代码时,报UnicodeEncodeError错误,用了不少方法未果。而后用Python自带的IDLE运行程序,一次经过,知道是编码问题,但不知道怎么解决,暂且放下。并且发现爬取信息的时候很慢,觉得是BeautifulSoup问题,结果加入时间模块检测,发现是网页打开占去了大部分时间,爬取信息仍是蛮快的。code
下面是示例代码:regexp
import urllib.request import datetime import re from bs4 import BeautifulSoup starttime = datetime.datetime.now() url = "https://www.packtpub.com/all" page = urllib.request.urlopen(url) soup_packtpage = BeautifulSoup(page) page.close() endtime = datetime.datetime.now() print (endtime - starttime) starttime = datetime.datetime.now() all_book_title = soup_packtpage.find_all("div", class_="book-block-title") price_regexp = re.compile(u"\s+£\s\d+\.\d+") for book_title in all_book_title: print("Book's name is " + book_title.string.strip()) book_price = book_title.find_next(text=price_regexp) print("Book's price is "+ book_price.strip()) print("\n") endtime = datetime.datetime.now() print (endtime - starttime)
关于图书的信息还有不少,好比图书大概内容,图书的ISBN号,图书页数等,这些须要跳转到另外一个页面去获取。目前初学了一点BeautifulSoup,暂时只能作这么多。之后学多了,能爬取的信息就更多了。ip