爬取当当网的图书信息之工做流程介绍

前往http://book.dangdang.com/咱们能够看到当当网上面的图书种类很是丰富3d

 

咱们是计算机类图书为例子,那么计算机类图书页面的URL  http://book.dangdang.com/01.54.htm?ref=book-01-A是咱们的种子URLhtm

当咱们进入这个页面能够看到不少计算机类图书,什么都别说了,都抓取下来,而后在进入子品类页面继续抓取信息,咱们以程序涉及品类为例blog

 

进来以后咱们能够看到大量的图书,并且在页面上方咱们能够看到100页,可不止这么一点还有99页没有显示出来,咱们把这些图书的URL所有抓取下来。咱们以《C++ primer plus》为例下载

这个页面有大量的图书信息,包含图书的价格,图书的做者,出版社等信息,这都是咱们须要的信息,均可以抽取出来。程序

总结im

  给程序一个图书大类的URL,程序下载这个页面以后发现大量的图书小种类的URL,爬虫去下载小种类图书的信息后,发现页面有不少图书的URL,进入图书的URL能够抓取图书的相关信息d3

相关文章
相关标签/搜索