图书信息库完整解决方案(二)方案设计

面临的第一个问题是图书数据源从哪来,调研了一圈大概是如下几种方式:api

一、当当或京东的官方图书api(查了一圈一无所得,收费或免费的都没找到)接口

二、豆瓣图书  https://developers.douban.com/wiki/?title=book_v2it

  豆瓣的主要问题一个是访问次数有限制,另外一个是信息不全,部分图书或者新书在豆瓣无记录。搜索

三、聚合 https://www.juhe.cn技术

  聚合的接口整理的比较好,但一个是要收费,另外一个是图书信息也不是最完整的。developer

综上所述,最后不得已考虑的方案是:数据

一、按照当当的分类爬取每一个子分类下的全部图书数据。当当图书分类以下:项目

  http://category.dangdang.com/?ref=www-0-C查询

  实际上这里每一个分类下最多能爬取到100页数据,应该是当当作了限制,但通常来讲也够用了。co

二、综合豆瓣数据

  当当爬取到的信息与豆瓣作比对,综合豆瓣有用的信息而后入库。

三、因为当当和豆瓣的限制,即便完成了全部的数据抓取,仍有部分数据是缺失的。 这里的弥补办法是:

  若是按照ISBN查询图书接口的时候失败, 则出发图书搜索接口,从当当的页面搜索这本图书,而后解析页面获得图书详细信息。

 

按照上述的技术方案,基本能够知足项目需求,而且确实作到了图书库的创建和不断完善。

接下来说一下具体实现。

相关文章
相关标签/搜索