图书信息库完整解决方案（一）概述

时间 2019-11-15

标签图书信息完整解决方案概述繁體版

原文原文链接

　　去年由于忙一个图书漂流的项目，大概花了三个月的时间，完成了图书信息库的创建。数据库

　　截止目前为止，已经收录了200多万条的图书数据，而且每周还在自动更新中，打算将这个项目完整的整理出来，算阶段性工做的一个总结吧。代理

　　方案主要功能以下：blog

　　一、实现了按照当当图书分类，抓取每一个分类下前100页图书数据的功能。ip

　　二、支持按照ISBN获取图书详情信息，若是库里不存在则优先从当当处获取图书信息，若是当当获取不到再从豆瓣获取。若是当当和豆瓣都存在这本书，则综合二者的图书信息入库。博客

　　三、技术难点：主要有两部分，一个是如何解析当当网页，从繁杂的网页结构里取出须要的图书详情信息；另外一个是如何避免因长时间的抓取被当当封掉ip，这里采用了一个巧妙的机制，既能不花钱又能创建起本身的代理ip库。im

　　接下来会慢慢来梳理。技术

　　PS：纠结来纠结去，仍是感受博客园的编辑和显示比CSDN更友好。总结

数据库截图：数据