Node爬虫 爬博客园

博客园右边有一个“找找看”的索引窗口,我们输入关键词,可以查到几万篇的相关的博客,这里用Node的爬虫来抓取给定关键词的查询的特定内容,实现翻页功能,抓取文章链接,作者,发布日期等信息。 Node适合高并发IO操作的程序,用来写爬虫速度最快了。这里我们把爬到的数据存储到数据库中。 前奏: 1.cheerio模块 ,一个类似jQuery的选择器模块,分析HTML利器。 2.request模块,让ht
相关文章
相关标签/搜索