Node爬虫爬博客园

时间 2021-01-06

原文原文链接

博客园右边有一个“找找看”的索引窗口，我们输入关键词，可以查到几万篇的相关的博客，这里用Node的爬虫来抓取给定关键词的查询的特定内容，实现翻页功能，抓取文章链接，作者，发布日期等信息。 Node适合高并发IO操作的程序，用来写爬虫速度最快了。这里我们把爬到的数据存储到数据库中。前奏： 1.cheerio模块，一个类似jQuery的选择器模块，分析HTML利器。 2.request模块，让ht