基于Node.js的爬虫工具 – Node Crawler

Node Crawler的目标是成为最好的node.js爬虫工具,目前已经中止维护。html

 

咱们来抓取光合新知博客tech栏目中的文章信息。
访问http://dev.guanghe.tv/category/tech/,右键查看页面源代码,能够看到文章信息等内容,以下所示:node

 

 

由于每篇文章都是一个<li>标签,因此咱们从页面代码的全部<li>中获取文章的发布时间、连接和标题。git

爬虫代码:github

 

 

npm install安装crawler模块,node app.js运行程序。
你将会得到以下内容(仅展现部份内容):npm

 

相关文章
相关标签/搜索