CrawlScript语言轻松实现网络爬虫——轻松爬取整站信息

CrawlScript语言在beta0.3版本中集成了整站爬虫的功能,只需要简单几句,就可以完成对整站的爬取。 首先下载CrawlScript beta 0.3: CrawlScript beta 0.3版及demo下载。 下载后解压,在CrawlScript-bin文件夹中有一个demo.js,这个代码虽然只有几行,但是实现了对整个新华网的新闻正文的爬取和抽取,一个完整的网络爬虫。 运行方式:用
相关文章
相关标签/搜索