CrawlScript语言轻松实现网络爬虫——轻松爬取整站信息

时间 2021-01-20

原文原文链接

CrawlScript语言在beta0.3版本中集成了整站爬虫的功能，只需要简单几句，就可以完成对整站的爬取。首先下载CrawlScript beta 0.3: CrawlScript beta 0.3版及demo下载。下载后解压，在CrawlScript-bin文件夹中有一个demo.js，这个代码虽然只有几行，但是实现了对整个新华网的新闻正文的爬取和抽取，一个完整的网络爬虫。运行方式：用