CrawlScript脚本语言实现网络爬虫

时间 2019-11-10

原文原文链接

前段时间咱们学习了几种爬虫技术，咱们来回顾一下，webCollector，htmlParser，Jsoup，各有优劣，可是若是能灵活运用，其实都是很不错的。那么，今天呢，咱们来学习一种脚本语言，这是一种专门为爬虫技术设计的脚本语言，叫作CrawlScript。话很少说，咱们先来了解一下CrawlScript.javascript

CrawlScript是一种具备爬虫功能的javascript：CrawlScript是一种具备爬虫功能的javascript,CrawlScript是在ECMA标准的基础上设计的语言，是一种javascript,在语法上和网页开发中使用的javascript彻底相同，可是并不支持网页开发中所特有的函数和对象，如document、alert()在CrawlScript中会失效。CrawlScript有本身的一套特有的函数和对象。
CrawlScript是跨平台的：CrawlScript在任何有JDK环境的电脑上均可以运CrawlScript是跨平台的行，不管是windows、linux仍是unix。
在JAVA程序中调用CrawlScript：CrawlScript彻底由JAVA编写,可在JAVA程序中被方便调用。html
为何选择CrawlScript：java

CrawlScript是脚本语言，大大简化了编程，用一两行代码能够实现用几十行JAVA代码才能实现的功能。
CrawlScript能够直接单独做为爬虫使用，只须要JDK的环境便可，不须要复杂的配置过程。
CrawlScript能够嵌入任何其余JAVA程序中。

详细文档能够参考CrawlScript的API帮助文档，http://crawlscript.github.io/index.html。linux

首先，咱们须要先下载CrawlScript的压缩包下来，进入CrawlScript的github主页,右下方的Download Zip按钮下载。git

下载完后解压到指定文件夹，以下图：github

咱们发现这里面有一个Jar包，还有一个demo.js，这个js是一个能够运行的案例，咱们先无论它。web

接下来，咱们须要运行CrawlScript Shell，CrawlScript Shell是编写和运行CrawlScript最经常使用的方式之一。具体可参考文档。咱们先来获取一下百度首页的内容：编程

接下来，咱们利用CrawlScript爬取搜狐新闻的网页内容。windows

OK，今天的内容就到这里了，至于CrawlScript更深刻的内容咱们就再也不赘述了，有兴趣的同窗们能够查找资料进一步的去研究。函数

若是您对本文观点有什么异议，欢迎您的留言，咱们一块儿交流！