前段时间咱们学习了几种爬虫技术,咱们来回顾一下,webCollector,htmlParser,Jsoup,各有优劣,可是若是能灵活运用,其实都是很不错的。那么,今天呢,咱们来学习一种脚本语言,这是一种专门为爬虫技术设计的脚本语言,叫作CrawlScript。话很少说,咱们先来了解一下CrawlScript.javascript
在JAVA程序中调用CrawlScript:CrawlScript彻底由JAVA编写,可在JAVA程序中被方便调用。html
为何选择CrawlScript:java
详细文档能够参考CrawlScript的API帮助文档,http://crawlscript.github.io/index.html。linux
首先,咱们须要先下载CrawlScript的压缩包下来,进入CrawlScript的github主页,右下方的Download Zip按钮下载。git
下载完后解压到指定文件夹,以下图:github
咱们发现这里面有一个Jar包,还有一个demo.js,这个js是一个能够运行的案例,咱们先无论它。web
接下来,咱们须要运行CrawlScript Shell,CrawlScript Shell是编写和运行CrawlScript最经常使用的方式之一。具体可参考文档。咱们先来获取一下百度首页的内容:编程
接下来,咱们利用CrawlScript爬取搜狐新闻的网页内容。windows
OK,今天的内容就到这里了,至于CrawlScript更深刻的内容咱们就再也不赘述了,有兴趣的同窗们能够查找资料进一步的去研究。函数
若是您对本文观点有什么异议,欢迎您的留言,咱们一块儿交流!