爬虫技术-基于java

一、httpclient/jsoupjavascript

httpclient:用来处理请求(http/s),请求到的html数据,而后使用jsoup解析html

特色:结构不复杂,适合用来处理纯静态的网站java

二、phantomjs/jsoup linux

phantomjs :基于webkit内核的无头浏览器(http://phantomjs.org/)web

特色:能够处理动态网站(使用javascript渲染),能够跨平台(windows/linux均有实现),还能够作web自动化测试工具。windows

三、htmlunit浏览器

https://my.oschina.net/apdplat/blog/217586?p=1工具

java版本的web浏览器,能够解析运行js测试

相关文章
相关标签/搜索