新浪微博内容抓取

最近抓取新浪微博的相关内容,遇到了不少问题也解决了不少问题。一开始我是使用httpclient爬虫抓取网页,可是后面发现微博网页内容不少都是嵌入到js中的;因此改用了htmlunit。下面重点总结几点个人经验吧!html httpclient、htmlunit、新浪微博API这三者的优缺点:web httpclient:算法 优势:爬虫比较稳定,相关使用方法很详细,能够参考《本身动手写网络爬虫》这
相关文章
相关标签/搜索