爬虫总结 && 部分正则匹配

今天在整理本地资料时,挖掘出了早几年因工做须要用到爬虫的一些备注,分享下,若是能帮到一部分人,荣幸之至~html 工做流大体是: java 首先利用多线程,能过http协议链接对方网站,获取html字符串,能够用java.net包里的工具类或者其它开源包。  接着经过正则表达式解析html标记,网上资源不少的能够搜一下也能够用开源包。  这样一个基本的爬虫就实现了,剩下来的问题就是如何防止重复爬取
相关文章
相关标签/搜索