网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,所以搜索引擎优化很大程度上就是针对爬虫而作出的优化。【从别人的网站爬取有用数据到本身本地数据库】html
网络爬虫基本原理以及jsoup基本使用方法:http://my.oschina.net/xsh1208/blog/465121 算法
传统爬虫和聚焦爬虫。数据库
传统爬虫:从一个或若干初始网页的URL开始,得到初始网页上的URL,在抓取网页的过程当中,不断从当前页面上抽取新的URL放入队列,直到知足系统的必定中止条件。通俗的讲,也就是经过源码解析来得到想要的内容。网页爬虫
聚焦爬虫:工做流程较为复杂,须要根据必定的网页分析算法过滤与主题无关的连接,保留有用的连接并将其放入等待抓取的URL队列。而后,它将根据必定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时中止。另外,全部被爬虫抓取的网页将会被系统存贮,进行必定的分析、过滤,并创建索引,以便以后的查询和检索;对于聚焦爬虫来讲,这一过程所获得的分析结果还可能对之后的抓取过程给出反馈和指导。 浏览器
KS-WAF:将爬虫行为分为 搜索引擎爬虫 及 扫描程序爬虫,可屏蔽特定的搜索引擎爬虫节省带宽和性能,也可屏蔽扫描程序爬虫,避免网站被恶意抓取页面。 服务器
nutch httpclient Jsoup 等等网络
Httpclient:能够仿浏览器访问 多线程
【具体介绍以后补上】性能
本地经过程序爬取他人网站内容,如遇被封ip,则可采起如下方式处理:优化
一、技术处理【调节网页爬虫的请求频率】
在程序中使用假装术,不明目张胆的爬【使用代理;使用高级爬虫(不定周期爬)】
二、简单处理【随时动态更换ip】
若是在公司被封ip,则可考虑重启路由,从新获取公网ip
自动更改IP地址反爬虫封锁,支持多线程,可参考(待校验):http://www.open-open.com/lib/view/open1427353292652.html
三、网络处理 【与第2点相似,代理访问,ADSL拨号】
被封ip后,本地ip不能访问该网站,可是设置了代理服务器后,浏览器能够访问该网站【注意:程序不能够访问网站,故能够给请求的http设置代理】。能够在命令行加路由,通常格式为:route add ip地址 mask 子网掩码 默认网关前提:把掩码要改为跟上面掩码同样。这个路由从新开机就没有了。能够 route add -p ip地址 mask 子网掩码 默认网关。这样的话,从新开机都在的。
使用ADSL拨号最大的有点就是:ip不固定,重启下路由就能够换一个新的ip了。并且ISP拥有大量的IP,会分配到和以前相同的IP机率很低。一旦你发现目前的IP被封锁,即可以马上呼叫相关的API将网络断线并从新拨号,取得新的IP继续执行。