java爬虫gecco监控来了，再也不裸奔

#java爬虫gecco监控来了，再也不裸奔 ##爬虫为何要监控 gecco是一个十分简单易用的java开源爬虫框架，同时也一个款拥有很好扩展性的框架，目前已经有：html

结合spring的插件gecco-springjava

结合htmlunit的插件gecco-htmlunitgit

结合reids的插件gecco-reidsgithub

在开发爬虫时，因为要对不少网站和连接进行抓取，并对抓取下来的网站进行内容的抽取。大量的连接下载和内容抽取若是没有监控，很难发现问题。特别是对于主题爬虫，须要抽取页面的具体内容，若是网站改版务必要能尽快的发现并修正，gecco爬虫框架在完成了基本的框架和必要的插件的实现后，将重点放在了监控的开发上。redis

对扩展开放，对修改关闭的开闭原则一致是gecco框架的基本设计原则。gecco爬虫的监控模块一样基于该原则，基于jmx协议，使用aop模式。spring

##监控指标 ###爬虫基本信息安全

刷新基本信息：exec/com.geccocrawler.gecco:name=gecco/monitorapp

读取基本信息：read/com.geccocrawler.gecco:name=gecco框架

{
  Interval: 5000,//抓取间隔时间ms
  StartTime: "2016-03-20 20:34:11",//抓取开始时间
  ThreadCount: 1,//爬虫线程数量
  StarUrlCount: 8//初始url数量
  }

###下载监控网站

获取当前正在抓取的全部域名：exec/com.geccocrawler.gecco:name=downloader/hosts
获取某个域名的下载监控信息：exec/com.geccocrawler.gecco:name=downloader/statistics/xx.xx.com

读取下载监控信息：read/com.geccocrawler.gecco:name=downloader

Statistics: "{
  	"exception":8,//该域名抓取异常的数量，主要是超时等异常
  	"serverError":0,//该域名返回500，404等错误信息的数量
  	"success":3263//成功抓取数量
  }",
  Host: "xx.xx.com"//域名

###内容抽取监控

刷新内容抽取监控信息：exec/com.geccocrawler.gecco:name=render/refresh

获取内容抽取监控信息：read/com.geccocrawler.gecco:name=render

Statistics: "{
  	"xx.xx.com":0,//域名xx.xx.com的网站内容抽取的异常数量
  	"yy.yy.com":0//域名yy.yy.com的网站内容抽取的异常数量
  }"

##jmxutils和jolokia ###jmxutils gecco的监控使用了jmxutils这个开源的mbean注解框架。在之前的开发工做中要么就用原生的动态mbean，要么是使用spring的jmx注解框架。原生的动态mbean写起来太繁琐，spring的jmx注解框架使用起来仍是很方便的，可是如今spring感受有些重。jmxutils这个框架很轻量，使用方法能够参考https://github.com/martint/jmxutils。 ###jolokia Jolokia是一个利用JSON经过Http实现JMX远程管理的开源项目。具备快速、简单等特色。除了支持基本的JMX操做以外，它还提供一些独特的特性来加强JMX远程管理如：批量请求，细粒度安全策略等。也就是说jmx的mbean能够经过http来访问不须要在启动java时配置那么多参数。只须要新增一个servlet：

<servlet>
	<servlet-name>jolokia-agent</servlet-name>
	<servlet-class>org.jolokia.http.AgentServlet</servlet-class>
</servlet>
<servlet-mapping>
	<servlet-name>jolokia-agent</servlet-name>
	<url-pattern>/jmx/*</url-pattern>
</servlet-mapping>

这样应用中的mbean就能轻松控制和访问。jolokia还提供了java客户端和js客户端来访问mbean，具体的使用方法和权限控制能够查看jolokia的官方文档https://jolokia.org/reference/html/index.html