Ganglia配置小记

      Ganglia是我们Hadoop系统中重要的运维工具,当然我们也开了自己的一套监控系统,这是后话。但是随着监控的机器越来越多,以及监控的指标越来越多,导致了对Ganglia的访问十分缓慢。我花了一些时间看了一下我们的gmetad以及gweb,优化了一些配置。其实相关的文章非常多,我只列一下重要的,方便查询。

      https://github.com/ganglia/monitor-core/wiki/Integrating-Ganglia-with-rrdcached   配置方法。

      http://www.perzl.org/aix/index.php?n=Main.Ganglia-rrdcached  例子。

      http://pages.cs.wisc.edu/~plonka/lisa/lisa2007/bigmrtg-lisa-talk.pdf   很好地解析文章。

      简单地说,我本来想用iotop看一下我ganglia web服务器上面的io使用量,但无奈,机器内核版本过低,安装iotop后无法使用,但是通过iostat以及top,sar查看,可以看到我的磁盘写入已经到100%利用率,成为严重瓶颈,cpu一直是60%的io wait,至少写入有问题。根据上面三篇文章,配置了rrdcached,很轻易的,io的写瓶颈消失了,至少集群的metrcs写入不再是问题。但是配置gweb的时候发现,首页读取依然非常慢,查代码后发现,首页的读取时读取gmetad的端口返回xml文件,如果metrcis非常多的时候返回就要几分钟,相当恐怖。

      至此,ganglia web的问题就成为了瓶颈,解决方法1、修改gweb php代码   2、前端展示采用自己的监控系统,后端收集还是走gangila

Print Friendly

jiang yu

Leave a Reply