博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
HBase 集群监控
阅读量:6341 次
发布时间:2019-06-22

本文共 3885 字,大约阅读时间需要 12 分钟。

为什么需要监控?

为了保证系统的稳定性,可靠性,可运维性。

  1. 掌控集群的核心性能指标,了解集群的性能表现。
  2. 集群出现问题时及时报警,便于运维同学及时修复问题。
  3. 集群重要指标值异常时进行预警,将问题扼杀在摇篮中,不用等集群真正不可用时才采取行动。
  4. 当集群出现问题时,监控系统可以帮助我们更快的定位问题和解决问题

如何构建 HBase 集群监控系统?

公司有自己的监控系统,我们所要做的就是将 HBase 中我们关心的指标项发送到监控系统去,问题就转换为我们开发,采集并返回哪些 HBase 集群监控指标项。

HBase 集群监控指标

采集的监控数据主要包括以下几个方面:某台机器 OS 层面上的数据,例如 CPU、内存、磁盘、网络、load、网络流量等;某台 regionserver(或master)机器 jvm 的状态,例如关于线程的信息,GC 的次数和时间,内存使用状况,以及 ERROR、WARN、Fatal 事件出现的次数;regionserver(或 master)进程中的统计信息。

可以通过以下地址获取 HBase 提供的 JMX 信息的 web 页面

http://your_master:60010/jmx  //所有的bean

JMX web 页面的数据格式是json格式,信息很多!

OS 监控数据

HBase 中对于 OS 的监控数据,主要是 OperatingSystem 的对象来进行的,如下就是我提取出来的 JSON 信息,

{    "name" : "java.lang:type=OperatingSystem",    "modelerType" : "com.sun.management.UnixOperatingSystem",    "MaxFileDescriptorCount" : 1000000,    "OpenFileDescriptorCount" : 413,    "CommittedVirtualMemorySize" : 1892225024,    "FreePhysicalMemorySize" : 284946432,    "FreeSwapSpaceSize" : 535703552,    "ProcessCpuLoad" : 0.0016732901066722444,    "ProcessCpuTime" : 59306210000000,    "SystemCpuLoad" : 0.018197029910060655,    "TotalPhysicalMemorySize" : 16660848640,    "TotalSwapSpaceSize" : 536862720,    "AvailableProcessors" : 8,    "Arch" : "amd64",    "SystemLoadAverage" : 0.0,    "Name" : "Linux",    "Version" : "2.6.32-431.11.7.el6.ucloud.x86_64",    "ObjectName" : "java.lang:type=OperatingSystem"  }

其中比较重要的指标有 OpenFileDescriptorCount , FreePhysicalMemorySize , ProcessCpuLoad , SystemCpuLoad , AvailableProcessors , SystemLoadAverage

JVM 监控数据

Hbase 中对于 JVM 的监控数据,主要是 JvmMetrics 的对象来进行的,如下就是我提取出来的 JSON 信息,

{    "name" : "Hadoop:service=HBase,name=JvmMetrics",    "modelerType" : "JvmMetrics",    "tag.Context" : "jvm",    "tag.ProcessName" : "Master",    "tag.SessionId" : "",    "tag.Hostname" : "uhadoop-qrljqo-master2",    "MemNonHeapUsedM" : 53.846107,    "MemNonHeapCommittedM" : 85.84375,    "MemNonHeapMaxM" : 130.0,    "MemHeapUsedM" : 79.05823,    "MemHeapCommittedM" : 240.125,    "MemHeapMaxM" : 989.875,    "MemMaxM" : 989.875,    "GcCountParNew" : 15190,    "GcTimeMillisParNew" : 72300,    "GcCountConcurrentMarkSweep" : 2,    "GcTimeMillisConcurrentMarkSweep" : 319,    "GcCount" : 15192,    "GcTimeMillis" : 72619,    "ThreadsNew" : 0,    "ThreadsRunnable" : 21,    "ThreadsBlocked" : 0,    "ThreadsWaiting" : 144,    "ThreadsTimedWaiting" : 18,    "ThreadsTerminated" : 0,    "LogFatal" : 0,    "LogError" : 0,    "LogWarn" : 0,    "LogInfo" : 0  }

JvmMetrics 主要统计的信息包括:内存的使用状态信息;GC的统计信息;线程的统计信息;以及事件的统计信息。

内存的统计信息主要是:JVM 当前已经使用的 NonHeapMemory 的大小、以及配置的 NonHeapMemory 的大小;JVM 当前已经使用的 HeapMemory 的大小、以及配置的 HeapMemory 的大小; JVM 运行时的可以使用的最大的内存的大小。

GC 的统计较为简单,仅统计了进程在固定间隔内 GC 的次数和花费的总时间。

线程的统计,主要是统计进程内当前线程的处于 NEW 、RUNNABLE、BLOCKED、WAITING、TIMED_WAITING、TERMINATED 这六种状态下的线程数量。

对于事件的统计,主要统计固定时间间隔内的 Fatal、Error、Warn 以及 Info 的数量。(这块好像不怎么重要)

Region Servers 健康

你也可以通过如下地址:

http://your_master:60010/jmx?qry=Hadoop:service=HBase,name=Master,sub=Server

获得到 Region Servers 健康值:

{    "name" : "Hadoop:service=HBase,name=Master,sub=Server",    "modelerType" : "Master,sub=Server",    "tag.liveRegionServers" : "xxx",    "tag.deadRegionServers" : "",    "tag.zookeeperQuorum" : "xxx",    "tag.serverName" : "xxx2,60000,1495683310213",    "tag.clusterId" : "e5e044a3-ef9f-48f7-ba63-637376f5fa90",    "tag.isActiveMaster" : "true",    "tag.Context" : "master",    "tag.Hostname" : "xxx",    "masterActiveTime" : 1495683312239,    "masterStartTime" : 1495683310213,    "averageLoad" : 143.66666666666666,    "numRegionServers" : 3,    "numDeadRegionServers" : 0,    "clusterRequests" : 1297834323  }

MemoryPool

从全部的 JSON 值中你会看到很多种 MemoryPool 值,比如 Par Eden Space 、CMS Perm Gen、Par Survivor Space、CMS Old Gen、Code Cache ,按需获取吧。

总结

任何一个服务的监控系统都是一个不断迭代,不断优化的过程,不可能一开始就做到最好。监控总是比问题发生来的更早一些,而每一次出问题,又进一步加强相应方面的监控,我们需要让监控系统从出问题时才报警到可能出现问题时就预警逐渐过渡,最终让监控系统成为我们保证系统稳定性的一个有力工具。

最后

监控指标有很多,但请按需获取 ! 转载文章请注明原出处,谢谢支持!

参考资料

1、

2、

3、

4、

5、

推荐相关文章

1、

2、

你可能感兴趣的文章
谷歌宣布完毕第一辆全功能无人驾驶汽车原型
查看>>
又是一年WWDC,暨回想去年之旅——Part III
查看>>
JSON数据之使用Fastjson进行解析(一)
查看>>
五分钟上手Git
查看>>
Oracle 11gR2 用exp无法导出空表解决方法
查看>>
以太网之物理层
查看>>
五上汶川-熊猫热土环汶川超级越野赛赛记
查看>>
会声会影X10 64位整合光盘V10.1.0.14简体中文版 下载
查看>>
高阶MapReduce_1_链接多个MapReduce作业
查看>>
Ubuntu使用之Svn命令小技巧
查看>>
无线通讯
查看>>
JDBC、JNDI和DBCP的区别
查看>>
【转】操作系统管理内存的机制——为什么要设置虚拟内存?
查看>>
vsftp客户连接常见故障现象
查看>>
Button之常用事件
查看>>
发送手机物理标识请求
查看>>
python能够执行,但编译第三包遇到 python.h no such file or directory
查看>>
值得分享的Bootstrap Ace模板实现菜单和Tab页效果(转)
查看>>
Sql Server 中将由逗号“,”分割的一个字符串转换为一个表集,并应用到 in 条件中...
查看>>
RobotFramework-Selenium2Library--关键字
查看>>