HUBBLE_TP巡检手册

巡检意义

持续保证数据库稳定运行,在第一时间发现问题,为后续的持续改进提供依据。

巡检范围

巡检适用于hubble数据库的监控,对数据库的配置和性能进行了分析,在一定程度上检验了数据库的安全问题及其相关细节的分析。总体可以分为配置信息管理,故障监控,性能检测等。

登录的网址

每个项目有所不同,以ip加端口的形式登录,例如https://172.16.2.161:58080

页面服务

概况

查看仪表盘,如下图:

310  1

310  2

上图展示了节点状态/分片状态/存储/内存使用率

当出现节点状态可疑或者宕机,以及分片状态出现未复制或者不可用则需要重点引起关注

监控

查看监控信息

310

关注SQL运行延时,如果延时时间都是大于3秒的需要进行关注

语句

查看语句列表

310

关注执行的平均时间是否有大于3秒的语句,如果有重点关注

任务

查看任务列表

3101

关注任务是否有较多的进行中的

异常处理检测

节点实例查看

hubble310 node status --certs-dir=/var/lib/hubbletp310/certs --host=poc-hubble01:35432

310

运行任务查看

show jobs;

310

只有确认此任务影响到整个集群才后进行取消任务操作,job_id为上述查询出来的。

cancel job 744604774892044289;

运行sql查看

当您看到一个查询需要很长时间才能完成时,您可以使用该CANCEL QUERY语句来结束它。

假设用于查找已运行超过3s的查询:

select query_id,start,client_address,query from [show all queries] t   WHERE start < (now() - INTERVAL '3 second');

要取消这个长时间运行的查询,并阻止它消耗资源,请注意query_id并将其与CANCEL QUERY语句一起使用:

cancel query  '16ffb7a67b8d18e70000000000000001';

服务启停

注意使用hubble用户

数据库状态

systemctl status hubbletp

关闭数据库

sudo systemctl stop hubbletp

启动数据库

sudo systemctl start hubbletp

服务器端

主要检查 cpu、内存、网络、硬盘占用情况,其中CPU可能发生瞬时变大,这种情况需要根据预警的提示进行处理。