持续保证数据库稳定运行,在第一时间发现问题,为后续的持续改进提供依据。
巡检适用于hubble数据库的监控,对数据库的配置和性能进行了分析,在一定程度上检验了数据库的安全问题及其相关细节的分析。总体可以分为配置信息管理,故障监控,性能检测等。
每个项目有所不同,以ip加端口的形式登录,例如https://172.16.2.161:58080
上图展示了节点状态/分片状态/存储/内存使用率 当出现节点状态可疑或者宕机,以及分片状态出现未复制或者不可用则需要重点引起关注
重点关注SQL查询数是否有任务
SQL运行延时问题,如果延时时间是>3秒的需要进行关注
关注语句平均执行时间是否大于3秒,如果是要引起关注
关注是否有较多的进行中的任务
hubble node status --certs-dir=/var/lib/hubbletp/certs --host=poc-hubble01:15432
show jobs;
只有确认此任务影响到整个集群才后进行取消任务操作,job_id为上述查询出来的。
cancel job 735376389088280577;
当您看到一个查询需要很长时间才能完成时,您可以使用该CANCEL QUERY
语句来结束它
例如,假设您用于查找已运行超过 3s的查询:
select query_id,start,client_address,query from [show all queries] t WHERE start < (now() - INTERVAL '3 second');
要取消这个长时间运行的查询,并阻止它消耗资源,请注意query_id
并将其与CANCEL QUERY
语句一起使用
cancel query '16ffb7a67b8d18e70000000000000001';
注意使用hubble账户
数据库状态
systemctl status hubbletp
关闭数据库
sudo systemctl stop hubbletp
启动数据库
sudo systemctl start hubbletp
主要检查 cpu、内存、网络、硬盘占用情况