Hubble_TP应急预案

节点重启(注意使用hubble账户操作)

如果需要对服务器进行启动或者关机操作,执行以下命令

数据库状态

systemctl status hubble

关闭数据库

sudo systemctl stop hubble

启动数据库

sudo systemctl start hubble

节点可疑/宕机

在偶发情况下,大量的并发任务操作(增删改查、导出、导入、drop、数据副本移动等)情况下,导致集群硬件负载过高,有可能会出现节点状态变成可疑或者宕机状态,同时会伴随分片状态有些变成未复制

图1
图1

出现此现象时,需要排查执行语句和执行任务

语句

选择语句

图2
图2

延时时间> 30秒以上的语句,需要进行执行计划查看,里面涉及scan全表扫描等操作的需要应用层进行sql优化。 可以通过命令查询正在执行的sql

SELECT * FROM [ SHOW QUERIES ] order by start limit 22;

图3
图3

可以手动结束这些运行慢的sql,保障集群正常运行,同时涉及这些sql的系统需要进行sql优化。

可以结束运行的sql命令为: CANCEL QUERY '15d611a6c5a6307f0000000000000001';

详见hubble官网 http://hubbledb.cn/docs/3.7/sql/sql-statements/#show-queries

任务

选择任务(运行中的任务大量的资源占用,也有可能导致资源紧张,出现节点可疑)

图4
图4

查看状态是否有一直运行且不停顿的任务,可以通过命令查询正在执行的任务

SELECT * FROM [ SHOW JOBS ];

图5
图5

找到运行时间超长的任务,基于现场情况处理,如果执行任务结束

CANCEL JOB 736686424964726785; 

详见hubble官网 http://hubbledb.cn/docs/3.10.1/sql/sql-statements/#show-jobs

终结办法对可疑/宕机的节点进行重启操作

一个实例一个实例轮询执行操作

数据库状态

systemctl status hubble

关闭数据库

sudo systemctl stop hubble

启动数据库

sudo systemctl start hubble

服务器节点故障

当服务器出现宕机或者磁盘等硬件或者软件故障时,服务器无法提供服务时,需要下线此节点上的数据库实例

hubble node status --certs-dir=/var/lib/hubbletp/certs --host=poc-hubble01:15432

图6
图6

退役节点

hubble node decommission 1 --certs-dir=/var/lib/hubbletp/certs --host=poc-hubble01:15432