Hubble_TP应急预案

节点重启(注意使用hubble账户操作)

如果需要对服务器进行启动或者关机操作，执行以下命令

数据库状态

systemctl status hubble

关闭数据库

sudo systemctl stop hubble

启动数据库

sudo systemctl start hubble

在偶发情况下，大量的并发任务操作(增删改查、导出、导入、drop、数据副本移动等)情况下，导致集群硬件负载过高，有可能会出现节点状态变成可疑或者宕机状态,同时会伴随分片状态有些变成未复制

出现此现象时，需要排查执行语句和执行任务

选择语句

延时时间> 30秒以上的语句，需要进行执行计划查看，里面涉及scan全表扫描等操作的需要应用层进行sql优化。可以通过命令查询正在执行的sql

SELECT * FROM [ SHOW QUERIES ] order by start limit 22;

可以手动结束这些运行慢的sql，保障集群正常运行，同时涉及这些sql的系统需要进行sql优化。

可以结束运行的sql命令为: CANCEL QUERY '15d611a6c5a6307f0000000000000001';

选择任务(运行中的任务大量的资源占用，也有可能导致资源紧张，出现节点可疑)

查看状态是否有一直运行且不停顿的任务,可以通过命令查询正在执行的任务

SELECT * FROM [ SHOW JOBS ];

找到运行时间超长的任务，基于现场情况处理，如果执行任务结束

CANCEL JOB 736686424964726785;

一个实例一个实例轮询执行操作

数据库状态

systemctl status hubble

关闭数据库

sudo systemctl stop hubble

启动数据库

sudo systemctl start hubble

当服务器出现宕机或者磁盘等硬件或者软件故障时，服务器无法提供服务时，需要下线此节点上的数据库实例

hubble node status --certs-dir=/var/lib/hubbletp/certs --host=poc-hubble01:15432

退役节点

hubble node decommission 1 --certs-dir=/var/lib/hubbletp/certs --host=poc-hubble01:15432

本页导航