管理员界面提供有关集群和数据库配置的详细信息,并帮助您优化集群性能。
| 导航栏 | 区域 | 描述 |
|---|---|---|
| 概况 | 查看集群节点的详细信息。 | |
| 监控信息 | 概况 | 查看重要的SQL性能,复制和存储指标。监控信息->仪表盘:概况 |
| 硬件 | 查看有关CPU使用率,磁盘吞吐量,网络负载,存储容量和内存的指标。监控信息->仪表盘:硬件 | |
| 运行 | 查看有关节点数,CPU时间和内存使用情况的指标。监控信息->仪表盘:运行 | |
| SQL | 查看有关SQL连接、字节流量、查询、事务和服务延迟的指标。监控信息->仪表盘:SQL | |
| 存储 | 查看有关存储容量和文件描述符的指标。监控信息->仪表盘:存储 | |
| 复制 | 查看有关如何跨集群复制数据的度量标准,例如分片,每个存储的副本数和副本静态数。监控信息->仪表盘:复制 | |
| 分布式 | 查看batches,RPCs,kv事务等相关指标。监控信息->仪表盘:分布式 | |
| 队列 | 查看队列相关指标,例如队列处理失败数,队列执行时间,副本GC队列等。监控信息->仪表盘:队列 | |
| 慢请求 | 查看相关慢raft,慢租赁采集,慢锁采集的指标。监控信息->仪表盘:慢请求 | |
| 数据变动 | 查看有关数据变动的指标,例如最大数据变动延时,接收字节流量等。监控信息->仪表盘:数据变动 | |
| 节点信息 | 查看活动,停止和停用节点的详细信息。监控信息->汇总 | |
| 事件 | 查看最近的集群事件列表。监控信息->事件 | |
| 数据库列表 | 查看有关集群中系统和用户数据库的详细信息。 | |
| 事务列表 | 事务列表识别任务的执行情况。 | |
| 语句列表 | 识别频繁执行或高延迟的SQL语句 | |
| 网络延迟 | 识别集群节点的网络运行情况 | |
| 任务列表 | 查看集群中正在运行的作业的详细信息。 |
在不安全的集群上,所有用户均可访问管理界面的所有区域。
在安全集群上,admin用户只能访问管理员界面的某些区域。
出于安全原因,非管理员用户只能访问其具有特权的数据和不需要特权的数据(例如,集群运行状况,节点状态,指标)。
| 安全区域 | 权限信息 |
|---|---|
| 节点映射 | 数据库和表名 |
| 数据库细节 | 数据量 |
| 状态细节 | SQL语句 |
| 作业细节 | SQL状态和操作细节 |
| 进阶调试页 | 存储的表数据,操作详细信息,内部IP地址,名称,凭据,应用程序数据(取决于报告) |
集群概况页面提供了集群节点的详细信息,及其活动状态,分片状态,正常运行时间和关键硬件指标的详细信息。
集群概况面板提供以下指标:
| 指标 | 描述 |
|---|---|
| 存储情况 | 已用容量:已使用的存储容量(表示为在所有节点之间分配的总存储容量的百分比)。可用容量:Hubble数据库能够使用的容量(不包括Hubble程序,操作系统和其他系统文件使用的容量)。 |
| 节点状态 | 集群中活动节点的数量。集群中可疑节点的数量。如果节点无法获取其活动状态或该节点正在退役,则认为该节点是可疑节点。集群中宕机节点的数量。 |
| 副本状态 | 集群中shard的总数。集群中正在复制的shard数。非零值表示群集不稳定。集群中不可用的shard数量。非零值表示群集不稳定。 |
节点列表是概况页面上的默认视图。
LIVE节点列表是集群中在线且能够响应请求的节点,它们用绿点标记。如果节点被移除或死亡,则该绿点变为黄点,表示该节点没有响应。如果该节点在一定时间(默认情况下为5分钟)内一直无响应,则该黄点将变为红点,并移至DEAD节点列表,表明不再期待该节点回归集群。
部分信息说明:
| 字段 | 描述 |
|---|---|
| 节点ID | 节点ID |
| 节点地址 | 节点的地址。可以单击该地址以查看有关该节点的更多详细信息。 |
| 运行时间 | 查看节点运行时间 |
| 副本 | 节点副本的数量 |
| CPUS | 节点所在机器的CPU核数 |
| 存储使用率 | 节点上已使用的存储容量占总可用容量的百分比。该值以数字和条形图表示。 |
| 内存使用率 | 节点上已使用的内存占总内存的百分比。该值以数字和条形图表示。 |
| 日志 | 单击日志以查看该节点的详细日志。在安全群集上需要管理员权限。 |
集群指标仪表板显示关键指标的概况面板。要查看概况面板,请单击左侧的监控信息。
概况面板提供以下指标(不一定全部显示):
| 指标 | 描述 |
|---|---|
| Total Nodes | 集群中的节点总数。 |
| 可疑节点 | 集群中的可疑节点数。 |
| 宕机节点 | 集群中的宕机节点数。 |
| 存储使用 | 表示为在所有节点已用容量与的总存储容量的百分比。 |
| 不可用分片 | 集群中不可用分片的数量。非零数字表示群集不稳定。 |
| 每秒查询数 | 每秒在整个集群中执行的SELECT,UPDATE,INSERT和DELETE查询的总数。 |
| 99%的延时 | 最后一分钟内执行了99%的查询。 |
集群指标仪表板显示事件面板,该面板列出了集群中所有节点记录的10个最新事件。要查看事件面板,请单击左侧导航栏上的监控信息。要查看所有事件的列表,请在事件面板中单击查看所有事件。
列出了以下类型的事件:
Database CreatedDatabase DroppedTable CreatedTable DroppedTable AlteredIndex CreatedIndex DroppedView CreatedView DroppedSchema ChangeSequence CreatedNode JoinedNode RejoinedNode DecommissionedNode RestartedCluster Setting ChangedZone Config Changed概况仪表板使您可以监视重要的SQL性能和存储情况等指标。要查看此信息中心,请访问管理界面,然后点击左侧导航栏上监控信息。默认情况下会显示概况仪表板。
概述仪表板显示以下时间序列图:
SELECT/INSERT/UPDATE/DELETE语句。采样值为采样周期10秒内的平均值。
运行延时是集群从接收到查询请求到查询执行结束之间的时间,不包含将查询结果传输给客户端的时延。
在节点视图中,该图显示了存储在此节点上的副本数。分片是这个的子集,复制分片生成副本是为了保障可用性。
在集群视图中,该图显示了集群中每个节点上的副本数。
有关如何控制副本的数量和位置的详细信息,请参阅配置复制区域。
可以通过监控容量图来判断什么时候需要为集群添加新的存储空间。
在节点视图中,该时间序列图展示了在集群中指定节点的最大分配容量、可用容量和已使用容量的情况。
在集群视图中,该时间序列图展示了集群中所有节点的最大分配容量总和、可用容量总和和已使用容量总和
将鼠标悬停在图形上时,将显示以下指标的值:
| 指标 | 描述 |
|---|---|
| 容量 | 分配给数据库的存储容量。您可以为指定节点通过--store配置可用最大存储容量。 |
| 可用 | 可用的空闲存储容量。 |
| 已用 | 已使用的磁盘空间。请注意,此值小于容量-可用,因为容量和可用指标统计的是整个硬盘,受硬盘上的所有程序的影响,已用指标只统计已存储的磁盘使用情况。 |
硬件仪表板能够帮助用户监控集群节点的CPU使用率、硬盘吞吐量、网络负载、存储容量和内存的使用情况。要查看此仪表板,请访问管理界面,单击左侧的监控信息,然后选择仪表板>硬件。
硬件仪表板显示以下时间序列图:
在集群视图中,该时间序列图展示的是集群中所有节点上运行的所有进程硬盘读写队列中请求的数量。
注意:如果用户在一台机器上运行多个节点(在生产环境下不推荐这样做)且没有通过
--store指定每个节点最大分配的存储容量,则Admin界面显示的Capacity指标数值是不正确的。这是因为当多个节点运行在同一台机器上的时候,运行的每个节点都会把该机器的硬盘整个视作一个可用的存储空间,所有节点的硬盘可用容量的总和等于节点数量乘以硬盘的可用容量。但实际上只有一个物理硬盘。
通过运行仪表板可以获取集群运行时的指标,例如节点数,内存使用情况和CPU时间。要查看此仪表板,请访问管理界面,单击左侧导航栏上的监控信息,然后选择仪表板>运行。
运行时仪表板显示以下时间序列图:
在节点视图和集群视图中,该图显示了集群中活动节点的数量。
该图中的曲线的下降表示存在退役节点或宕机节点。
将鼠标悬停在图形上时,将显示以下指标的值:
| 指标 | 描述 |
|---|---|
| RSS | 整体内存使用量 |
| Go Allocated | Go分配的内存。 |
| Go Total | Go管理的内存。 |
| CGo Allocated | C分配的内存。 |
| CGo Total | C管理的内存。 |
GC运行数可以理解为每秒调用垃圾收集器的次数。
GC暂停时间可以理解为垃圾收集器每秒使用的处理器时间,执行垃圾回收时,数据库执行将暂停。
通过管理界面中的SQL仪表板,可以帮助用户监控SQL查询的性能。要查看此仪表板,请访问管理界面,单击左侧导航栏上的监控信息,然后选择仪表板>SQL。
SQL仪表板显示以下时间序列图:
SQL字节流量图能够帮助用户关联SQL查询数量和字节流量,特别适合监控批量数据插入或是返回大量数据的分析型查询。
SELECT/INSERT/UPDATE/DELETE语句。
如果图形显示过多的异常终止或回滚,则可能表明SQL查询存在问题。在这种情况下,请重新检查查询以降低争用。
通过存储仪表板,您可以监视集群的存储空间的使用率。要查看此仪表板,请访问管理界面,单击左侧导航栏上监控信息,然后选择仪表板>存储。
存储仪表板显示以下时间序列图:
您可以监视容量图以判断何时需要添加新的存储空间。
将鼠标悬停在图形上时,将显示以下指标的值:
| 指标 | 描述 |
|---|---|
| 容量 | 分配给数据库的存储容量。您可以为指定节点通过--store配置可用最大存储容量。 |
| 可用 | 可用的空闲存储容量。 |
| 已用 | 已使用的磁盘空间。请注意,此值小于容量-可用,因为容量和可用指标统计的是整个硬盘,受硬盘上的所有程序的影响,已用指标只统计已存储的磁盘使用情况。 |
如果打开的文件描述符数量等于系统允许的上限值,则用户需要增加文件描述符上限。
通过管理界面中的复制仪表板,您可以监视集群的复制指标。要查看此仪表板,请访问管理界面,单击左侧导航栏上的监控信息,然后选择仪表板>复制。
分片图显示有关范围状态的各种详细信息。
将鼠标悬停在图形上时,将显示以下指标的值:
| 指标 | 简介 |
|---|---|
| 分片 | 该节点持有的分片数量 |
| Leaders | 拥有Leader的分片数量。如果一个节点上拥有Leader的分片数量与节点持有的分片数量在很长时间内都不匹配,则需要进行故障定位追踪。 |
| Lease Holders | 持有租约的分片数量。 |
| Leaders w/o Leases | 没有租约的Raft leaders数量。如果该指标的数值在很长时间内非零,则需要进行故障定位追踪。 |
| Unavailable | 不可用的分片数量,如果该指标的数值在很长时间内非零,则需要进行故障定位追踪。 |
| Under-replicated | 正在复制的分片数量。 |
通常情况下Raft组里的节点会通过相互之间传递Raft日志消息的方式来保持同步。然而当一个节点需要同步的日志落后太多,相比起发送所有引起分片变更的消息,集群会直接发送分片的快照,落后节点在应用快照后重新开始同步。大多数情况下这是一个主动推的过程,集群会在认为某个节点需要跟上同步进度的时候推送快照。而在少数情况下,节点会根据Raft协议请求快照同步。
| 指标 | 描述 |
|---|---|
| Generated | 每秒创建的快照数量 |
| Applied (Raft-initiated) | Raft中每秒应用于节点的快照数量。 |
| Applied (Learner) | 每秒提前应用于节点的快照数量。 |
| Applied (Preemptive) | 每秒提前应用于节点的快照数量 |
| Reserved | 每秒为将要发送到节点的传入快照保留的插槽数。 |
通过数据变动仪表板,您可以监视在整个集群中创建的数据变动。要查看此仪表板,请访问管理界面,单击左侧导航栏上的监控信息,然后选择仪表板>数据变动。
数据变动仪表板显示以下时间序列图:
将鼠标悬停在图形上时,将显示以下指标的值:
| 指标 | 描述 |
|---|---|
| 发射字节 | 数据库发出的所有数据变动接收器中发送的字节数。 |
将鼠标悬停在图形上时,将显示以下指标的值:
| 指标 | Description |
|---|---|
| Messages | 发送到所有数据变动的接收器的消息数。 |
| Flushes | 接收对所有数据变动执行的刷新次数。 |
将鼠标悬停在图形上时,将显示以下指标的值:
| 指标 | 描述 |
|---|---|
| 信息发射时间 | 将所有数据变动发送到接收器所需的时间。 |
| 刷新时间 | 等待接收器刷新所有数据变动消息所花费的时间。 |
管理员界面的数据库列表提供了配置的数据库信息,每个数据库中的表以及分配给每个用户的授权的详细信息。要查看这些详细信息,请访问管理界面,然后单击左侧导航栏上的数据库列表。
表视图显示系统表以及数据库中的表的详细信息。要查看这些详细信息,请访问管理界面,然后从左侧导航栏中选择数据库列表,然后从VIEW菜单中选择'表'。
权限视图显示用户在每个数据库当中被授予的权限。要查看这些详细信息,请访问管理界面,从左侧导航栏中选择数据库列表,然后从VIEW菜单中选择'权限'。
展示了备份恢复任务和Schema变更作业的细节信息,包括ID、描述信息、相关用户、创建时间以及状态。用户可以点击每行第一列的下拉按钮,查看更加丰富的信息内容.
任务列表页面显示集群中所有节点的每个备份和还原作业的ID,描述,用户,创建时间和状态,架构更改,用户创建的表统计信息和自动表统计信息作业以及执行的数据更改。要查看作业的完整说明,请单击第一列中的下拉箭头。
您可以根据作业的状态或作业的类型(备份,还原,导入,变更Schema,数据变动,创建统计或自动统计)过滤结果。您也可以选择查看最新的50个作业或所有节点上的所有作业。
| 过滤条件 | 描述 |
|---|---|
| 任务状态 | 从状态菜单中,选择所需的状态过滤器。 |
| 任务类型 | 从类型菜单中,选择备份,还原,导入,变更Schema,数据变动,创建统计或自动统计。 |
| 任务展示 | 在显示菜单上,选择前50个或全部。 |
语句列表页面能够帮助用户查看热点查询以及高时延的SQL语句。 用户还能够点击一个单独的SQL语句,在语句详情页中查看到该语句的详细信息。
要查看语句列表页面,请访问管理界面,然后单击左侧的语句列表。
语句列表页面显示的是在指定的时间窗口内执行的SQL语句的细节信息,显示的内容将周期性地被擦除。擦除后,在执行下一组语句之前,用户将不会在页面上查看到任何语句。默认情况下,时间间隔设置为一小时。用户可以通过修改集群配置项diagnostics.reporting.interval来自定义时间间隔。
如果用户在集群上运行了多个应用程序,语句列表页在默认情况下能够显示来自所有应用程序的语句。如果用户需要查询某个应用程序有关的所有语句,可以点击下拉式菜单应用,选择指定的应用程序。
语句列表页面显示的是每个SQL语句的总执行时间、执行计数、重试次数、受影响行、延时等信息。默认情况下,语句指纹按时间排序;但是,您可以按执行计数,重试,受影响的行和延迟对表进行排序。
为每个语句提供以下详细信息:
| 参数 | 描述 |
|---|---|
| 语句 | SQL语句。 |
| 事务类型 | 事务类型(显式或者隐式)。显式事务是指客户端由BEGIN和COMMIT语句包装的语句。对于不在显式事务中的语句,数据库将每个语句包装在单独的隐式事务中。显式事务使用事务流水线,因此报告的延迟不考虑副本。 |
| 时间 | 在最后一个小时或自定义时间间隔内,一个SQL语句执行时间的总和。 |
| 执行次数 | 最近1小时或是自定义时间间隔内,一个SQL语句执行计数。执行计数将以数值和水平条形图的形式显示。条形图用颜色标记,表示执行计数中执行成功(用蓝色表示)与执行失败(用红色表示)的比率。 |
| 重试次数 | 在最近1小时或是自定义时间间隔内,一个SQL语句重试的累计计数。 |
| 受影响行 | 在最近1小时或是自定义时间间隔内,一个SQL语句返回行数的平均值。该指标以数值和水平条形图的形式显示。条形图用颜色标记,蓝色代表返回行数的平均值,黄色代表返回行数的标准差。 |
| 延迟 | 在最近1小时或是自定义时间间隔内,一个SQL语句服务时延的平均值。该指标以数值和水平条形图的形式显示。条形图用颜色标记,蓝色代表服务时延的平均值,黄色代表服务时延的标准差。 |
语句详细显示的是指定语句指纹具体的执行时间、执行次数、返回行数、各个阶段的时延以及网关节点的时延等详细信息。选中想要查看的sql点击进去。
阶段图表提供了的SQL语句服务时延的平均值和标准差,同时也提供了各个执行阶段(解析、计划、执行)时延的平均值和标准差。该指标以数值和水平条形图的形式显示。条形图用颜色标记,蓝色代表服务时延的平均值,黄色代表服务时延的标准差。
提供了指定语句在每个网关节点上详细的数值指标。关键的参数如下:
| 参数 | 描述 |
|---|---|
| 节点 | 网关节点ID |
| 时间 | 在最近1小时或是自定义时间间隔内,SQL语句的累计执行时间 |
| 执行次数 | 一个SQL语句执行的总次数 |
| 重试次数 | 在最近1小时或是自定义时间间隔内,一个SQL语句重试次数的累计值。 |
| 受影响行 | 在最近1小时或是自定义时间间隔内,一个SQL语句返回行数的平均值。该指标以数值和水平条形图的形式显示。条形图用颜色标记,蓝色代表返回行数的平均值,黄色代表返回行数的标准差。 |
| 延时 | 在最近1小时或是自定义时间间隔内,一个SQL语句服务时延的平均值。该指标以数值和水平条形图的形式显示。条形图用颜色标记,蓝色代表服务时延的平均值,黄色代表服务时延的标准差。 |
'执行计数'表提供有关以下参数的信息,包括数值和条形图:
| Parameter | Description |
|---|---|
| First Attempts | 在最后一个小时或指定的时间间隔内执行SQL语句的首次尝试的累积次数。 |
| Retries | 在最后一个小时或指定的时间间隔内执行SQL语句的重试累积次数。 |
| Max Retries | 在最后一个小时或指定的时间间隔内,使用此指纹的单个SQL语句的最大重试次数。 |
| Total | 具有此结构的语句的执行总数。它计算为首次尝试和累积重试的总和。 |
统计信息框下方的表格提供以下详细信息:
| 参数 | 简介 |
|---|---|
| 应用 | 应用程序通过session配置指定的名称。 |
| 事务类型 | 事务类型(显性或者隐性)。 |
| 是否分布式执行 | 指示语句执行是否是分布式的。 |
| 向量化执行 | 表明该语句是否向量化执行 |
| 使用基于成本的优化器 | 表明该语句是否使用了基于代价的优化器。 |
| 失败 | 指示该语句是否已成功执行。 |
| 参数 | 简介 |
|---|---|
| 读取的平均行数字节数 | 读取字节占用的情况 |
| 最大内存使用量 | 执行语句用的最大内存 |
| 网络使用 | 指示语句执行网络使用情况 |
| 最大暂存盘使用量 | 表明该语句最大暂存盘使用量 |