GBase 8c
运维管理
文章

南大通用GBase 8c分布式场景典型故障运维管理

GBase用户137
发表于2024-11-01 17:38:46277次浏览0个评论

在安装部署及运维使用南大通用GBase 8c分布式数据库时,有部分报错信息过多或者不明朗导致无从排查解决,或者由于操作不当导致集群异常。

本文章汇总部分问题案例及解决办法,与大家分享,如有更多问题,可联系相关技术人员协同处理。

问题一 依赖导致部署失败

报错信息如下:

检查部署环境,执行cat /etc/os-release命令查看机器的操作系统为UOS 20(军用版)

分析报错原因:可以看到在安装过程中无法连接使用libldap-2.4.so.2,导致安装报错。

解决方法:

在package/dependency/uniontech路径下,有GBase 8c数据库所需的依赖库文件。由于兼容特殊操作系统,安装包内提供所需库文件,需手动调整。操作步骤为:

1、创建临时目录temp2,将xxxx.om.tar.gz拷贝至临时目录,解压tar包。

2、进入到dependency目录。

3、将uniontech下的所有文件 拷贝到dependency/lib64下

4、回到temp目录,删除原来的om压缩包,并执行:

tar -czvf xxxx.om.tar.gz *

5、拿着新压缩的om,替换掉原来压缩包解压出来的om。然后把GBasexxxx.centos7.8_x86_64.tar.gz删除,使用tar -czvf GBasexxxx.centos7.8_x86_64.tar.gz * 重新压缩一份安装包。

完成以上操作步骤后,即可使用新的安装包,解压并完成安装部署。

 

问题二 显示端口问题

报错信息如下:

报错分析:从报错信息返回可以发现端口被占用,但是经过排查后,配置的端口均不存在占用情况。

解决办法:多个机器的hostname相同,更改各机器为不同的hostname即可解决问题,完成安装部署。


问题三 组件状态异常


报错现象:

部分节点未正常启动,处于dropping的状态,例如:


前置操作:

将dcs中node_1机器重启之后,导致部分组件状态异常。

问题分析:

etcd状态出现异常,会导致各组件同步信息受影响,配查etcd组件异常情况。

解决方法:

通过排查后,发现机器重启后防火墙打开,导致集群状态异常。关闭防火墙后,集群恢复正常。

本期总结依赖、端口、组件三类问题,对于其他部署和使用过程中可能出现的问题,欢迎大家在评论区留言。

评论

登录后才可以发表评论
加载中...