南大通用GBase 8c分布式场景典型故障运维管理

在安装部署及运维使用南大通用GBase 8c分布式数据库时,有部分报错信息过多或者不明朗导致无从排查解决,或者由于操作不当导致集群异常。
本文章汇总部分问题案例及解决办法,与大家分享,如有更多问题,可联系相关技术人员协同处理。
问题一 依赖导致部署失败
报错信息如下:
检查部署环境,执行cat /etc/os-release命令查看机器的操作系统为UOS 20(军用版)
分析报错原因:可以看到在安装过程中无法连接使用libldap-2.4.so.2,导致安装报错。
解决方法:
在package/dependency/uniontech路径下,有GBase 8c数据库所需的依赖库文件。由于兼容特殊操作系统,安装包内提供所需库文件,需手动调整。操作步骤为:
1、创建临时目录temp2,将xxxx.om.tar.gz拷贝至临时目录,解压tar包。
2、进入到dependency目录。
3、将uniontech下的所有文件 拷贝到dependency/lib64下
4、回到temp目录,删除原来的om压缩包,并执行:
tar -czvf xxxx.om.tar.gz *
5、拿着新压缩的om,替换掉原来压缩包解压出来的om。然后把GBasexxxx.centos7.8_x86_64.tar.gz删除,使用tar -czvf GBasexxxx.centos7.8_x86_64.tar.gz * 重新压缩一份安装包。
完成以上操作步骤后,即可使用新的安装包,解压并完成安装部署。
问题二 显示端口问题
报错信息如下:
报错分析:从报错信息返回可以发现端口被占用,但是经过排查后,配置的端口均不存在占用情况。
解决办法:多个机器的hostname相同,更改各机器为不同的hostname即可解决问题,完成安装部署。
问题三 组件状态异常
报错现象:
部分节点未正常启动,处于dropping的状态,例如:
前置操作:
将dcs中node_1机器重启之后,导致部分组件状态异常。
问题分析:
etcd状态出现异常,会导致各组件同步信息受影响,配查etcd组件异常情况。
解决方法:
通过排查后,发现机器重启后防火墙打开,导致集群状态异常。关闭防火墙后,集群恢复正常。
本期总结依赖、端口、组件三类问题,对于其他部署和使用过程中可能出现的问题,欢迎大家在评论区留言。
评论
热门帖子
- 12023-05-09浏览数:17637
- 22020-05-11浏览数:10945
- 32023-09-25浏览数:10642
- 42019-04-26浏览数:10609
- 52023-07-04浏览数:9815