记一次CDH集群升级事故的处理
发布时间:2021-06-03 20:00:27 所属栏目:大数据 来源:互联网
导读:01问题现象 某日明哥接到求助,集群运维人员在通过 cloudera manager 的 upgrade cluster 选项 (见下图一),升级 cdh 集群时遇到了问题,卡在了 Execute command Upgrade Hive Metastore Database Schema on service Hive 这一步。由于我们的应用系统是基于
|
01问题现象
某日明哥接到求助,集群运维人员在通过 cloudera manager 的 upgrade cluster 选项 (见下图一),升级 cdh 集群时遇到了问题,卡在了 "Execute command Upgrade Hive Metastore Database Schema on service Hive" 这一步。由于我们的应用系统是基于 Hive 的离线计算作业,hive升级不成功,应用应用无法启动,该问题亟待解决。
"Execute command Upgrade Hive Metastore Database Schema on service Hive" 这一步前的步骤是执行成功的,包括HDFS的升级:
02问题分析
查看cm页面上执行 "Execute command Upgrade Hive Metastore Database Schema on service Hive" 这一步时的 stdout 和 stderr 日志,其内容如下(页面日志没来得及截图,以下截图是当时复制出来的页面日志的内容):
stdout.log:
stderr.log:
查看hive metastore database 升级脚本的内容:
可见该升级脚本只是更改了 hive 的 mysql metastore db,更新了 hive 库中 DBS 表的结构 (增加了一列 create_time);并更新了 cdh_version表的一条记录。
如此简单的 ddl 语句和 dml 语句会执行失败,很可能的原因是使用的数据库用户名和密码不对或没有更新权限。我们需要验证下使用的用户名和密码是否正确,以及是否有相应的权限。这些连接信息和用户名密码信息是在 cm 中 hive 配置页面指定的:
![]() (编辑:三门峡站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |



