Doris 0.14.12版本升级问题
13671653088 发布于2021-06 浏览:1936 回复:4
0
收藏

Doris BE节点从0.14.7逐台升级到0.14.12,到第四台时发现,开始有升级过的BE节点宕机。

宕机日志 fe.out:

start time: Tue Jun 8 15:16:31 CST 2021
*** Aborted at 1623136672 (unix time) try "date -d @1623136672" if you are using GNU date ***
PC: @          0x1a92777 doris::DataStreamSender::find_partition()
*** SIGSEGV (@0x0) received by PID 2143 (TID 0x7f3a2df74700) from PID 0; stack trace: ***
    @          0x1ec6742 google::(anonymous namespace)::FailureSignalHandler()
    @     0x7f3a752a8630 (unknown)
    @          0x1a92777 doris::DataStreamSender::find_partition()
    @          0x1a92c99 doris::DataStreamSender::compute_range_part_code()
    @          0x1a95d11 doris::DataStreamSender::send()
    @          0x142688d doris::PlanFragmentExecutor::open_internal()
    @          0x142af55 doris::PlanFragmentExecutor::open()
    @          0x13a2c4e doris::FragmentExecState::execute()
    @          0x13a61f6 doris::FragmentMgr::_exec_actual()
    @          0x13ad4e9 std::_Function_handler<>::_M_invoke()
    @          0x1508897 doris::ThreadPool::dispatch_thread()
    @          0x1502d43 doris::Thread::supervise_thread()
    @     0x7f3a752a0ea5 start_thread
    @     0x7f3a74cc79fd __clone
start time: Tue Jun 8 15:30:05 CST 2021

开启coredump为抓到信息

宕机BE dmesg:

链接:https://pan.baidu.com/s/1nYkctwCVmLgiK8VXSf7nhA
提取码:d638

从dmesg信息显示,BE节点因内存OOM导致被系统kill,但是监控中并无显示内存显著攀升

15:20分经由同事反应,Flink写入失败,为了防止数据丢失,停止flink写入。

15:30至17:00期间,尝试开启flink,节点就会宕机,不开flink无宕机,未更新的节点也会产生宕机,猜测宕机可能跟flink写入有关。

17:00至17:20期间,停止flink写入,把所有节点升级为0.14.12。

17:20升级完毕后,开启flink,集群正常运行10分钟。

17:32分左右,所有BE节点集体宕机。

集群情况参考帖子:http://ai.baidu.com/forum/topic/show/988793

宕机期间Query fe.audit.log:

链接:https://pan.baidu.com/s/1BxzlnZ7t1uuufp28Q3l5BA
提取码:g7r4
结果检查升级BE的过程中有如下操作:

Flink ODS数据写入
Flink DWS宽表数据写入(所有节点升级后稳定运行10分钟期间有这项写入)
ODS结构调整
Navicat客户端读取元数据
应用端通过ADS查询DWS宽表
ETL(通过etl_view读取ods数据到Dim,query日志中报错的第一条为Dim_patient的ETL)

2021-06-08解决方案:所有BE节点恢复为0.14.7版本,集群完全恢复正常。

2021-06-09再次尝试更新

 

 

收藏
点赞
0
个赞
共4条回复 最后由大李白之王回复于2021-06
#5大李白之王回复于2021-06

先 set global enable_bucket_shuffle_join=false;

然后升级,升级完BE再升FE,FE全升级完之后 再

set global enable_bucket_shuffle_join=true;

0
#4大李白之王回复于2021-06

先 set global enable_bucket_shuffle_join=false;

然后升级,升级完BE再升FE,FE全升级完之后 再

set enable_bucket_shuffle_join=true;

0
#313671653088回复于2021-06

一些信息更新:

6月9日再次尝试了升级Doris BE   从0.14.7到0.14.12

升级前通知了同事暂停所有flink写入。

结果依然是,升级到第四台时发现,开始有升级过的BE节点宕机,与第一次升级时遇到的情况基本一致。

 

 

0
#2Ling缪回复于2021-06

这个问题最近正在排查中

1
快速回复
TOP
切换版块