Doris BE节点从0.14.7逐台升级到0.14.12,到第四台时发现,开始有升级过的BE节点宕机。
宕机日志 fe.out:
start time: Tue Jun 8 15:16:31 CST 2021
*** Aborted at 1623136672 (unix time) try "date -d @1623136672" if you are using GNU date ***
PC: @ 0x1a92777 doris::DataStreamSender::find_partition()
*** SIGSEGV (@0x0) received by PID 2143 (TID 0x7f3a2df74700) from PID 0; stack trace: ***
@ 0x1ec6742 google::(anonymous namespace)::FailureSignalHandler()
@ 0x7f3a752a8630 (unknown)
@ 0x1a92777 doris::DataStreamSender::find_partition()
@ 0x1a92c99 doris::DataStreamSender::compute_range_part_code()
@ 0x1a95d11 doris::DataStreamSender::send()
@ 0x142688d doris::PlanFragmentExecutor::open_internal()
@ 0x142af55 doris::PlanFragmentExecutor::open()
@ 0x13a2c4e doris::FragmentExecState::execute()
@ 0x13a61f6 doris::FragmentMgr::_exec_actual()
@ 0x13ad4e9 std::_Function_handler<>::_M_invoke()
@ 0x1508897 doris::ThreadPool::dispatch_thread()
@ 0x1502d43 doris::Thread::supervise_thread()
@ 0x7f3a752a0ea5 start_thread
@ 0x7f3a74cc79fd __clone
start time: Tue Jun 8 15:30:05 CST 2021
开启coredump为抓到信息
宕机BE dmesg:
链接:https://pan.baidu.com/s/1nYkctwCVmLgiK8VXSf7nhA
提取码:d638
从dmesg信息显示,BE节点因内存OOM导致被系统kill,但是监控中并无显示内存显著攀升
15:20分经由同事反应,Flink写入失败,为了防止数据丢失,停止flink写入。
15:30至17:00期间,尝试开启flink,节点就会宕机,不开flink无宕机,未更新的节点也会产生宕机,猜测宕机可能跟flink写入有关。
17:00至17:20期间,停止flink写入,把所有节点升级为0.14.12。
17:20升级完毕后,开启flink,集群正常运行10分钟。
17:32分左右,所有BE节点集体宕机。
集群情况参考帖子:http://ai.baidu.com/forum/topic/show/988793
宕机期间Query fe.audit.log:
链接:https://pan.baidu.com/s/1BxzlnZ7t1uuufp28Q3l5BA
提取码:g7r4
结果检查升级BE的过程中有如下操作:
Flink ODS数据写入
Flink DWS宽表数据写入(所有节点升级后稳定运行10分钟期间有这项写入)
ODS结构调整
Navicat客户端读取元数据
应用端通过ADS查询DWS宽表
ETL(通过etl_view读取ods数据到Dim,query日志中报错的第一条为Dim_patient的ETL)
2021-06-08解决方案:所有BE节点恢复为0.14.7版本,集群完全恢复正常。
2021-06-09再次尝试更新
先 set global enable_bucket_shuffle_join=false;
然后升级,升级完BE再升FE,FE全升级完之后 再
set global enable_bucket_shuffle_join=true;
先 set global enable_bucket_shuffle_join=false;
然后升级,升级完BE再升FE,FE全升级完之后 再
set enable_bucket_shuffle_join=true;
一些信息更新:
6月9日再次尝试了升级Doris BE 从0.14.7到0.14.12
升级前通知了同事暂停所有flink写入。
结果依然是,升级到第四台时发现,开始有升级过的BE节点宕机,与第一次升级时遇到的情况基本一致。
这个问题最近正在排查中