这个报错什么意思?
收藏
多卡训练报错,有时报,有时不报:
--------------------------------------
C++ Traceback (most recent call last):
--------------------------------------
0 paddle::framework::SignalHandle(char const*, int)
1 paddle::platform::GetCurrentTraceBackString[abi:cxx11]()
----------------------
Error Message Summary:
----------------------
FatalError: `Segmentation fault` is detected by the operating system.
[TimeInfo: *** Aborted at 1624505994 (unix time) try "date -d @1624505994" if you are using GNU date ***]
[SignalInfo: *** SIGSEGV (@0x1378) received by PID 516 (TID 0x7fc68c1de700) from PID 4984 ***]
/mnt
[INFO]: train job failed! train_ret: 1
0
收藏
请登录后评论
这个 Segmentation fault 是指什么?
通常情况下指操作系统段错误,原因有很多,你这边可以描述下完整的操作流程以及log吗
已经好了,可能是当时偶然的异常,后来没犯过,也没法复现