首页 Paddle框架 帖子详情
这个报错什么意思?
收藏
快速回复
Paddle框架 问答模型训练深度学习 1242 3
这个报错什么意思?
收藏
快速回复
Paddle框架 问答模型训练深度学习 1242 3

多卡训练报错,有时报,有时不报:

 

--------------------------------------
C++ Traceback (most recent call last):
--------------------------------------
0 paddle::framework::SignalHandle(char const*, int)
1 paddle::platform::GetCurrentTraceBackString[abi:cxx11]()

----------------------
Error Message Summary:
----------------------
FatalError: `Segmentation fault` is detected by the operating system.
[TimeInfo: *** Aborted at 1624505994 (unix time) try "date -d @1624505994" if you are using GNU date ***]
[SignalInfo: *** SIGSEGV (@0x1378) received by PID 516 (TID 0x7fc68c1de700) from PID 4984 ***]

/mnt
[INFO]: train job failed! train_ret: 1

0
收藏
回复
全部评论(3)
时间顺序
FutureSI
#2 回复于2021-06

这个 Segmentation fault 是指什么?

0
回复
X
XH_alpha
#3 回复于2021-06

通常情况下指操作系统段错误,原因有很多,你这边可以描述下完整的操作流程以及log吗

0
回复
FutureSI
#4 回复于2021-06
通常情况下指操作系统段错误,原因有很多,你这边可以描述下完整的操作流程以及log吗

已经好了,可能是当时偶然的异常,后来没犯过,也没法复现

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户