paddle 经常出现宕机情况,这是异常日志,是什么原因导致的呢?
收藏
--------------------------------------
C++ Traceback (most recent call last):
--------------------------------------
No stack trace in paddle, may be caused by external reasons.
----------------------
Error Message Summary:
----------------------
FatalError: `Termination signal` is detected by the operating system.
[TimeInfo: *** Aborted at 1639461050 (unix time) try "date -d @1639461050" if you are using GNU date ***]
[SignalInfo: *** SIGTERM (@0x269bf) received by PID 107338 (TID 0x7f52576d5b80) from PID 158143 ***]
0
收藏
请登录后评论
无解。这个paddle的报错信息,从C++栈来看,并不是paddle内部的错误。import paddle之后,paddle会注册全局的signal handler,捕获系统的signal错误,导致非paddle导致的错误也会被paddle捕获到。详细可以看看这个链接:https://github.com/PaddlePaddle/Paddle/issues/36281
向解决这个问题,只能够试试重新安装Python环境(建议3.7)和PaddlePaddle。
我们安装到阿里云 centos 8 , 16G GPU独立显存服务器,经常出现显存占满/卡死的情况,这个知道是什么问题吗?
进程占用显存情况比较复杂,有很多可能的原因,建议你去GitHub的Paddle里Issue区查看同类问题,或者向框架开发者提Issue,参考链接:
https://github.com/PaddlePaddle/Paddle/issues/35043
https://github.com/PaddlePaddle/Paddle/issues/24102