首页 Paddle框架 帖子详情
train_from_dataset throws PyThread_start_new_thread exception.
收藏
快速回复
Paddle框架 问答深度学习模型训练 716 6
train_from_dataset throws PyThread_start_new_thread exception.
收藏
快速回复
Paddle框架 问答深度学习模型训练 716 6

利用train_from_dataset进行训练的时候,第一个epoch正常,到了第二个epoch就报错了,好像是跟thread有关。
系统信息:centos,fluid1.6 cpu版本。

输出如下:

==== epoch_id ==== 0
loss    reduce_mean_0.tmp_0             lod: {}
        dim: 1
        layout: NCHW
        dtype: float
        data: [1.70779]

==== finished ====
==== epoch_id ==== 1
W1106 10:26:39.796146  5593 init.cc:212] *** Aborted at 1573007199 (unix time) try "date -d @1573007199" if you are using GNU date ***
W1106 10:26:39.798044  5593 init.cc:212] PC: @                0x0 (unknown)
W1106 10:26:39.798264  5593 init.cc:212] *** SIGSEGV (@0x2) received by PID 5593 (TID 0x7ff678c76700) from PID 2; stack trace: ***
W1106 10:26:39.799917  5593 init.cc:212]     @     0x7ff679740160 (unknown)
W1106 10:26:39.801622  5593 init.cc:212]     @     0x7ff678cf47d4 __GI___libc_free
W1106 10:26:39.803226  5593 init.cc:212]     @     0x7ff67973873a __pthread_create_2_1
W1106 10:26:39.804966  5593 init.cc:212]     @     0x7ff679a61aed PyThread_start_new_thread
W1106 10:26:39.806640  5593 init.cc:212]     @     0x7ff679a65f87 thread_PyThread_start_new_thread
W1106 10:26:39.808364  5593 init.cc:212]     @     0x7ff679a34ea4 PyEval_EvalFrameEx
W1106 10:26:39.810075  5593 init.cc:212]     @     0x7ff679a3517e PyEval_EvalFrameEx
W1106 10:26:39.811789  5593 init.cc:212]     @     0x7ff679a3517e PyEval_EvalFrameEx
W1106 10:26:39.813552  5593 init.cc:212]     @     0x7ff679a366c9 PyEval_EvalCodeEx
W1106 10:26:39.815271  5593 init.cc:212]     @     0x7ff679a33b98 PyEval_EvalFrameEx
W1106 10:26:39.816990  5593 init.cc:212]     @     0x7ff679a366c9 PyEval_EvalCodeEx
W1106 10:26:39.818692  5593 init.cc:212]     @     0x7ff679a33b98 PyEval_EvalFrameEx
W1106 10:26:39.820422  5593 init.cc:212]     @     0x7ff679a3517e PyEval_EvalFrameEx
W1106 10:26:39.822183  5593 init.cc:212]     @     0x7ff679a366c9 PyEval_EvalCodeEx
W1106 10:26:39.823884  5593 init.cc:212]     @     0x7ff679a33b98 PyEval_EvalFrameEx
W1106 10:26:39.825582  5593 init.cc:212]     @     0x7ff679a366c9 PyEval_EvalCodeEx
W1106 10:26:39.827316  5593 init.cc:212]     @     0x7ff679a33b98 PyEval_EvalFrameEx
W1106 10:26:39.829082  5593 init.cc:212]     @     0x7ff679a366c9 PyEval_EvalCodeEx
W1106 10:26:39.830780  5593 init.cc:212]     @     0x7ff679a368ea PyEval_EvalCode
W1106 10:26:39.832540  5593 init.cc:212]     @     0x7ff679a4fbad run_mod
W1106 10:26:39.834237  5593 init.cc:212]     @     0x7ff679a50d28 PyRun_FileExFlags
W1106 10:26:39.835966  5593 init.cc:212]     @     0x7ff679a51f48 PyRun_SimpleFileExFlags
W1106 10:26:39.837720  5593 init.cc:212]     @     0x7ff679a6416c Py_Main
W1106 10:26:39.839462  5593 init.cc:212]     @     0x7ff678c99bd5 __libc_start_main
W1106 10:26:39.841110  5593 init.cc:212]     @     0x7ff679b3107f (unknown)
0
收藏
回复
全部评论(6)
时间顺序
AIStudio792098
#2 回复于2019-11

fluid1.6 gpu版本 post97报了一样的错。

0
回复
AIStudio790270
#3 回复于2019-11

是否是从数据集读取数据开启了多线程读取,可以确认一下是否是数据集的数据读取会报错,可以用单进程跑一个epoch看下

0
回复
AIStudio792098
#4 回复于2019-11
@heavengate

是指 dataset.set_thread(1) 么?

0
回复
AIStudio790270
#5 回复于2019-11

麻烦提供一下主要代码

0
回复
AIStudio792098
#6 回复于2019-11

我整理下,晚点发出。

0
回复
AIStudio792098
#7 回复于2019-11

发现自己的python环境里面有两个版本的fluid,卸载重装后目前问题解决,估计是两个fluid冲突了。

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户