首页 Paddle框架 帖子详情
训练一轮后任务失败status:[-1] meets grpc error, error_code:4 error_message:Deadline Exceeded
收藏
快速回复
Paddle框架 问答深度学习模型训练 23247 4
训练一轮后任务失败status:[-1] meets grpc error, error_code:4 error_message:Deadline Exceeded
收藏
快速回复
Paddle框架 问答深度学习模型训练 23247 4

多分类(68类)简单全连接分类任务训练一轮后任务失败,失败提示信息:
F1222 19:03:46.287559 19021 grpc_client.cc:414] SendRPC name:[softmax_b@GRAD.trainer_0], ep:[10.90.145.38:62004], status:[-1] meets grpc error, error_code:4 error_message:Deadline Exceeded error_details:
*** Check failure stack trace: ***
@ 0x7fca1817efbd google::LogMessage::Fail()
@ 0x7fca18182a6c google::LogMessage::SendToLog()
@ 0x7fca1817eae3 google::LogMessage::Flush()
@ 0x7fca18183f7e google::LogMessageFatal::~LogMessageFatal()
@ 0x7fca18ee14fe paddle::operators::distributed::GRPCClient::Proceed()
@ 0x7fca255b38a0 execute_native_thread_routine
@ 0x7fca988dd1c3 start_thread
@ 0x7fca97f0512d __clone
@ (nil) (unknown)

具体是什么原因导致的错误?应该如何修正来让任务正常训练下去?

0
收藏
回复
全部评论(4)
时间顺序
AIStudio792149
#2 回复于2019-12

多机CPU,MPI集群训练;
paddle fluid v1.5.2;
已训练完一轮train,测试了一轮test

0
回复
AIStudio790719
#3 回复于2019-12

先尝试一下以下几个解决方法:1、确保相同代码,单机运行没有问题;2、切换到1.6.2版本,排除已修复的bug的因素;3、先注释掉reader reset后的测试的代码;4、换用fleet api,排除transpiler使用不当的问题。

0
回复
AIStudio792149
#4 回复于2019-12

感谢回复。
目前1单机运行没问题;
2.切换后测试目前正常跑到第二轮了
3.没必要做了(1成功确定代码没问题)
4.后期再尝试

0
回复
J
JAX52
#5 回复于2020-07

我是paddle1.8版本的,也出现了类似问题。请问如何解决呀!谢谢!

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户