单机多卡训练卡住
收藏
单机多卡训练会卡住不动,这是怎么回事?
[10/09 20:25:06] ppdet.engine INFO: Epoch: [0] [ 0/350] learning_rate: 0.000000 loss: 1.733543 loss_cls: 0.539564 loss_iou: 0.277854 loss_dfl: 0.998688 loss_l1: 2.076710 eta: 1 day, 2:58:21 batch_cost: 3.4679 data_cost: 0.0003 ips: 0.2884 images/s
[10/09 20:26:41] ppdet.engine INFO: Epoch: [0] [100/350] learning_rate: 0.000018 loss: 3.115023 loss_cls: 0.958378 loss_iou: 0.379384 loss_dfl: 1.772553 loss_l1: 2.370535 eta: 6:30:33 batch_cost: 0.8136 data_cost: 0.0001 ips: 1.2290 images/s
到这里之后就一直不动了,重新开始也卡在这里
0
收藏
请登录后评论
一秒一张图,这个速度有点慢啊,可以手工算一下每一次输出需要多少秒,100*batch_size/1.22 ,如果bs=32,那么下一次输出需要2622秒,也就是43分钟之后。