单机多卡训练卡住
收藏
快速回复
AI Studio平台使用 问答学习资料 276 1
单机多卡训练卡住
收藏
快速回复
AI Studio平台使用 问答学习资料 276 1

单机多卡训练会卡住不动,这是怎么回事?

[10/09 20:25:06] ppdet.engine INFO: Epoch: [0] [ 0/350] learning_rate: 0.000000 loss: 1.733543 loss_cls: 0.539564 loss_iou: 0.277854 loss_dfl: 0.998688 loss_l1: 2.076710 eta: 1 day, 2:58:21 batch_cost: 3.4679 data_cost: 0.0003 ips: 0.2884 images/s
[10/09 20:26:41] ppdet.engine INFO: Epoch: [0] [100/350] learning_rate: 0.000018 loss: 3.115023 loss_cls: 0.958378 loss_iou: 0.379384 loss_dfl: 1.772553 loss_l1: 2.370535 eta: 6:30:33 batch_cost: 0.8136 data_cost: 0.0001 ips: 1.2290 images/s

到这里之后就一直不动了,重新开始也卡在这里

0
收藏
回复
全部评论(1)
时间顺序
skywalk163
#2 回复于2022-10

一秒一张图,这个速度有点慢啊,可以手工算一下每一次输出需要多少秒,100*batch_size/1.22 ,如果bs=32,那么下一次输出需要2622秒,也就是43分钟之后。

 

 

1
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户