多卡脚本任务报错
收藏
使用spawn方法进行多卡训练,报这个错误:
Traceback (most recent call last):
File "run.py", line 22, in
dist.spawn(train, args=(opt, vggwpath, lastoutput, output, 1, opt.batchSize, 1, False))
File "/opt/_internal/cpython-3.7.0/lib/python3.7/site-packages/paddle/distributed/spawn.py", line 458, in spawn
format(device))
ValueError: `device` should be a string of `cpu`, 'gpu' or 'xpu', but got gpu:0
0
收藏
请登录后评论
这是我在单gpu主机上训练时报的错误信息。是按文档示例方式写的多卡运行。报错是因为单卡环境么?
我使用多卡主机训练,结果直接就报失败,连日志都没有,这怎么回事?
我试了一下,同样的代码,用2.1就是报楼上的错。用2.02 就不报错。
原来如此,现在我又用回distributed.lauch那个法儿了。就是打印日志,保存模型处理下多进程
看来又是版本问题