强化学习7日的心得体会
收藏
参加了强化学习7日打卡营,我个人得到的有强化学习的概念,知道了强化学习和深度学习的相同点和独特之处,比如说强化学习不需要数据集的积累,深度学习需要采集数据集。学到了PARL的基本用法,DQN,DDPG等结构。
不过值得吐槽的一点就是强化学习训练太耗费时间了,一次完整的训练就要十几小时,感觉7天时间对于我这种纯强化学习新人不太友好,很多相关的知识还来不及消化就去实践了。还有就是虽然说调参是一门玄学,科科老师也说过学习率是5倍或10倍的调,但是我发现的问题不仅仅是学习率调整就可以解决的。比如说训练结果波动由小变大再变小,这一个地方还要将高斯噪声给调小,学习率也要调小。让我感觉最迷惑的就是Actor-Critic有两个学习率,两个网络的学习率该如何去通过看训练数据去调整呢?还有就是action那四个数据需要该如何优化?还有就是即使选择最优的模型继续训练,最后还是会掉分数。这些问题还没来得及让我去实践解决,时间就过去了。
不过这次我学到了一个训练技巧,就是可以同时打开多个项目,运行不同超参数,不同结构,选择最优的去训练。
强化学习很考验理论的基础,经过这次打卡营,我觉得我有空了还要去看多几遍科科老师的强化学习课程。
0
收藏
请登录后评论
发现这么多问题,学得很认真啊!
加油,共同进步~~