首页 AI Studio教育版 帖子详情
强化学习7日打卡营收获和感悟
收藏
快速回复
AI Studio教育版 文章课程答疑 1399 5
强化学习7日打卡营收获和感悟
收藏
快速回复
AI Studio教育版 文章课程答疑 1399 5

最近刚好在期末,参加了百度强化学习7日打卡营,包括5次课程和作业,总体来说,很赞!!!

主要内容有:1)强化学习入门;2)基于表格的强化学习方法;3)DQN;4)策略梯度(REINFORCE);5)DDPG。可以这样说,你如果有一定基础,这次活动能加深对强化学习的理解,并能学习使用PARL这个方便好用的框架。如果你没有基础,你也能对强化学习的建模和算法思想有一个不错的把握。关于项目的内容,主要是基于gym的环境,自己通过学习实现对Agent的控制(model+algorithm),并进行训练,观察奖励的变化(控制效果需要在本地运行才能查看)。跟着科科老师认真学习,能对强化学习的算法设计有一个清晰的认知,自己再稍微补习一些深度学习的基础,就完全可以进行本次活动中的实战项目。

这里对本次学习的内容做一个总结:1)基于表格的强化学习方法适用于离散状态空间和离散动作空间的情况,而且状态空间最好不要太大,因为Q表的规模会影响计算效率;2)DQN本质上是用神经网络拟合状态空间,因此可以用来解决连续状态空间的问题(动作空间离散),其中使得神经网络有效的方法是经验回放,使得训练更稳定的方法是target网络;3)REINFORCE直接用神经网络对策略进行建模(连续状态空间+离散动作空间),所以可以输出随机策略,更新方式是梯度上升,涉及到回报G的计算;4)DDPG可以进一步建模连续动作空间,基于Actor-Critic架构,同时引入target网络,使得训练更稳定。

在实战过程中,主要遇到的问题是不收敛和最终效果不佳,主要集中在PG和DDPG(尤其是DDPG),这时候就要拿出深度学习炼丹的精神和手段进行一波操作,说实话,DDPG炼丹虽然参数不算多,但很耗时,而且效果提升不明显,需要不断尝试。不过,学习总是需要一个过程的,我们也是一样,收获就是在不断锻炼中提升。

最后,支持百度paddlepaddle深度学习框架,支持PARL强化学习框架,支持paddle系列,支持国产生态。

1
收藏
回复
全部评论(5)
时间顺序
aaaaaa
#2 回复于2020-06

点赞~

0
回复
w
wangwei8638
#3 回复于2020-06

加油

0
回复
AIStudio810258
#4 回复于2020-06

收货满满啊!

上了这个课,我觉得强化学习用上深度网络真得是个“偷懒”的绝妙主意啊。就是吃资源,应该有优化的空间吧。

加油!共同努力~~

0
回复
csman
#5 回复于2020-06

加油点赞

0
回复
joker-wt
#6 回复于2020-06

挺好的

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户