强化学习7日营学习心得
收藏
以前在电视上看到alphago战胜李世石,一直把它当成卫星发射看,没想到,用baidu的强化学习,竟然可以亲自体验一把。
通过5天的课,我从对强化学习一无所知,到学习了SARSA、Q-Learning、DQN等等,现在觉得自己也能玩上这么高大上的东西,首先要感谢百度能给了我这样的平台,还有老师精彩的讲解,让我从一个小白进入这么一个神奇的世界。
当然,看到同学们分享的内容,我觉得自己要想在这行干还有很长的路要走。但是千里之行始于足下,我发现了我将来要走的路。
0
收藏
请登录后评论
alphago主要使用的是蒙特卡洛树搜索. 一个标准的蒙特卡洛树搜索过程包含四步:选择、扩展、评估、备份。和强化学习还是不太一样的.
赞!