强化学习7日打卡营:我的心得
收藏
2016年Google旗下DeepMind公司的人工智能AlphaGo战胜人类围棋好手这个里程碑事件后,人类好奇心不断促使我多次想要打开人工智能(AI)这个黑盒子,往里面一探究竟。在学习《百度架构师手把手深度学习》课程中,发现了《强化学习7日打卡营--世界冠军带你从零实战》课程,我痛快的加入打卡。
任何知识都是由概念发端,人工智能领域更是如此。这两门课程,先后让我对“深度学习”和“强化学习”有了概念。深度学习,把事物理解成可以用复杂函数表达的公式,该函数能够最大限度的覆盖先验(训练数据),同时满足后验(预测数据与真实数据误差最小),深度学习的模型设计核心思想如下:
1、加权和
2、非线性变换
3、多层连接
深度学习,是让机器对世界具有“认知”能力;强化学习,让机器对客观世界有“决策”能力。
上图,就是强化学习的思想模型,所有算法均据此设计。
本次课程,讲解了如下深度学习的经典算法和代码实现:Sarsa/Q-Learning/DQN/Policy Gradient/DDPG
这些强化学习算法思想,经历如下变迁:由最初的代码维护Q(s,a)表,到深度神经网络自动学习生成,State(状态)和Action空间由可数(离散的)的演变成不可数(连续的),为人工智能解决复杂的现实问题,提供了编程模型。
成为更好的自己,加油!
0
收藏
请登录后评论
嗯。我也觉得深度卷积网络对强化学习促进很大。
加油!共同努力!