强化学习可以理解成人工提供梯度么?
收藏
突然想到这个问题。
0
收藏
请登录后评论
既然梯度下降是为了缩小搜索空间的范围。那么”学习经验“的强化学习,可以理解为人工提供”梯度“么
或者说,我们找到了偏导数做神经网络优化的依据。而强化学习,我们没找到像偏导数这么有效的依据,就靠经验了
打个比方,神经网络的学习方法就像我们教小孩子学数学,公式都已经推导出来了,我们直接照着”清晰的规律“教。而强化学习就像教一些人文学科比如文学,理论不是那么清晰,我们就直接教作品,让学生自己学。多看大师的作品一样能提高水平
可以这么理解么?