整个搜索空间太大,只能人工设计。那么数据、经验、算力足够多了的情况下,可以用强化学习的方法搜索模型空间么?
房价预测也可以用nlp啊,抓取新闻软文政策文章,所以具体用什么方法,是看手上数据是什么样的
严格来说,万物皆是反馈,人类其实就是个从婴儿时期开始训练的超级强化学习工具
所以强化学习确实可能是场景最通用的,但感觉也是难度最大的、算力要求最高的了
加油~~~~
感觉强化学习就是“最基本的,加工最少的”的机器学习。
粗鲁的说就是试错而已
强化学习只是用机器表示了环境,包括行动和结果。
剩下的就是在试错了。
而感知机搜索空间时是通过梯度引导的,这就是最大的区别
总之一句话,多层感知机是“制导炸弹”,强化学习是“狂轰乱炸”,所以需要的弹药和运气都要多得多。当然不是所有目标都能“制导”的,所以强化学习哪都能用。只要能表示场景就能用了。
世界和平~~
真是独到的理解啊~
也许强化学习书再看多点儿,就有其他认识了吧~~
也有说强化学习和生成模型是相通的,理解不到啊
再翻翻上次发的强化学习书吧
值得是生成/判别这个思路吗?
强化学习也有个critic,跟这个有关吧
6
房价预测也可以用nlp啊,抓取新闻软文政策文章,所以具体用什么方法,是看手上数据是什么样的
严格来说,万物皆是反馈,人类其实就是个从婴儿时期开始训练的超级强化学习工具
所以强化学习确实可能是场景最通用的,但感觉也是难度最大的、算力要求最高的了
加油~~~~
感觉强化学习就是“最基本的,加工最少的”的机器学习。
粗鲁的说就是试错而已
强化学习只是用机器表示了环境,包括行动和结果。
剩下的就是在试错了。
而感知机搜索空间时是通过梯度引导的,这就是最大的区别
总之一句话,多层感知机是“制导炸弹”,强化学习是“狂轰乱炸”,所以需要的弹药和运气都要多得多。当然不是所有目标都能“制导”的,所以强化学习哪都能用。只要能表示场景就能用了。
世界和平~~
真是独到的理解啊~
也许强化学习书再看多点儿,就有其他认识了吧~~
也有说强化学习和生成模型是相通的,理解不到啊
再翻翻上次发的强化学习书吧
值得是生成/判别这个思路吗?
强化学习也有个critic,跟这个有关吧
6