百度强化学习训练营小记
采用 $\epsilon-greedy$ 方法训练;* 在Q-learning的基础上,DQN提出了两个技巧使得Q网络的更新迭代更稳...
DQN
动作,获得执行完 动作的下一个状态,动作的奖励,游戏是否已结束以及额外信息
next_state, reward, done...
无人系统群体智能及其研究进展
不能适应的个体,在这一过程中,每一个体并没有发生任何学习行为,但其群体具有更强的适应能力。 通过自主且持续学习,使得无人群体智能系统具备了...
智能+时代的百度不做加法做融合
300名老师,65%的老师认为备课难度大,教学方案五花八门,不知如何选择;78%的老师觉得机房对硬件及算力要求高,AI实训平台安装配置复杂...