首页 AI Studio教育版 帖子详情
学习总结-强化学习7日打卡营-世界冠军带你从零实
收藏
快速回复
AI Studio教育版 文章课程答疑 1532 2
学习总结-强化学习7日打卡营-世界冠军带你从零实
收藏
快速回复
AI Studio教育版 文章课程答疑 1532 2

强化学习7日打卡营-世界冠军带你从零实践

 

果然是从入门到放弃,一共5节课,一节比一节难。第一节课,因为本身对aistudio飞桨环境比较熟悉,可以轻松越过各种坑,作业轻松完成。到了第三节,运行时间略微有点长,不过因为我已经提前复习了课程代码,完成只是时间问题。

第四节课讲的什么竟然都忘记了,全部精力都用来做作业了。只知道作业是完成打乒乓球的那个游戏,要求是把分数打到连续10分以上,也就是每局领先电脑对手10分。这个作业很悲催的是用时太长了,算下来要9-12小时。而这10来个小时里面,系统不能退出,退出就又要从头开始。关键也不知道自己的参数是否有用,也许跑了10个小时,才发现不行。按照同学们的说法,一天24小时,也就够调3次参数,真是炼丹看rp啊!

不过老师也提醒了,前面跑一小会儿,应该就对这些参数是否有用有个大体了解了,这样可以先跑一段时间判断一下。原程序是100个循环输出一次测试,可以把10个循环一次输出的语句注释去掉,那样就可以早一点看到训练输出了。后来又加上了存盘语句,把每次测试比上次好的模型都存下来,并把训练分成1000批次一组,一共3组。这样调试情况略好了一点。

 

公布答案后,发现爆简单,只要写model里的数据处理部分就行了,根本都不需要调参…..知道答案后变简单了,但是不知道答案的时候,看着好几个地方都需要调,而且很多效果要等几个小时之后才能看出来。炼丹果然是耗费时间的活,强化学习久了,睡眠就少了,头发也少了。

 

后来我想到将两层全联接改成3层,发现这样很慢,因为对卷积网络比较熟悉,于是决定改成卷积网络,开始用2层卷积,最终定稿是用的三层卷积,我感觉卷积比全联接快多了。但是这样就必须用GPU了(后来我想了想,其实卷积网络对效果的提升可能达到瓶颈了,最终效果还是要靠强化学习来提高)。

 

先提交了一个全联接的,后来在截止时间前10分钟,终于跑出了大部分>10分的成绩,眼看100分就要到手,结果系统账号退出,版本回滚,导致这8个小时的工作全部化为无有,log没有,notebook代码没有,连存盘的文件也都没有存下来,只留下了相应的知识在我脑海中。简直是欲哭无泪!不过总体而言,知识和经验的收获很大,其它挫折都是匆匆过客。

 

作业5是控制四轴飞行器悬停 。大约也要运行8个小时!这个就基本上没有参参了,因为我对它的几个参数不太了解,而且从作业4的经验来看,参数反而可能越调越差,还不如先用默认参数跑。结果一直到最后,也没有跑上8000分,最高到7000多分,这样只能拿到80分的成绩。

 

强化学习的学习曲线波动性比普通深度学习(比如卷积神经网络图像分类/图像分割)要大得多,后面即使老师已经公布了答案,我参考答案的思路再重新跑,也并不顺利。运行时碰到aistudio系统升级,睡前跑起来,睡醒一看,普通端还在跑,高端版本(GPU版)不光停了,还又回滚了,又是啥也没有了,我为什么要说又?我改正的最后一个cell块神奇的不见了,ckpt存档文件也神奇不见了。其实见怪不怪,只要在aistudio的时间足够长,诡异的事情就会经常碰到,这也算是另一种勤奋的见证吧。而且我用老师的代码跑,也没有跑出100分的效果。暂时就只能先放一放,我发现自己调参占用的精力太多,对学习的课程都有点忘记了,还是先学习下基础知识要紧。

 

代码就不写了,代码都是浮云。具体大家可以去看下相关的代码。这次学习,主要的成果就是被老师领进了强化学习的门,以前我就对强化学习感兴趣,于是自己去看parl的文档进行学习,结果直接就被劝退了。因为parl的文档实在对新手不友好,初学者很难把文档里的代码运行起来,除非你已经入门了,对很多隐含的技术都已经了解了。问题是谁都是从不懂到的懂的,很多隐含信息新手并不知道。 另外就是本人一开始不懂demo程序里cartpole的设定,运行demo的时候(也许我刚开始接触的时候运行过),看不懂唰唰唰输出的log信息,也不明白一个扛着棍的车在屏幕上来回动的意义,导致学习的兴趣大减。而通过老师的讲解,我就明白了,这个小车做的事情就像小丑在鼻子上竖小棍,要左右移动才能保持小棍的平衡,坚持的时间越长越好。而输出的log信息里,就能看到对小车平衡结果的衡量成绩,比如200分是最高分,刚开始可能只有不到10分,经过1000轮强化学习训练,就能拿到最高分!从不会竖棍到竖起来很好,程序真的很智能啊,自己也是满满的自豪感,这大大提高了学习的动力!

课程地址在这里:https://aistudio.baidu.com/aistudio/education/group/info/1335

课程课堂例程在这里:https://aistudio.baidu.com/aistudio/projectdetail/564171

 

非常感谢冠军姐姐领我们入门深度学习,感谢PARL和飞桨的开源团队为我们打造了AI和强化学习框架!最后总结一下就是:强化学习就是强,PARL框架来帮忙!

0
收藏
回复
全部评论(2)
时间顺序
AIStudio810258
#2 回复于2020-06

嘴巴说要放弃,但身体是诚实的。玩耍的不亦乐乎啊~~

加油!共同进步!

1
回复
w
wangwei8638
#3 回复于2020-06

总结亮了

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户