百度深度学习集训营已经正式开营,每个阶段的作业都将有各自的奖励,欢迎大家学习~
PS:如遇帖子过期、审核不通过的情况,请先复制内容保存在word文档,然后根据提示,完成个人实名验证,刷新后重新粘贴复制的内容,即可提交~
欢迎大家报名参加~
1月9日作业:
作业9-1:在第二章中学习过如何设置学习率衰减,这里建议使用分段衰减的方式,衰减系数为0.1, 根据ResNet目前的训练情况,应该在训练到多少步的时候设置衰减合适?请设置好学习率衰减方式,在眼疾识别数据集iChallenge-PM上重新训练ResNet模型。
作业9-1奖励:在作业中随机各抽取5名同学送出飞桨本+数据线+飞桨贴纸
回复帖子形式: 作业9-1:XXX
抽奖作业截止时间:2020年1月13日中午12点之前
作业9-2奖励:在作业中随机各抽取5名同学送出飞桨本+数据线+飞桨贴纸
回复帖子形式: 作业9-2:XXX
抽奖作业截止时间:2020年1月13日中午12点之前
1月7日作业:
作业8:如果将LeNet模型中的中间层的激活函数Sigmoid换成ReLU,在眼底筛查数据集上将会得到什么样的结果?Loss是否能收敛,ReLU和Sigmoid之间的区别是引起结果不同的原因吗?请发表你的观点
作业8奖励:在作业中随机各抽取5名同学送出飞桨本+数据线+飞桨贴纸
回复帖子形式: 作业8:XXX
获奖同学:#820 thunder95、#819 你还说不想我吗、 #818 百度用户#0762194095、#817 呵赫 he、#816 星光1dl
1月2日作业
作业7-1 计算卷积中一共有多少次乘法和加法操作
输入数据形状是[10, 3, 224, 224],卷积核kh = kw = 3,输出通道数为64,步幅stride=1,填充ph = pw =1
完成这样一个卷积,一共需要做多少次乘法和加法操作?
提示:先看输出一个像素点需要做多少次乘法和加法操作,然后再计算总共需要的操作次数
提交方式:请回复乘法和加法操作的次数,例如:乘法1000,加法1000
作业7-1奖励:抽取5人赢得飞桨定制本+数据线,截止时间2020年1月6日中午12点之前
回复帖子形式: 作业7-1:XXX
作业7-2奖励:从正确答案中抽取5人获得飞桨定制本+50元京东卡,截止时间2020年1月6日中午12点之前
12月31日作业
作业6-1:
1.将普通神经网络模型的每层输出打印,观察内容
2.将分类准确率的指标 用PLT库画图表示
3.通过分类准确率,判断以采用不同损失函数训练模型的效果优劣
4.作图比较:随着训练进行,模型在训练集和测试集上的Loss曲线
5.调节正则化权重,观察4的作图曲线的变化,并分析原因
作业6-1奖励:抽取5人赢得飞桨定制本+数据线 ,回复帖子形式: 作业6-1:XXX
作业6-2:
正确运行AI Studio《百度架构师手把手教深度学习》课程里面的作业3 的极简版代码,分析训练过程中可能出现的问题或值得优化的地方,通过以下几点优化:
(1)样本:数据增强的方法
(2)假设:改进网络模型
(2)损失:尝试各种Loss
(2)优化:尝试各种优化器和学习率
目标:尽可能使模型在mnist测试集上的分类准确率最高
提交实现最高分类准确率的代码和模型,我们筛选最优结果前10名进行评奖
作业6-2奖励:飞桨定制本+50元京东卡
12月25日作业
12月23日作业
作业4-1:在AI studio上运行作业2,用深度学习完成房价预测模型
作业4-1奖励:飞桨定制本+ 《深度学习导论与应用实践》教材,选取第2、3、23、123、223、323…名同学送出奖品
作业4-2:回复下面问题,将答案回复帖子下方:
通过Python、深度学习框架,不同方法写房价预测,Python编写的模型 和 基于飞桨编写的模型在哪些方面存在异同?例如程序结构,编写难易度,模型的预测效果,训练的耗时等等?
回复帖子形式: 作业4-2:XXX
作业4-2奖励:在12月27日(本周五)中午12点前提交的作业中,我们选出最优前五名,送出百度定制数据线+《深度学习导论与应用实践》教材
12月17日作业
完成下面两个问题,并将答案回复在帖子下面,回帖形式:作业3-1(1)XX(2)XX
作业奖励:在2019年12月20日中午12点之前提交,随机抽取5名同学进行点评,礼品是本+数据线
12月12日作业
获奖者:第12名:飞天雄者
12月10日作业
作业1-1:在AI Studio平台上https://aistudio.baidu.com/aistudio/education/group/info/888 跑通房价预测案例
作业1-1奖励:最先完成作业的前3名,以及第6名、66名、166名、266名、366名、466名、566名、666名的同学均可获得飞桨定制大礼包:飞桨帽子、飞桨数据线 、飞桨定制logo笔
作业1-1的获奖者如图:
作业1-2:完成下面两个问题,并将答案发布在帖子下面
①类比牛顿第二定律的案例,在你的工作和生活中还有哪些问题可以用监督学习的框架来解决?假设和参数是什么?优化目标是什么?
②为什么说AI工程师有发展前景?怎样从经济学(市场供需)的角度做出解读?
作业1-2奖励:回复帖子且点赞top5,获得《深度学习导论与应用实践》教材+飞桨定制本
点赞Top5获奖者:1.飞天雄者 2.God_s_apple 3.177*******62 4.学痞龙 5.故乡237、qq526557820
作业截止时间2020年1月10日,再此之前完成,才有资格参加最终Mac大奖评选
报名流程:
1.加入QQ群:726887660,班主任会在QQ群里进行学习资料、答疑、奖品等活动
2.点此链接,加入课程报名并实践:https://aistudio.baidu.com/aistudio/course/introduce/888
温馨提示:课程的录播会在3个工作日内上传到AI studio《百度架构师手把手教深度学习》课程上
作业7-1:
乘法:((224+2-3)/1+1)*10*3*64*9=867041280次
加法:((224+2-3)/1+1)*10*3*64*(8+1)=867041280次
作业7-2:
将激活函数改成relu后,准确度有了很大程度的提高,模型训练效果显著。
原因分析:由于sigmoid函数两端倒数为0,容易导致后面的隐藏层激活后反向传播值为0,起不到更新网络参数的作用
而relu激活函数就不存在这个问题,relu激活函数在大于0的部分的倒数全部为1,小于0的部分为0
sigmoid:
relu:
作业8:如果将LeNet模型中的中间层的激活函数Sigmoid换成ReLU,在眼底筛查数据集上将会得到什么样的结果?Loss是否能收敛,ReLU和Sigmoid之间的区别是引起结果不同的原因吗?请发表你的观点
将卷积层的Sigmoid换成ReLU能够使模型的loss下降更快,也减少了同样其他参数情况下的训练用时。因为relu激活函数解决了深层网络的梯度消散现象,使模型更快收敛,而且其只将输入大于1的神经元传入下一层,使模型集中学习重要的图像特征,并减少了运算量。
但试验得出:后面分类的全连接层还是sigmoid激活函数效果更好。
作业8-1:sigmoid 换成relu,loss收敛,准确度提升,运行结果如下图
从纵坐标及曲线可以看出,sigmoid的loss下降到0.7附近不再下降,而relu则下降到0.1一下还有下降趋势,
在此项目中relu优势比sigmoid大
分析
sigmoid和relu的函数图像如下
可以看出,
sigmoid非常容易达到平缓区域,其梯度接近0,导致loss收敛缓慢。
relu在大于0的部分,梯度始终是一个常数,
作业8:如果将LeNet模型中的中间层的激活函数Sigmoid换成ReLU,在眼底筛查数据集上将会得到什么样的结果?Loss是否能收敛,ReLU和Sigmoid之间的区别是引起结果不同的原因吗?请发表你的观点
换成Relu激活函数以后,可以发现loss会收敛,而且收敛更快,根据这两个函数的特性可以发现,sigmoid函数只有在中间小范围内梯度较大,而在两端很大的范围内梯度几乎为0,反向传播时会出现梯度消失的现象,Relu函数则不同,在大于0时梯度一直为1,不会有梯度消失的现象。
作业8-1:
变更为relu后能够收敛,收敛速度加快。可能原因是relu计算更为简单,计算量更少。
作业8:如果将LeNet模型中的中间层的激活函数Sigmoid换成ReLU,在眼底筛查数据集上将会得到什么样的结果?Loss是否能收敛,ReLU和Sigmoid之间的区别是引起结果不同的原因吗?请发表你的观点。
1. 针对眼底筛查数据集
1) 若在LeNet模型中的中间层的激活函数使用Sigmoid函数,在5次epoch后,在验证集上的准确率在57.25%左右,loss几乎不再改变;在10次epoch后,在验证集上的准确率也在57.25%左右,Loss也几乎不再改变。
2) 若在LeNet模型中的中间层的激活函数使用Relu函数,在5次epoch后,在验证集上的准确率在90.75%左右,loss仍在变化;在10次epoch后,在验证集上的准确率也在92.50%左右,Loss仍在改变。
具体结果如下图1-图4所示。
图1 Sigmoid函数 Epoch = 5 图2 Relu函数 Epoch = 5
图3 Sigmoid函数 Epoch = 10 图4 Relu函数 Epoch = 10
2. 分析产生二者区别的原因
在实验中,由于只改变了激活函数这一项,因此激活函数是引起结果不同的根本原因,同时,Relu函数相比于Sigmoid函数,促使结果的分类精度更高,训练收敛速度也更快,进一步分析,大体有三点原因:
1)采用sigmoid作为激活函数时,指数级别的运算,运算量大,同时,在反向传播求误差梯度时,求导涉及到除法,计算量相对较大,而采用Relu激活函数,整个过程的计算量会小很多;
2)Relu激活函数会使一部分神经元的输出为0,这样就造成了神经网络的稀疏性,并且减少了各个参数之间的相互依存关系,缓解了过拟合问题的发生,也就是大家常说的:在生物上的合理性,它是单边的,相比sigmoid激活函数,更符合生物神经元的特征;
3)对于深层的神经网络,sigmoid函数在反向传播的过程中,很容易就会出现梯度消失的情况,即在sigmoid接近饱和区时,变换太缓慢,导数趋于0,这种情况会造成信息丢失,从而无法完成深层神经网络的训练。
使用relu激活函数,Loss可以收敛。
Sigmoid函数一旦进入饱和区,则梯度变化将很小,即Loss基本不再下降
作业8:
使用relu激活函数,Loss可以收敛。
Sigmoid函数一旦进入饱和区,则梯度变化将很小,即Loss基本不再下降
2.理论作业:
①类比牛顿第二定律的案例,在你的工作和生活中还有哪些问题可以用监督学习的框架来解决?假设和参数是什么?优化目标是什么?
答:焦耳定律中热量Q,电流I,电阻R,时间t的关系,可以使用监督。参数I,R,t,假设:Q=K*I*I*R*t,优化目标:不同t,I,R,下产生热量Q,与系数K的关系,确定K.,使得K的误差方均值最小
②为什么说AI工程师有发展前景?怎样从经济学(市场供需)的角度做出解读?
答:AI工程师从事于AI行业,这个市场并没有发展到完全成熟的阶段,技术在不断增长,需求也在培育中增长,属于行业发展周期的扩张期,AI工程师需求不断扩大,可以与行业共同走向繁荣成熟期。
作业8-1:
使用Sigmoid激活函数的输出:
使用Relu激活函数的输出:
在相同的训练次数和网络结构下,后者明显优于前者,这主要是由于Relu能有效减缓过拟合的发生的概率,同时,计算量也比Sigmoid小很多。
作业8:
LeNet模型中的中间层的激活函数为Sigmoid,用在眼底筛查数据集上进行训练,Loss并不能很好的收敛,准确率也不好。
将LeNet模型中的中间层的激活函数Sigmoid换成ReLU,在眼底筛查数据集上Loss是能够收敛,并且准确率也极大的提高。
Sigmoid可以造成梯度消失,而Relu可以很好的将梯度传播下去不会造成梯度消失。Relu的这个特性可以让模型更好的收敛。
作业6-1:
(1)
(2)
(3)对比这种不同的损失函数,我们发现cross entropy准确率能快速达到很高,收敛的快;
(4)采用cross entropy损失函数,训练集以及测试集的loss和accuracy同步变化,且能很快达到收敛
(5)我们发现随着正则化权重的增大,最终收敛的准确率降低,loss变大。造成这样的原因可能是,正则化系数为0时,此时基本没有过拟合现象(如(4)种图所示),随着系数的增大,模型的泛化能力变的更强,所以收敛后的损失有所增加,准确率下降
作业6-1:
(1)
(2)
(3)对比这种不同的损失函数,我们发现cross entropy准确率能快速达到很高,收敛的快;
(4)采用cross entropy损失函数,训练集以及测试集的loss和accuracy同步变化,且能很快达到收敛
(5)我们发现随着正则化权重的增大,最终收敛的准确率降低,loss变大。造成这样的原因可能是,正则化系数为0时,此时基本没有过拟合现象(如(4)种图所示),随着系数的增大,模型的泛化能力变的更强,所以收敛后的损失有所增加,准确率下降
作业8:
使用sigmoid函数:
使用relu函数:
对于relu函数来说,当x大于0时,其梯度恒为1,有利于反向传播的计算,不会像sigmoid函数那样出现梯度消失现象。
作业8:
激活函数为relu时损失可以收敛,relu使用分段线性产生非线性函数,因此造成了网络的稀疏性,减少了参数的相互依存关系,能缓解了过拟合
作业9-1:
下图为学习率为0.001时的训练结果
学习率为0.1时:
每10个batch Id变化时,改变学习率,步距为-0.0045
最终,得到的测试结果:
最后两个Batch,发现loss有增大的趋势,不知什么原因。
作业8
将LeNet模型中的中间层的激活函数Sigmoid换成ReLU,在眼底筛查数据集上Loss可以收敛。
ReLU 在训练过程中收敛更快
作业5-3:
可以发现,当学习率相同为0.01时,可以发现Adam优化算法的优化效果最佳。
当学习率不同时,Adam优化算法的训练结果如下:

可以发现当学习率为0.015时,效果最佳。
作业5-1:
adam算法,准确率0.99
作业5-2: 常见的卷积神经网络包括:VGGnet, Googlenet, Alexnet, yolo, ssd, fastrcnn, fasterrcnn等等
作业5-3: Adam算法效果最好,lr在0.01-0.001之间最优,0.1震荡