百度深度学习集训营已经正式开营,每个阶段的作业都将有各自的奖励,欢迎大家学习~
PS:如遇帖子过期、审核不通过的情况,请先复制内容保存在word文档,然后根据提示,完成个人实名验证,刷新后重新粘贴复制的内容,即可提交~
欢迎大家报名参加~
1月9日作业:
作业9-1:在第二章中学习过如何设置学习率衰减,这里建议使用分段衰减的方式,衰减系数为0.1, 根据ResNet目前的训练情况,应该在训练到多少步的时候设置衰减合适?请设置好学习率衰减方式,在眼疾识别数据集iChallenge-PM上重新训练ResNet模型。
作业9-1奖励:在作业中随机各抽取5名同学送出飞桨本+数据线+飞桨贴纸
回复帖子形式: 作业9-1:XXX
抽奖作业截止时间:2020年1月13日中午12点之前
作业9-2奖励:在作业中随机各抽取5名同学送出飞桨本+数据线+飞桨贴纸
回复帖子形式: 作业9-2:XXX
抽奖作业截止时间:2020年1月13日中午12点之前
1月7日作业:
作业8:如果将LeNet模型中的中间层的激活函数Sigmoid换成ReLU,在眼底筛查数据集上将会得到什么样的结果?Loss是否能收敛,ReLU和Sigmoid之间的区别是引起结果不同的原因吗?请发表你的观点
作业8奖励:在作业中随机各抽取5名同学送出飞桨本+数据线+飞桨贴纸
回复帖子形式: 作业8:XXX
获奖同学:#820 thunder95、#819 你还说不想我吗、 #818 百度用户#0762194095、#817 呵赫 he、#816 星光1dl
1月2日作业
作业7-1 计算卷积中一共有多少次乘法和加法操作
输入数据形状是[10, 3, 224, 224],卷积核kh = kw = 3,输出通道数为64,步幅stride=1,填充ph = pw =1
完成这样一个卷积,一共需要做多少次乘法和加法操作?
提示:先看输出一个像素点需要做多少次乘法和加法操作,然后再计算总共需要的操作次数
提交方式:请回复乘法和加法操作的次数,例如:乘法1000,加法1000
作业7-1奖励:抽取5人赢得飞桨定制本+数据线,截止时间2020年1月6日中午12点之前
回复帖子形式: 作业7-1:XXX
作业7-2奖励:从正确答案中抽取5人获得飞桨定制本+50元京东卡,截止时间2020年1月6日中午12点之前
12月31日作业
作业6-1:
1.将普通神经网络模型的每层输出打印,观察内容
2.将分类准确率的指标 用PLT库画图表示
3.通过分类准确率,判断以采用不同损失函数训练模型的效果优劣
4.作图比较:随着训练进行,模型在训练集和测试集上的Loss曲线
5.调节正则化权重,观察4的作图曲线的变化,并分析原因
作业6-1奖励:抽取5人赢得飞桨定制本+数据线 ,回复帖子形式: 作业6-1:XXX
作业6-2:
正确运行AI Studio《百度架构师手把手教深度学习》课程里面的作业3 的极简版代码,分析训练过程中可能出现的问题或值得优化的地方,通过以下几点优化:
(1)样本:数据增强的方法
(2)假设:改进网络模型
(2)损失:尝试各种Loss
(2)优化:尝试各种优化器和学习率
目标:尽可能使模型在mnist测试集上的分类准确率最高
提交实现最高分类准确率的代码和模型,我们筛选最优结果前10名进行评奖
作业6-2奖励:飞桨定制本+50元京东卡
12月25日作业
12月23日作业
作业4-1:在AI studio上运行作业2,用深度学习完成房价预测模型
作业4-1奖励:飞桨定制本+ 《深度学习导论与应用实践》教材,选取第2、3、23、123、223、323…名同学送出奖品
作业4-2:回复下面问题,将答案回复帖子下方:
通过Python、深度学习框架,不同方法写房价预测,Python编写的模型 和 基于飞桨编写的模型在哪些方面存在异同?例如程序结构,编写难易度,模型的预测效果,训练的耗时等等?
回复帖子形式: 作业4-2:XXX
作业4-2奖励:在12月27日(本周五)中午12点前提交的作业中,我们选出最优前五名,送出百度定制数据线+《深度学习导论与应用实践》教材
12月17日作业
完成下面两个问题,并将答案回复在帖子下面,回帖形式:作业3-1(1)XX(2)XX
作业奖励:在2019年12月20日中午12点之前提交,随机抽取5名同学进行点评,礼品是本+数据线
12月12日作业
获奖者:第12名:飞天雄者
12月10日作业
作业1-1:在AI Studio平台上https://aistudio.baidu.com/aistudio/education/group/info/888 跑通房价预测案例
作业1-1奖励:最先完成作业的前3名,以及第6名、66名、166名、266名、366名、466名、566名、666名的同学均可获得飞桨定制大礼包:飞桨帽子、飞桨数据线 、飞桨定制logo笔
作业1-1的获奖者如图:
作业1-2:完成下面两个问题,并将答案发布在帖子下面
①类比牛顿第二定律的案例,在你的工作和生活中还有哪些问题可以用监督学习的框架来解决?假设和参数是什么?优化目标是什么?
②为什么说AI工程师有发展前景?怎样从经济学(市场供需)的角度做出解读?
作业1-2奖励:回复帖子且点赞top5,获得《深度学习导论与应用实践》教材+飞桨定制本
点赞Top5获奖者:1.飞天雄者 2.God_s_apple 3.177*******62 4.学痞龙 5.故乡237、qq526557820
作业截止时间2020年1月10日,再此之前完成,才有资格参加最终Mac大奖评选
报名流程:
1.加入QQ群:726887660,班主任会在QQ群里进行学习资料、答疑、奖品等活动
2.点此链接,加入课程报名并实践:https://aistudio.baidu.com/aistudio/course/introduce/888
温馨提示:课程的录播会在3个工作日内上传到AI studio《百度架构师手把手教深度学习》课程上
作业7-1:乘法:867041280, 加法:867041280
作业7-2:
作业1-2:完成下面两个问题
①类比牛顿第二定律的案例,在你的工作和生活中还有哪些问题可以用监督学习的框架来解决?假设和参数是什么?优化目标是什么?
②为什么说AI工程师有发展前景?怎样从经济学(市场供需)的角度做出解读?
答:
①F = P * S 压力的大小与受力面积成正比 这个问题也能用监督学习的框架解决, 假设压强固定 压力与受力面积事线性关系, 参数是压强,优化目标是找到合适的压强
② 现在大数据爆发,算力提高,算法逐渐完善,人工智能行业有很多方面可以挖掘,大量资金进入人工智能行业,国内AI工程师数量相对较少,质量参差不齐,因此,AI工程师非常有发展前景
作业2-1
作业2-2:
import numpy as np
class Network(object):
def __init__(self, num_of_weights):
# 随机数种子
#np.random.seed(0)
self.w1 = np.random.randn(num_of_weights, num_of_weights)
self.w2 = np.random.randn(num_of_weights, 1)
self.b1 = np.random.randn(num_of_weights)
self.b2 = 0.
def forward1(self, x):
z = np.dot(x, self.w1) + self.b1
return z
def forward2(self, x):
z = np.dot(x, self.w2) + self.b2
return z
def loss(self, z, y):
error = z - y
num_samples = error.shape[0]
cost = error * error
cost = np.sum(cost) / num_samples
return cost
def gradient(self,z, x, y):
#z = self.forward(x)
N = x.shape[0]
gradient_w = 1. / N * np.sum((z-y) * x, axis=0)
gradient_w = gradient_w[:, np.newaxis]
gradient_b = 1. / N * np.sum(z-y)
return gradient_w, gradient_b
def update1(self, gradient_w, gradient_b, eta = 0.01):
self.w1 = self.w1 - eta * gradient_w
self.b1 = self.b1 - eta * gradient_b
def update2(self, gradient_w, gradient_b, eta = 0.01):
self.w2 = self.w2 - eta * gradient_w
self.b2 = self.b2 - eta * gradient_b
def train(self, training_data, num_epoches, batch_size=10, eta=0.01):
n = len(training_data)
losses = []
for epoch_id in range(num_epoches):
# 随机的打乱,
# 取batch_size条数据
np.random.shuffle(training_data)
mini_batches = [training_data[k:k+batch_size] for k in range(0, n, batch_size)]
for iter_id, mini_batch in enumerate(mini_batches):
#print(self.w.shape)
#print(self.b)
x = mini_batch[:, :-1]
y = mini_batch[:, -1:]
a1 = self.forward1(x)
a2 = self.forward2(a1)
loss = self.loss(a2, y)
gradient_w2, gradient_b2 = self.gradient(a2,a1, y)
self.update2(gradient_w2, gradient_b2, eta)
gradient_w1, gradient_b1 = self.gradient(a1,x, a1)
self.update1(gradient_w1, gradient_b1, eta)
losses.append(loss)
print('Epoch {:3d} / iter {:3d}, loss = {:.4f}'.
format(epoch_id, iter_id, loss))
return losses
# 获取数据
train_data, test_data = load_data()
# 创建网络
net = Network(13)
# 启动训练
losses = net.train(train_data, num_epoches=50, batch_size=100, eta=0.1)
plot_x = np.arange(len(losses))
plot_y = np.array(losses)
plt.plot(plot_x, plot_y)
plt.show()
作业6-1:
1.通过运行2-8代码,可以打印神经网络的参数尺寸、输出特征形状以及网络参数。
2.通过将2-8代码进行修改,画出训练过程中分类准确率的变化。
3.以下是使用交叉熵为损失函数所得到的分类准确率:
以下是使用噪音对比估计损失值nce所得的分类准确率:
4.下图是训练集和测试集:
5.正则化权重为0.01,保持其他超参数不变:
正则化权重为0.04,保持其他超参数不变:
正则化权重为0.07,保持其他超参数不变:
正则化权重为0.1,保持其他超参数不变:
作业6-1:
1.将普通神经网络模型的每层输出打印,观察内容
########## print network layer's superparams ##############
conv1-- kernel_size:[20, 1, 5, 5], padding:[2, 2], stride:[1, 1]
conv2-- kernel_size:[20, 20, 5, 5], padding:[2, 2], stride:[1, 1]
pool1-- pool_type:max, pool_size:[2, 2], pool_stride:[2, 2]
pool2-- pool_type:max, poo2_size:[2, 2], pool_stride:[2, 2]
fc-- weight_size:[980, 10], bias_size_[10], activation:softmax
########## print shape of features of every layer ###############
inputs_shape: [100, 1, 28, 28]
outputs1_shape: [100, 20, 28, 28]
outputs2_shape: [100, 20, 14, 14]
outputs3_shape: [100, 20, 14, 14]
outputs4_shape: [100, 20, 7, 7]
outputs5_shape: [100, 10]
epoch: 0, batch: 0, loss is: [2.6448748], acc is [0.97]
epoch: 0, batch: 200, loss is: [0.42326134], acc is [0.86]
epoch: 0, batch: 400, loss is: [0.2978367], acc is [0.92]
2.将分类准确率的指标 用PLT库画图表示
损失函数使用cross entropy
3.通过分类准确率,判断以采用不同损失函数训练模型的效果优劣
损失函数使用mean square error
对比问题2中给出的结果,得知MSE 损失函数真的不适合分类问题,MSE更适合回归问题。
4.作图比较:随着训练进行,模型在训练集和测试集上的Loss曲线
测试数据来自从测试集中随机选取的2000张图片。
5.调节正则化权重,观察4的作图曲线的变化,并分析原因
# L2 coeff 由0.1调整至0.6。与问题4的比较是,loss升高了,更加难以训练。主要的一个原因是模型训练后难以同时保证cross entropy loss小同时模型参数还普遍较小,其中有一大部分的loss来自L2项。
作业6-1:
1.将普通神经网络模型的每层输出打印,观察内容
2.将分类准确率的指标 用PLT库画图表示
3.通过分类准确率,判断以采用不同损失函数训练模型的效果优劣
由上图可知,adam的效果是最好的
4.作图比较:随着训练进行,模型在训练集和测试集上的Loss曲线
5.调节正则化权重,观察4的作图曲线的变化,并分析原因
代码如上所示,regularization_coeff=0.1,0.5,0.9
随着"regularization_coeff"参数的增加,loss震荡越来越剧烈,并且测试集的loss比训练集的loss更低,权重越大时,对模型复杂度的惩罚越高,模型在“尽量减少训练损失”和“保持模型的泛化能力”之间越偏向泛化能力
作业9-2:
代码部分
训练结果
作业9-1
以上述为基础0.001学习率测试,结果如下,因此设置在3000//32位置学习率衰减
因此代码修改为如下
作业6-1:
打印网络结果和参数内容如下:
使用Adam优化算法且不设置正则化项时的loss曲线如下:
测试集上的效果为:
增加正则化项,且设置惩罚系数为0,0.05,0.1,0.15时,在训练集和测试集上效果如下:
可以发现,不增加正则化项在测试集上的loss不超过0.25,平均在0.15左右。而增加正则化项后,测试集上的loss曲线超过0.25,甚至达到0.8之高。因此,不增加正则化项时模型尚未过拟合,而增加正则化项后,泛化了模型预测能力,变成了欠拟合状态,因此在测试集上的loss变大了。
作业8:
将Sigmoid换成ReLU,训练的loss明显下降收敛,准确率明显提升到90+%。将大图片缩放到小图片后,致使这样结果的原因是ReLU函数没有出现梯度消失的现象
作业9-2:程序改动部分如下
1、网络结构
2、训练过程
程序改动后,运行结果
作业9-1:
1、首先测试fluid.dygraph.PiecewiseDecay方法的步数是是基于每个样本还是基于每个批次算步数
经测试,每经过一个批次,步数加1,代码如下:
2、首先使用大的学习率0.01,加速收敛,训练15个epoch
发现经过差不多200次迭代后,损失函数有所回升,且又降回去,说明200次左右已经达到该学习率的极限,无法继续收敛
将200作为学习率的衰减的分割点,依此类推,多次尝试后,使用了200、350和450作为分割点,每次衰减0.1,代码改动如下:
代码改动后,训练结果如下,最后差不多达到96%的准确率
作业8:
将Sigmoid换成ReLU,训练速度更快,准确率更高
作业9-2
新增与修改代码如下,只要修改网络即可,其余复用。
显示结果如下
作业9-2:
model修改的地方:
train:
结果:
首先在读取数据时,要将random种子固定,然后通过loss曲线来分析学习率应该进行衰减位置,即训练在后期有较大波动,甚至出现损失函数的值围绕最小值徘徊的位置
当学习率固定时
opt = fluid.optimizer.Momentum(learning_rate=0.001, momentum=0.9)
在第50次训练之后进行一次梯度衰减
boundaries = [50]
values = [0.001, 0.0001]
opt = fluid.optimizer.Momentum(
momentum=0.9,
learning_rate=fluid.layers.piecewise_decay(boundaries=boundaries, values=values))
作业9-1
首先在读取数据时,要将random种子固定,然后通过loss曲线来分析学习率应该进行衰减位置,即训练在后期有较大波动,甚至出现损失函数的值围绕最小值徘徊的地方
当学习率固定时
opt = fluid.optimizer.Momentum(learning_rate=0.001, momentum=0.9)
通过分析,在第50次训练之后开始浮动,在此进行一次梯度衰减
boundaries = [50]
values = [0.001, 0.0001]
opt = fluid.optimizer.Momentum(
momentum=0.9,
learning_rate=fluid.layers.piecewise_decay(boundaries=boundaries, values=values))
作业7-1: 计算卷积中一共有多少次乘法和加法操作
输入数据形状是[10, 3, 224, 224],卷积核kh = kw = 3,输出通道数为64,步幅stride=1,填充ph = pw =1
完成这样一个卷积,一共需要做多少次乘法和加法操作?
乘法次数:3x3x3x224x224x64 = 867041280
加法次数:(8x3x3+2+1)x224x224x64 = 867041280
7-2:
作业9-1:
以"[项目]图像分类"中的RestNet代码为基础,修改的部分为batch_size设置为了32,初始优化器设置如下:
训练批次为10,得到的损失与训练次数的变化曲线如下:
根据曲线,训练过程中在step=[50, 90]之间有较大波动,同时模型学习出现停滞;在step=110左右损失又出现比较剧烈波动,所以学习率分段衰减参数以及优化器设置如下:
重新训练模型,损失与迭代次数曲线如下图所示:
结论:感觉学习率分段衰减设置错了...虽然整体损失趋势在下降,但是下降速度不如没设置分段衰减前快。知识盲点,有待提高。
作业9-2:
以"[项目]图像分类"中的GoogLeNet代码为基础。
模型代码如下:
由于模型有3个输出,所以修改训练器如下:
训练损失与迭代次数的趋势图如下所示: