作业帖 | 百度深度学习集训营

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

DJ星尘发布于2019-12

百度深度学习集训营已经正式开营，每个阶段的作业都将有各自的奖励，欢迎大家学习~

PS：如遇帖子过期、审核不通过的情况，请先复制内容保存在word文档，然后根据提示，完成个人实名验证，刷新后重新粘贴复制的内容，即可提交~

欢迎大家报名参加~

1月9日作业：

作业9-1：在第二章中学习过如何设置学习率衰减，这里建议使用分段衰减的方式，衰减系数为0.1，根据ResNet目前的训练情况，应该在训练到多少步的时候设置衰减合适？请设置好学习率衰减方式，在眼疾识别数据集iChallenge-PM上重新训练ResNet模型。

作业9-1奖励：在作业中随机各抽取5名同学送出飞桨本+数据线+飞桨贴纸

回复帖子形式：作业9-1：XXX

抽奖作业截止时间：2020年1月13日中午12点之前

作业9-2奖励：在作业中随机各抽取5名同学送出飞桨本+数据线+飞桨贴纸

回复帖子形式：作业9-2：XXX

抽奖作业截止时间：2020年1月13日中午12点之前

1月7日作业：

作业8：如果将LeNet模型中的中间层的激活函数Sigmoid换成ReLU，在眼底筛查数据集上将会得到什么样的结果？Loss是否能收敛，ReLU和Sigmoid之间的区别是引起结果不同的原因吗？请发表你的观点

作业8奖励：在作业中随机各抽取5名同学送出飞桨本+数据线+飞桨贴纸

回复帖子形式：作业8：XXX

获奖同学：#820 thunder95、#819 你还说不想我吗、 #818 百度用户#0762194095、#817 呵赫 he、#816 星光1dl

1月2日作业

作业7-1 计算卷积中一共有多少次乘法和加法操作

输入数据形状是[10, 3, 224, 224]，卷积核kh = kw = 3，输出通道数为64，步幅stride=1，填充ph = pw =1

完成这样一个卷积，一共需要做多少次乘法和加法操作？

提示：先看输出一个像素点需要做多少次乘法和加法操作，然后再计算总共需要的操作次数

提交方式：请回复乘法和加法操作的次数，例如：乘法1000，加法1000

作业7-1奖励：抽取5人赢得飞桨定制本+数据线，截止时间2020年1月6日中午12点之前

回复帖子形式：作业7-1：XXX

作业7-2奖励：从正确答案中抽取5人获得飞桨定制本+50元京东卡，截止时间2020年1月6日中午12点之前

12月31日作业

作业6-1：

1.将普通神经网络模型的每层输出打印，观察内容
2.将分类准确率的指标用PLT库画图表示
3.通过分类准确率，判断以采用不同损失函数训练模型的效果优劣
4.作图比较：随着训练进行，模型在训练集和测试集上的Loss曲线
5.调节正则化权重，观察4的作图曲线的变化，并分析原因
作业6-1奖励：抽取5人赢得飞桨定制本+数据线，回复帖子形式：作业6-1：XXX

作业6-2：

正确运行AI Studio《百度架构师手把手教深度学习》课程里面的作业3 的极简版代码，分析训练过程中可能出现的问题或值得优化的地方，通过以下几点优化：

（1）样本：数据增强的方法

（2）假设：改进网络模型

（2）损失：尝试各种Loss

（2）优化：尝试各种优化器和学习率

目标：尽可能使模型在mnist测试集上的分类准确率最高

提交实现最高分类准确率的代码和模型，我们筛选最优结果前10名进行评奖

作业6-2奖励：飞桨定制本+50元京东卡

12月25日作业

12月23日作业

作业4-1：在AI studio上运行作业2，用深度学习完成房价预测模型

作业4-1奖励：飞桨定制本+ 《深度学习导论与应用实践》教材，选取第2、3、23、123、223、323…名同学送出奖品

作业4-2：回复下面问题，将答案回复帖子下方：

通过Python、深度学习框架，不同方法写房价预测，Python编写的模型和基于飞桨编写的模型在哪些方面存在异同？例如程序结构，编写难易度，模型的预测效果，训练的耗时等等？

回复帖子形式：作业4-2:XXX

作业4-2奖励：在12月27日（本周五）中午12点前提交的作业中，我们选出最优前五名，送出百度定制数据线+《深度学习导论与应用实践》教材

12月17日作业

完成下面两个问题，并将答案回复在帖子下面，回帖形式：作业3-1（1）XX（2）XX

作业奖励：在2019年12月20日中午12点之前提交，随机抽取5名同学进行点评，礼品是本+数据线

12月12日作业

获奖者：第12名：飞天雄者

12月10日作业
作业1-1：在AI Studio平台上https://aistudio.baidu.com/aistudio/education/group/info/888 跑通房价预测案例

作业1-1奖励：最先完成作业的前3名，以及第6名、66名、166名、266名、366名、466名、566名、666名的同学均可获得飞桨定制大礼包：飞桨帽子、飞桨数据线、飞桨定制logo笔

作业1-1的获奖者如图：

作业1-2：完成下面两个问题，并将答案发布在帖子下面
①类比牛顿第二定律的案例，在你的工作和生活中还有哪些问题可以用监督学习的框架来解决？假设和参数是什么？优化目标是什么？
②为什么说AI工程师有发展前景？怎样从经济学（市场供需）的角度做出解读？
作业1-2奖励：回复帖子且点赞top5，获得《深度学习导论与应用实践》教材+飞桨定制本

点赞Top5获奖者：1.飞天雄者 2.God_s_apple 3.177*******62 4.学痞龙 5.故乡237、qq526557820

作业截止时间2020年1月10日，再此之前完成，才有资格参加最终Mac大奖评选

报名流程：

1.加入QQ群：726887660，班主任会在QQ群里进行学习资料、答疑、奖品等活动

2.点此链接，加入课程报名并实践：https://aistudio.baidu.com/aistudio/course/introduce/888

温馨提示：课程的录播会在3个工作日内上传到AI studio《百度架构师手把手教深度学习》课程上

全部评论(953)

物理介入

#682 回复于2020-01

作业6-1；答题以“2-8 【手写数字识别】之训练调试与优化”课程代码为基础

1. 将普通神经网络的每层输出打印，观察内容

此处"普通神经网络"指示不明确，所以假定以2-8【手写数字识别】的两层卷积神经网络为对象，模型配置如下:

# 定义卷积层，输出通道20，卷积核大小为5，步长为1，padding为2，使用relu激活函数
self.conv1 = Conv2D(name_scope, num_filters=32, filter_size=3, stride=1, padding=1, act='relu')
# 定义池化层，池化核为2，采用最大池化方式
self.pool1 = Pool2D(name_scope, pool_size=2, pool_stride=2, pool_type='max')
# 定义卷积层，输出通道20，卷积核大小为5，步长为1，padding为2，使用relu激活函数
self.conv2 = Conv2D(name_scope, num_filters=64, filter_size=3, stride=1, padding=1, act='relu')
# 定义池化层，池化核为2，采用最大池化方式
self.pool2 = Pool2D(name_scope, pool_size=2, pool_stride=2, pool_type='max')
# 定义全连接层，输出节点数为10，激活函数使用softmax
self.fc = FC(name_scope, size=10, act='softmax')

由于直接打印卷积层输出缺乏直观印象，所以将两层卷积层的输出可视化，输出可视化代码如下:

# 6-1-1 输出可视化
from math import sqrt, ceil
# import numpy as np

def visualize_grid(Xs, ubound=255.0, padding=1):
    (N, H, W) = Xs.shape
    grid_size = int(ceil(sqrt(N)))
    grid_height = H * grid_size + padding * (grid_size - 1)
    grid_width = W * grid_size + padding * (grid_size - 1)
    grid = np.zeros((grid_height, grid_width))
    next_idx = 0
    y0, y1 = 0, H
    for y in range(grid_size):
        x0, x1 = 0, W
        for x in range(grid_size):
            if next_idx < N:
                img = Xs[next_idx]
                low, high = np.min(img), np.max(img)
                grid[y0:y1, x0:x1] = ubound * (img - low) / (high - low)
                next_idx += 1
            x0 += W + padding
            x1 += W + padding
        y0 += H + padding
        y1 += H + padding
        
    return grid

从每批次100个图片中随机取2个，显示经过第一层(32)和第二层(64)卷积之后的输出结果:

2. 将分类准确率的指标用PLT库画图表示

3. 通过分类准确率，判断以采用不同损失函数训练模型效果的优劣

我以2-8代码为基础重新训练了一个以均方误差

loss = fluid.layers.square_error_cost(predict, label=label) # 求均方误差
avg_loss = fluid.layers.mean(loss)

来计算损失函数的模型，训练epoch=10, 优化器设置如下:

optimizer = fluid.optimizer.AdamOptimizer(learning_rate=0.001, regularization=fluid.regularizer.L2Decay(regularization_coeff=0.1))

在训练过程中就发现效果很差，使用均方误差损失函数的准确率在0.1~0.15左右徘徊。将训练完的模型在测试集上进行效果测试，同时和交叉熵损失函数训练的模型准确率对比如下：

4 and 5. 作图比较: 随着训练进行，模型在训练集和测试集上的Loss曲线，调节正确化权重，观察曲线的变化，并分析原因。

声明：此处"测试集上的Loss"获得方式为从测试集中随机抽取100个样本，每训练100批次之后记录一下当前的训练损失以及当前模型在100个样本测试集上的损失。

正则化权重参数如下：

regularization_coeff=[0.0, 0.1, 0.8]

从变化可以得出的结论是：

随着"regularization_coeff"参数的增加，总体的损失变大了，这点比较好理解，增加正则化权重相当于增加了"惩罚"度，|W|也成为了增加Loss的一个因素。
当"regularization_coeff"设置为0时，训练集和测试集损失几乎贴合。可能原因是用CNN训练mnist模型性能非常好，本身在训练以及测试时候损失就很低，所以几乎完全贴合；在加入正则化参数后，反而影响到了模型在训练时候的损失，造成了抖动。

Benson

#683 回复于2020-01

作业7-1:

乘法： 3*3*3*224*224*64*10 = 867,041,280 ，加法：(3*3*3+2)*224*224*64*10 = 931,266,560

作业7-2:

呵

呵赫he

#684 回复于2020-01

7-1

由已知输入[10, 3, 224, 224]， kernel_size=(3, 3), padding = (1, 1), strides = 1，输出通道64，

则输出[10, 64, 224, 224] ---10张64通道的224*224的特征图

一张特征图的一个通道的一个像素点的计算：（9乘，8加）* 3 + (2加，) + （1加，） = （27乘， 27加）

其中， “（9乘， 8加）”是单通道3*3卷积操作， “*3”是3个通道， “+（2加，）”是合并为一个通道，“+（1加，）”是加上偏置。完成所有操作得到一个像素。

（乘法，加法） = （27乘， 27加） * 224 * 224 * 64 * 10 = （867041280乘，867041280加）

7-2

漂

漂流寻梦plxm

#685 回复于2020-01

作业7-1：

根据题意，填充可得输出为：

Hout = （H + 2ph – kh） / sh + 1 = (224 + 2 * 1 – 3 ) / 1+ 1 = 224

Wout = （W + 2pw -kw）/ sw + 1 = (224 + 2 * 1 -3 ) /1 + 1 = 224

因此输出特征图大小为[10, 64, 224, 224] （[N, Cout, Hout, Wout]）。

卷积核维度[64, 3, 3, 3]（[Cout, Cin, kh, kw]）

对输出特征图一个通道的一个像素点：

乘法：kh * kw * Cin = 3 * 3 * 3 = 27

加法：(kh * kw -1) * Cin + (Cin -1) + 1 = (3 * 3 -1) * 3 + ( 3 – 1 ) + 1 = 27

总计算量：

乘法：N * Cout * Hout * Wout * 27 = 10 * 64 * 224 * 224 * 27 = 867,041,280

加法：N * Cout * Hout * Wout * 27 = 10 * 64 * 224 * 224 * 27 = 867,041,280

漂

漂流寻梦plxm

#686 回复于2020-01

7-2作业：

物理介入

#687 回复于2020-01

物理介入 #663

作业7-1: 乘法： 3*3*3*224*224*64*10 = 867,041,280 ，加法：(3*3*3+2)*224*224*64*10 = 931,266,560 作业7-2: [图片]

展开

修改663楼作业7-1:

在网上查看了一下关于多通道卷积的运算过程以及CNN的源代码，发现偏置项实在所有通道的卷积结果求和后再加上偏置项，所以修改加法部分；

乘法： 3*3*3*224*224*64*10 = 867,041,280 ，加法：(8*3+2+1)*224*224*64*10 =
867,041,280

PS: 感觉孙老师在周四课上最后那段关于计算加法次数的方法有误啊XD。

作业7-2

物理介入

#688 回复于2020-01

物理介入 #687

修改663楼作业7-1: 在网上查看了一下关于多通道卷积的运算过程以及CNN的源代码，发现偏置项实在所有通道的卷积结果求和后再加上偏置项，所以修改加法部分；乘法： 3*3*3*224*224*64*10 = 867,041,280 ，加法：(8*3+2+1)*224*224*64*10 = 867,041,280 PS: 感觉孙老师在周四课上最后那段关于计算加法次数的方法有误啊XD。作业7-2 [图片]

展开

作业7-1 修改: 参看了CNN卷积算法用循环实现的源代码

for i in range(N):
    for j in range(H_n):
        for k in range(W_n):
            for f in range(F):
                X_i = X_pad[i]
                inp_con = X_i[:,j*stride:j*stride+HH,k*stride:k*stride+WW]
                out_con = (inp_con*w[f,:,:,:]).sum() + b[f]
                out[i,f,j,k] = out_con

就和孙老师上课时候说得那样(谢罪中)，确实会在每个通道卷积之后加上一个偏置项参数，网上所谓的有几个卷积核就有几个偏置项b，这里的b是个多维向量，而不是一个单独的数值...

所以作业7-1 结果如下：

乘法： 3*3*3*224*224*64*10 = 867,041,280 ，加法：((8+1)*3+2)*224*224*64*10 =
931,266,560

物理介入

#689 回复于2020-01

物理介入 #688

作业7-1 修改: 参看了CNN卷积算法用循环实现的源代码 [代码] 就和孙老师上课时候说得那样(谢罪中)，确实会在每个通道卷积之后加上一个偏置项参数，网上所谓的有几个卷积核就有几个偏置项b，这里的b是个多维向量，而不是一个单独的数值... 所以作业7-1 结果如下：乘法： 3*3*3*224*224*64*10 = 867,041,280 ，加法：((8+1)*3+2)*224*224*64*10 = 931,266,560

展开

求管理员把#688楼删了，我自己已经混乱了，请以#687楼为准。

AIStudio810258

#690 回复于2020-01

作业7-1  计算卷积中一共有多少次乘法和加法操作
卷积后图片的尺寸（rgb共3个通道）为：（224+1×2-3+1）×（224+1×2-3+1）×3 = 150528
每个卷积点需要做乘法：3×3 = 9
每个卷积点需要做加法（加上b）：3×3-1+1 = 9
输入卷积核参数为10个，输出卷积核参数为64个，需要做：
乘法：150528×9×10×64 = 867041280次
加法：150528×9×10×64 = 867041280次

作业7-2
名称	w形状		w参数个数	b形状	b参数个数		输出形状
conv1	[6,3,5,5]		450		[6]	[6]		[10,6,244,244]
pool1	无		无		无	无		[10,6,122,122]	
conv2	[16,6,5,5]		2400		[16]	16		[10,16,122,122]
pool2	无		无		无	无		[10,16,61,61]
fc1	[64,50176]	3211264		[64]	64		[10, 64]
fc2	[1,64]		64		[1]	1		[10,1]
在卷积层中，输出的特征图的“层数”为该层输入的卷积核数。
卷积层输出的特征图被拉成1维（长度=层数×长×宽），作为下面全连接层的输入。
本例中的10为batch_size，所以一直保持为数据的第一维长度。

AIStudio810258

#691 回复于2020-01

vortual_skyphet

#692 回复于2020-01

作业1-2：
①银行对公贷款风险预测可以用监督学习来解决。假设是企业的负债、资金流动、司法事件等对贷款风险是有关联的。参数是负债率、资金流动、发生质押、动产抵押等。优化目标是预测是预测贷款准确率提升。
②AI工程师有前景主要是因为市场需求和国家的推进作用，将来越来越多的产业可能被人工智能替代，有人把人工智能当作了第四次工业革命的生产力

AIStudio810258

#693 回复于2020-01

AIStudio810258 #691

[图片]

当然，fc1的输出加上偏置b不改变输出特征图形状。

AIStudio810258

#694 回复于2020-01

作业7-1 计算卷积中一共有多少次乘法和加法操作
卷积后图片的尺寸（rgb共3个通道）为：（224+1×2-3+1）×（224+1×2-3+1）×3 = 150528
每个卷积点需要做乘法：3×3 = 9
每个卷积点需要做加法（加上b）：3×3-1+1 = 9
输入卷积核参数为10个，输出卷积核参数为64个，需要做：
乘法：150528×9×10×64 = 867041280次
加法：150528×9×10×64 = 867041280次

作业7-2
名称 w形状 w参数个数 b形状 b参数个数输出形状
conv1 [6,3,5,5] 450 [6] 6 [10,6,224,224]
pool1 无无无无 [10,6,112,112]
conv2 [16,6,5,5] 2400 [16] 16 [10,16,112,112]
pool2 无无无无 [10,16,56,56]
fc1 [50176,64] 3211264 [64] 64 [10, 64]
fc2 [64,1] 64 [1] 1 [10,1]
在卷积层中，输出的特征图的“层数”为该层输入的卷积核数。
卷积层输出的特征图被拉成1维（长度=层数×长×宽），作为下面全连接层的输入。
fc1输入特征图（形状[10, 50176]）与权重参数（形状[50176,64]）做矩阵乘法再加上偏置b，输出特征图（形状[10,64]）.
本例中的10为batch_size，所以一直保持为数据的第一维长度。

AIStudio810258

#695 回复于2020-01

（最终版）
作业7-1 计算卷积中一共有多少次乘法和加法操作
（我是先把第二题弄明白了，才知道的怎么做第一道题）
输入形状是[10,3,224,224]
w形状是[64,3,3,3]
b形状是[64]
输出形状是[10,64,224,224]

输出1个像素点要做乘法3×3×3 = 27次，加法(3×3-1+1)×3+(3-1)=29次，
然后再乘以像素点数10×64×224×224。
结果为：
乘法867041280，加法931266560

AIStudio810258

#696 回复于2020-01

输出1个像素点要做乘法3×3×3 = 27次，加法(3×3-1+1)×3+(3-1)=29次(算上三层加和)，
然后再乘以像素点数10×64×224×224。
结果为：
乘法867041280，加法931266560

作业7-2
名称 w形状 w参数个数 b形状 b参数个数输出形状
conv1 [6,3,5,5] 450 [6] 6 [10,6,224,224]
pool1 无无无无 [10,6,112,112]
conv2 [16,6,5,5] 2400 [16] 16 [10,16,112,112]
pool2 无无无无 [10,16,56,56]
fc1 [50176,64] 3211264 [64] 64 [10, 64]
fc2 [64,1] 64 [1] 1 [10,1]
在卷积层中，输出的特征图的“层数”为该层输入的卷积核数。
卷积层输出的特征图被拉成1维（长度=层数×长×宽），作为下面全连接层的输入。
fc1输入特征图（形状[10, 50176]）与权重参数（形状[50176,64]）
做矩阵乘法再加上偏置b，输出特征图（形状[10,64]）.
本例中的10为batch_size，所以一直保持为数据的第一维长度。

飞fig

#697 回复于2020-01

作业7-1：

(1) 输入数据形状[10, 3, 224, 224]

(2) 因为输出通道为64, 卷积核kh = kw = 3，所以卷积核形状为[64, 3, 3, 3]

(3) 步幅stride=1，填充ph = pw =1, 确定输出特征图形状：

Oh=(224+2*ph-3)/stride+1=(224+2*1-3)/1+1=224

Ow=(224+2*pw-3)/stride+1=(224+2*1-3)/1+1=224

所以输出特征图形状为[10, 64, 224, 224]

(4) 计算一个输出特征图中一个通道上的一个像素点：

乘法：3*3*3=27

加法：（3*3-1+1）* 3+2=29

(5) 总共需要的乘法: 27*10*64*224*224= 867041280

总共需要的乘法: 29*10*64*224*224+10*64= 931267200

综上：乘法867041280，加法931267200

作业7-2：

飞fig

#698 回复于2020-01

作业7-1：

(1) 输入数据形状[10, 3, 224, 224]

(2) 因为输出通道为64, 卷积核kh = kw = 3，所以卷积核形状为[64, 3, 3, 3]

(3) 步幅stride=1，填充ph = pw =1, 确定输出特征图形状：

Oh=(224+2*ph-3)/stride+1=(224+2*1-3)/1+1=224

Ow=(224+2*pw-3)/stride+1=(224+2*1-3)/1+1=224

所以输出特征图形状为[10, 64, 224, 224]

(4) 计算一个输出特征图中一个通道上的一个像素点：

乘法：3*3*3=27

加法：（3*3-1+1）* 3+2=29

(5) 总共需要的乘法: 27*10*64*224*224= 867041280

总共需要的加法: 29*10*64*224*224+10*224*224= 931768320

综上：乘法867041280，加法931768320

作业7-2：

scy

#699 回复于2020-01

作业6-1：

本次作业使用的网络结构如下：

# 定义卷积层，输出通道20，卷积核大小为5，步长为1，padding为2，使用relu激活函数
self.conv1 = Conv2D(name_scope, num_filters=20, filter_size=5, stride=1, padding=2, act='relu')
# 定义池化层，池化核为2，采用最大池化方式
self.pool1 = Pool2D(name_scope, pool_size=2, pool_stride=2, pool_type='max')
# 定义卷积层，输出通道20，卷积核大小为5，步长为1，padding为2，使用relu激活函数
self.conv2 = Conv2D(name_scope, num_filters=20, filter_size=5, stride=1, padding=2, act='relu')
# 定义池化层，池化核为2，采用最大池化方式
self.pool2 = Pool2D(name_scope, pool_size=2, pool_stride=2, pool_type='max')
# 定义全连接层，输出节点数为10，激活函数使用softmax
self.fc = FC(name_scope, size=10, act='softmax')

1.将普通神经网络模型的每层输出打印，观察内容

########## # 打印每层网络设置的超参数和输出 print network layer's superparams and output shape ##############
inputs_shape: [100, 1, 28, 28]
conv1-- kernel_size:[20, 1, 5, 5], bias_size:[20],padding:[2, 2], stride:[1, 1]
outputs1_shape: [100, 20, 28, 28]
pool1-- pool_type:max, pool_size:[2, 2], pool_stride:[2, 2]
outputs2_shape: [100, 20, 14, 14]
conv2-- kernel_size:[20, 20, 5, 5], bias_size:[20], padding:[2, 2], stride:[1, 1]
outputs3_shape: [100, 20, 14, 14]
pool2-- pool_type:max, poo2_size:[2, 2], pool_stride:[2, 2]
outputs4_shape: [100, 20, 7, 7]
fc-- weight_size:[980, 10], bias_size:[10], activation:softmax
outputs5_shape: [100, 10]

########## # 打印网络中每层输入和输出对象 print network  ##############
inputs[0][0] channel 1: name tmp_393132, dtype: VarType.FP32 shape: [28, 28] 	lod: {}
	dim: 28, 28
	layout: NCHW
	dtype: float
	data: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0117188 0.0703125 0.0703125 0.0703125 0.492188 0.53125 0.683594 0.101562 0.648438 0.996094 0.964844 0.496094 0 0 0 0 0 0 0 0 0 0 0 0 0.117188 0.140625 0.367188 0.601562 0.664062 0.988281 0.988281 0.988281 0.988281 0.988281 0.878906 0.671875 0.988281 0.945312 0.761719 0.25 0 0 0 0 0 0 0 0 0 0 0 0.191406 0.929688 0.988281 0.988281 0.988281 0.988281 0.988281 0.988281 0.988281 0.988281 0.980469 0.363281 0.320312 0.320312 0.21875 0.152344 0 0 0 0 0 0 0 0 0 0 0 0 0.0703125 0.855469 0.988281 0.988281 0.988281 0.988281 0.988281 0.773438 0.710938 0.964844 0.941406 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.3125 0.609375 0.417969 0.988281 0.988281 0.800781 0.0429688 0 0.167969 0.601562 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0546875 0.00390625 0.601562 0.988281 0.351562 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.542969 0.988281 0.742188 0.0078125 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0429688 0.742188 0.988281 0.273438 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.136719 0.941406 0.878906 0.625 0.421875 0.00390625 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.316406 0.9375 0.988281 0.988281 0.464844 0.0976562 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.175781 0.726562 0.988281 0.988281 0.585938 0.105469 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0625 0.363281 0.984375 0.988281 0.730469 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.972656 0.988281 0.972656 0.25 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.179688 0.507812 0.714844 0.988281 0.988281 0.808594 0.0078125 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.152344 0.578125 0.894531 0.988281 0.988281 0.988281 0.976562 0.710938 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.09375 0.445312 0.863281 0.988281 0.988281 0.988281 0.988281 0.785156 0.304688 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0898438 0.257812 0.832031 0.988281 0.988281 0.988281 0.988281 0.773438 0.316406 0.0078125 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.0703125 0.667969 0.855469 0.988281 0.988281 0.988281 0.988281 0.761719 0.3125 0.0351562 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.214844 0.671875 0.882812 0.988281 0.988281 0.988281 0.988281 0.953125 0.519531 0.0429688 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.53125 0.988281 0.988281 0.988281 0.828125 0.527344 0.515625 0.0625 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]

conv1[0][0] channel 1 weight:name tmp_393134, dtype: VarType.FP32 shape: [5, 5] 	lod: {}
	dim: 5, 5
	layout: NCHW
	dtype: float
	data: [-9.17257e-09 -4.96773e-06 -5.62419e-08 -1.97942e-06 -2.70538e-08 -3.56034e-08 -2.28661e-08 -7.83396e-08 -1.71912e-08 -5.29467e-09 -5.29606e-09 -2.14513e-09 3.34445e-09 -7.81205e-08 1.86642e-10 -1.15315e-08 -4.80096e-08 4.40293e-07 9.56785e-11 -3.6575e-08 -4.41442e-08 3.10341e-08 -5.68717e-08 -3.06842e-08 -2.63146e-08]

outputs1[0][0] channel 1: name tmp_393136, dtype: VarType.FP32 shape: [28, 28] 	lod: {}
	dim: 28, 28
	layout: NCHW
	dtype: float
	data: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]

pool1:
outputs2: name tmp_393138, dtype: VarType.FP32 shape: [14, 14] 	lod: {}
	dim: 14, 14
	layout: NCHW
	dtype: float
	data: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]

conv2[0][0] channel 1 weight:name tmp_393140, dtype: VarType.FP32 shape: [5, 5] 	lod: {}
	dim: 5, 5
	layout: NCHW
	dtype: float
	data: [-3.93701e-09 3.52802e-10 -5.87498e-09 -1.52612e-08 -4.67767e-05 -2.36443e-09 1.68218e-10 -5.63973e-09 -1.95236e-09 -6.64572e-09 -5.0357e-09 -5.95333e-09 -8.1403e-09 -1.48836e-09 -1.26582e-08 -8.09629e-08 -6.42737e-09 1.10149e-07 1.63707e-06 -1.96564e-08 -1.78647e-08 -4.40144e-05 -4.23559e-05 -2.81589e-09 -6.45537e-09]

outputs3[0][0] channel 1: name tmp_393142, dtype: VarType.FP32 shape: [14, 14] 	lod: {}
	dim: 14, 14
	layout: NCHW
	dtype: float
	data: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]

pool2:
outputs4[0][0] channel 1: name tmp_393144, dtype: VarType.FP32 shape: [7, 7] 	lod: {}
	dim: 7, 7
	layout: NCHW
	dtype: float
	data: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]

fc[0] unit 1:name tmp_393145, dtype: VarType.FP32 shape: [10] 	lod: {}
	dim: 10
	layout: NCHW
	dtype: float
	data: [-9.49834e-06 -1.27316e-05 1.13154e-05 -1.11097e-05 1.31936e-05 2.53457e-06 -7.67709e-06 8.2905e-07 -1.56952e-05 3.61406e-06]

outputs5[0] sample 1: name tmp_393146, dtype: VarType.FP32 shape: [10] 	lod: {}
	dim: 10
	layout: NCHW
	dtype: float
	data: [0.100166 0.100848 0.100459 0.10038 0.100013 0.0990984 0.0999307 0.100133 0.0999326 0.099041]

2.将分类准确率的指标用PLT库画图表示

使用交叉熵损失测量的训练集和测试集准确率：

3.通过分类准确率，判断以采用不同损失函数训练模型的效果优劣

采用 平方误差和交叉熵损失函数在训练集和测试集的正确率，绘制如下图所示，可见不同的损失函数适用的任务不同。
在分类任务中平方误差损失函数表现很差，交叉熵损失函数表现良好

4.作图比较：随着训练进行，模型在训练集和测试集上的Loss曲线

进行30轮训练，交叉熵损失函数在训练集和测试集的损失曲线走势相同，训练集比测试集误差损失高；
根据上图，在测试集上准确率比训练集高

5.调节正则化权重，观察4的作图曲线的变化，并分析原因

采用三个正则化因子对交叉熵损失函数进行优化，正则因子分别是[0.01,0.1,1];
从下图来看，过大的正则因子会对参数惩罚过大，导致损失基本没有减少的趋势，网络难以收敛到合适的水平

星光ld1

#700 回复于2020-01

作业7-1：

乘法(3*3^2)*(224^2)*(10*64)=867041280
加法(3*3^2+2)*(224^2)*(10*64)=931266560

作业7-2：

星光ld1

#701 回复于2020-01

作业6-1

基于2-8code改写
1. 打印普通神经网络每层

2. 准确率绘制

3.不同损失函数对比

4.训练集测试集上Loss对比

5.正则化对比

由于这边采用每个batch评估一下验证集上准确率，速度较慢，训练epoch只训练1ge，无法观测对过拟合的控制，但是仍然可以发现大的regularizer，loss会比小regularizer要高，对权重起了较大的约束作用