作业帖 | 百度深度学习集训营

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

DJ星尘发布于2019-12

百度深度学习集训营已经正式开营，每个阶段的作业都将有各自的奖励，欢迎大家学习~

PS：如遇帖子过期、审核不通过的情况，请先复制内容保存在word文档，然后根据提示，完成个人实名验证，刷新后重新粘贴复制的内容，即可提交~

欢迎大家报名参加~

1月9日作业：

作业9-1：在第二章中学习过如何设置学习率衰减，这里建议使用分段衰减的方式，衰减系数为0.1，根据ResNet目前的训练情况，应该在训练到多少步的时候设置衰减合适？请设置好学习率衰减方式，在眼疾识别数据集iChallenge-PM上重新训练ResNet模型。

作业9-1奖励：在作业中随机各抽取5名同学送出飞桨本+数据线+飞桨贴纸

回复帖子形式：作业9-1：XXX

抽奖作业截止时间：2020年1月13日中午12点之前

作业9-2奖励：在作业中随机各抽取5名同学送出飞桨本+数据线+飞桨贴纸

回复帖子形式：作业9-2：XXX

抽奖作业截止时间：2020年1月13日中午12点之前

1月7日作业：

作业8：如果将LeNet模型中的中间层的激活函数Sigmoid换成ReLU，在眼底筛查数据集上将会得到什么样的结果？Loss是否能收敛，ReLU和Sigmoid之间的区别是引起结果不同的原因吗？请发表你的观点

作业8奖励：在作业中随机各抽取5名同学送出飞桨本+数据线+飞桨贴纸

回复帖子形式：作业8：XXX

获奖同学：#820 thunder95、#819 你还说不想我吗、 #818 百度用户#0762194095、#817 呵赫 he、#816 星光1dl

1月2日作业

作业7-1 计算卷积中一共有多少次乘法和加法操作

输入数据形状是[10, 3, 224, 224]，卷积核kh = kw = 3，输出通道数为64，步幅stride=1，填充ph = pw =1

完成这样一个卷积，一共需要做多少次乘法和加法操作？

提示：先看输出一个像素点需要做多少次乘法和加法操作，然后再计算总共需要的操作次数

提交方式：请回复乘法和加法操作的次数，例如：乘法1000，加法1000

作业7-1奖励：抽取5人赢得飞桨定制本+数据线，截止时间2020年1月6日中午12点之前

回复帖子形式：作业7-1：XXX

作业7-2奖励：从正确答案中抽取5人获得飞桨定制本+50元京东卡，截止时间2020年1月6日中午12点之前

12月31日作业

作业6-1：

1.将普通神经网络模型的每层输出打印，观察内容
2.将分类准确率的指标用PLT库画图表示
3.通过分类准确率，判断以采用不同损失函数训练模型的效果优劣
4.作图比较：随着训练进行，模型在训练集和测试集上的Loss曲线
5.调节正则化权重，观察4的作图曲线的变化，并分析原因
作业6-1奖励：抽取5人赢得飞桨定制本+数据线，回复帖子形式：作业6-1：XXX

作业6-2：

正确运行AI Studio《百度架构师手把手教深度学习》课程里面的作业3 的极简版代码，分析训练过程中可能出现的问题或值得优化的地方，通过以下几点优化：

（1）样本：数据增强的方法

（2）假设：改进网络模型

（2）损失：尝试各种Loss

（2）优化：尝试各种优化器和学习率

目标：尽可能使模型在mnist测试集上的分类准确率最高

提交实现最高分类准确率的代码和模型，我们筛选最优结果前10名进行评奖

作业6-2奖励：飞桨定制本+50元京东卡

12月25日作业

12月23日作业

作业4-1：在AI studio上运行作业2，用深度学习完成房价预测模型

作业4-1奖励：飞桨定制本+ 《深度学习导论与应用实践》教材，选取第2、3、23、123、223、323…名同学送出奖品

作业4-2：回复下面问题，将答案回复帖子下方：

通过Python、深度学习框架，不同方法写房价预测，Python编写的模型和基于飞桨编写的模型在哪些方面存在异同？例如程序结构，编写难易度，模型的预测效果，训练的耗时等等？

回复帖子形式：作业4-2:XXX

作业4-2奖励：在12月27日（本周五）中午12点前提交的作业中，我们选出最优前五名，送出百度定制数据线+《深度学习导论与应用实践》教材

12月17日作业

完成下面两个问题，并将答案回复在帖子下面，回帖形式：作业3-1（1）XX（2）XX

作业奖励：在2019年12月20日中午12点之前提交，随机抽取5名同学进行点评，礼品是本+数据线

12月12日作业

获奖者：第12名：飞天雄者

12月10日作业
作业1-1：在AI Studio平台上https://aistudio.baidu.com/aistudio/education/group/info/888 跑通房价预测案例

作业1-1奖励：最先完成作业的前3名，以及第6名、66名、166名、266名、366名、466名、566名、666名的同学均可获得飞桨定制大礼包：飞桨帽子、飞桨数据线、飞桨定制logo笔

作业1-1的获奖者如图：

作业1-2：完成下面两个问题，并将答案发布在帖子下面
①类比牛顿第二定律的案例，在你的工作和生活中还有哪些问题可以用监督学习的框架来解决？假设和参数是什么？优化目标是什么？
②为什么说AI工程师有发展前景？怎样从经济学（市场供需）的角度做出解读？
作业1-2奖励：回复帖子且点赞top5，获得《深度学习导论与应用实践》教材+飞桨定制本

点赞Top5获奖者：1.飞天雄者 2.God_s_apple 3.177*******62 4.学痞龙 5.故乡237、qq526557820

作业截止时间2020年1月10日，再此之前完成，才有资格参加最终Mac大奖评选

报名流程：

1.加入QQ群：726887660，班主任会在QQ群里进行学习资料、答疑、奖品等活动

2.点此链接，加入课程报名并实践：https://aistudio.baidu.com/aistudio/course/introduce/888

温馨提示：课程的录播会在3个工作日内上传到AI studio《百度架构师手把手教深度学习》课程上

全部评论(953)

xlwan11

#842 回复于2020-01

作业7-1：

乘法：（（224+2-3）/1+1）*10*3*64*9=867041280次

加法：（（224+2-3）/1+1）*10*3*64*(8+1)=867041280次

作业7-2：

ExileSaber

#843 回复于2020-01

将激活函数改成relu后，准确度有了很大程度的提高，模型训练效果显著。

原因分析：由于sigmoid函数两端倒数为0，容易导致后面的隐藏层激活后反向传播值为0，起不到更新网络参数的作用

而relu激活函数就不存在这个问题，relu激活函数在大于0的部分的倒数全部为1，小于0的部分为0

sigmoid：

relu：

AIStudio810258

#844 回复于2020-01

将卷积层的Sigmoid换成ReLU能够使模型的loss下降更快，也减少了同样其他参数情况下的训练用时。因为relu激活函数解决了深层网络的梯度消散现象，使模型更快收敛，而且其只将输入大于1的神经元传入下一层，使模型集中学习重要的图像特征，并减少了运算量。

但试验得出：后面分类的全连接层还是sigmoid激活函数效果更好。

边陲

#845 回复于2020-01

作业8-1：sigmoid 换成relu，loss收敛，准确度提升，运行结果如下图

从纵坐标及曲线可以看出，sigmoid的loss下降到0.7附近不再下降，而relu则下降到0.1一下还有下降趋势，

在此项目中relu优势比sigmoid大

分析

sigmoid和relu的函数图像如下

可以看出，

sigmoid非常容易达到平缓区域，其梯度接近0，导致loss收敛缓慢。

relu在大于0的部分，梯度始终是一个常数，

AIStudio179297

#846 回复于2020-01

换成Relu激活函数以后，可以发现loss会收敛，而且收敛更快，根据这两个函数的特性可以发现，sigmoid函数只有在中间小范围内梯度较大，而在两端很大的范围内梯度几乎为0，反向传播时会出现梯度消失的现象，Relu函数则不同，在大于0时梯度一直为1，不会有梯度消失的现象。

tichen858

#847 回复于2020-01

作业8-1：

变更为relu后能够收敛，收敛速度加快。可能原因是relu计算更为简单，计算量更少。

为人名服务11i

#848 回复于2020-01

作业8：如果将LeNet模型中的中间层的激活函数Sigmoid换成ReLU，在眼底筛查数据集上将会得到什么样的结果？Loss是否能收敛，ReLU和Sigmoid之间的区别是引起结果不同的原因吗？请发表你的观点。

1. 针对眼底筛查数据集

1）若在LeNet模型中的中间层的激活函数使用Sigmoid函数，在5次epoch后，在验证集上的准确率在57.25%左右，loss几乎不再改变；在10次epoch后，在验证集上的准确率也在57.25%左右，Loss也几乎不再改变。

2）若在LeNet模型中的中间层的激活函数使用Relu函数，在5次epoch后，在验证集上的准确率在90.75%左右，loss仍在变化；在10次epoch后，在验证集上的准确率也在92.50%左右，Loss仍在改变。

具体结果如下图1-图4所示。

图1 Sigmoid函数 Epoch = 5 图2 Relu函数 Epoch = 5

图3 Sigmoid函数 Epoch = 10 图4 Relu函数 Epoch = 10

2. 分析产生二者区别的原因

在实验中，由于只改变了激活函数这一项，因此激活函数是引起结果不同的根本原因，同时，Relu函数相比于Sigmoid函数，促使结果的分类精度更高，训练收敛速度也更快，进一步分析，大体有三点原因：

1）采用sigmoid作为激活函数时，指数级别的运算，运算量大，同时，在反向传播求误差梯度时，求导涉及到除法，计算量相对较大，而采用Relu激活函数，整个过程的计算量会小很多；

2）Relu激活函数会使一部分神经元的输出为0，这样就造成了神经网络的稀疏性，并且减少了各个参数之间的相互依存关系，缓解了过拟合问题的发生，也就是大家常说的：在生物上的合理性，它是单边的，相比sigmoid激活函数，更符合生物神经元的特征；

3）对于深层的神经网络，sigmoid函数在反向传播的过程中，很容易就会出现梯度消失的情况，即在sigmoid接近饱和区时，变换太缓慢，导数趋于0，这种情况会造成信息丢失，从而无法完成深层神经网络的训练。

跌

跌路冷

#849 回复于2020-01

使用relu激活函数，Loss可以收敛。

Sigmoid函数一旦进入饱和区，则梯度变化将很小，即Loss基本不再下降

跌

跌路冷

#850 回复于2020-01

作业8：

使用relu激活函数，Loss可以收敛。

Sigmoid函数一旦进入饱和区，则梯度变化将很小，即Loss基本不再下降

lurui0001

#851 回复于2020-01

2.理论作业：
①类比牛顿第二定律的案例，在你的工作和生活中还有哪些问题可以用监督学习的框架来解决？假设和参数是什么？优化目标是什么？

答：焦耳定律中热量Q，电流I,电阻R，时间t的关系，可以使用监督。参数I,R,t，假设：Q=K*I*I*R*t，优化目标：不同t，I,R,下产生热量Q,与系数K的关系，确定K.,使得K的误差方均值最小

②为什么说AI工程师有发展前景？怎样从经济学（市场供需）的角度做出解读？

答：AI工程师从事于AI行业，这个市场并没有发展到完全成熟的阶段，技术在不断增长，需求也在培育中增长，属于行业发展周期的扩张期，AI工程师需求不断扩大，可以与行业共同走向繁荣成熟期。

yuzaihuan

#852 回复于2020-01

作业8-1：

使用Sigmoid激活函数的输出：

使用Relu激活函数的输出：

在相同的训练次数和网络结构下，后者明显优于前者，这主要是由于Relu能有效减缓过拟合的发生的概率，同时，计算量也比Sigmoid小很多。

飞fig

#853 回复于2020-01

作业8：

LeNet模型中的中间层的激活函数为Sigmoid，用在眼底筛查数据集上进行训练，Loss并不能很好的收敛，准确率也不好。

将LeNet模型中的中间层的激活函数Sigmoid换成ReLU，在眼底筛查数据集上Loss是能够收敛，并且准确率也极大的提高。

Sigmoid可以造成梯度消失，而Relu可以很好的将梯度传播下去不会造成梯度消失。Relu的这个特性可以让模型更好的收敛。

学习使我快乐

#854 回复于2020-01

作业6-1：

（1）

（2）

（3）对比这种不同的损失函数，我们发现cross entropy准确率能快速达到很高，收敛的快；

（4）采用cross entropy损失函数，训练集以及测试集的loss和accuracy同步变化，且能很快达到收敛

（5）我们发现随着正则化权重的增大，最终收敛的准确率降低，loss变大。造成这样的原因可能是，正则化系数为0时，此时基本没有过拟合现象（如（4）种图所示），随着系数的增大，模型的泛化能力变的更强，所以收敛后的损失有所增加，准确率下降

学习使我快乐

#855 回复于2020-01

作业6-1：

（1）

（2）

（3）对比这种不同的损失函数，我们发现cross entropy准确率能快速达到很高，收敛的快；

（4）采用cross entropy损失函数，训练集以及测试集的loss和accuracy同步变化，且能很快达到收敛

wangyf童鞋

#856 回复于2020-01

作业8：

使用sigmoid函数：

使用relu函数：

对于relu函数来说，当x大于0时，其梯度恒为1，有利于反向传播的计算，不会像sigmoid函数那样出现梯度消失现象。

xlwan11

#857 回复于2020-01

作业8：

激活函数为relu时损失可以收敛，relu使用分段线性产生非线性函数，因此造成了网络的稀疏性，减少了参数的相互依存关系，能缓解了过拟合

yuzaihuan

#858 回复于2020-01

作业9-1：

下图为学习率为0.001时的训练结果

学习率为0.1时：

每10个batch Id变化时，改变学习率，步距为-0.0045

最终，得到的测试结果：

最后两个Batch，发现loss有增大的趋势，不知什么原因。

莲子心

#859 回复于2020-01

作业8

将LeNet模型中的中间层的激活函数Sigmoid换成ReLU，在眼底筛查数据集上Loss可以收敛。

ReLU 在训练过程中收敛更快

万

万国风云

#860 回复于2020-01

作业5-3：

可以发现，当学习率相同为0.01时，可以发现Adam优化算法的优化效果最佳。

当学习率不同时，Adam优化算法的训练结果如下：

可以发现当学习率为0.015时，效果最佳。

Casla711

#861 回复于2020-01

作业5-1：

adam算法，准确率0.99

use_gpu = True
place = fluid.CUDAPlace(0) if use_gpu else fluid.CPUPlace()

with fluid.dygraph.guard():
    print('start evaluation .......')
    #加载模型参数
    model = MNIST("mnist")
    model_state_dict, _ = fluid.load_dygraph('mnist')
    model.load_dict(model_state_dict)

    model.eval()
    eval_loader = load_data('eval')

    acc_set = []
    avg_loss_set = []
    for batch_id, data in enumerate(eval_loader()):
        x_data, y_data = data
        img = fluid.dygraph.to_variable(x_data)
        label = fluid.dygraph.to_variable(y_data)
        prediction, acc = model(img, label)
        loss = fluid.layers.cross_entropy(input=prediction, label=label)
        avg_loss = fluid.layers.mean(loss)
        acc_set.append(float(acc.numpy()))
        avg_loss_set.append(float(avg_loss.numpy()))
        break
    
    #计算多个batch的平均损失和准确率
    acc_val_mean = np.array(acc_set).mean()
    avg_loss_val_mean = np.array(avg_loss_set).mean()

    print('loss={}, acc={}'.format(avg_loss_val_mean, acc_val_mean))

作业5-2：常见的卷积神经网络包括：VGGnet, Googlenet, Alexnet, yolo, ssd, fastrcnn, fasterrcnn等等
作业5-3： Adam算法效果最好，lr在0.01-0.001之间最优，0.1震荡

use_gpu = True
place = fluid.CUDAPlace(0) if use_gpu else fluid.CPUPlace()

with fluid.dygraph.guard(place):
    model = MNIST("mnist")
    model.train() 
    #调用加载数据的函数
    train_loader = load_data('train')
    EPOCH_NUM = 5
    BATCH_SIZE = 100
    
    iters=[]
    l_losses=[]
    f_losses=[]
    all_losses=[]
    lrs = [0.1, 0.01, 0.001, 0.0001]
    for i in range(4):
        f_losses=[]
        for lr in lrs:
            if i == 0:
                optimizer = fluid.optimizer.AdamOptimizer(learning_rate=lr)
            elif i == 1:
                optimizer = fluid.optimizer.SGDOptimizer(learning_rate=lr)
            elif i == 2:
                optimizer = fluid.optimizer.MomentumOptimizer(learning_rate=lr, momentum = 0.1)
            else:
                optimizer = fluid.optimizer.AdagradOptimizer(learning_rate=lr)
            iters=[]
            iter=0
            l_losses=[]
            for epoch_id in range(EPOCH_NUM):
                for batch_id, data in enumerate(train_loader()):
                    #准备数据，变得更加简洁
                    image_data, label_data = data
                    image = fluid.dygraph.to_variable(image_data)
                    label = fluid.dygraph.to_variable(label_data)
                    #前向计算的过程，同时拿到模型输出值和分类准确率
                    predict, acc = model(image, label)
                    avg_acc = fluid.layers.mean(acc)
                    
                    #计算损失，取一个批次样本损失的平均值
                    loss = fluid.layers.cross_entropy(predict, label)
                    avg_loss = fluid.layers.mean(loss)
                    
                    #每训练了200批次的数据，打印下当前Loss的情况
                    if batch_id % 200 == 0:
                        print("epoch: {}, batch: {}, loss is: {}, acc is {}".format(epoch_id, batch_id, avg_loss.numpy(),avg_acc.numpy()))
                        iters.append(iter)
                        l_losses.append(avg_loss.numpy())
                        iter = iter + 200
                        
                    #后向传播，更新参数的过程
                    avg_loss.backward()
                    optimizer.minimize(avg_loss)
                    model.clear_gradients()
            f_losses.append(l_losses)
        all_losses.append(f_losses)
    # fluid.save_dygraph(model.state_dict(), 'mnist')
    
    #画出训练过程中Loss的变化曲线
titles = ['AdamOptimizer', 'SGDOptimizer', 'MomentumOptimizer', 'AdagradOptimize']
colors = ['yellow', 'green', 'blue', 'red']
markers = ['o', 'v', 'x', '+']
legends = ['lr_0.1', 'lr_0.01', 'lr_0.001', 'lr_0.0001']
for i, losses in enumerate(all_losses):
    # plt.figure()
    plt.title(titles[i], fontsize=24)
    plt.xlabel("iter", fontsize=14)
    plt.ylabel("loss", fontsize=14)
    for i, ls in enumerate(losses):
        plt.plot(iters, ls, color=colors[i], marker=markers[i]) 
    plt.legend(legends, loc='upper right')
    plt.grid()
    plt.show()