个人中心

【百度技术学院机器学习训练营第二期】-实验作业

Ta的回复：训练营1班+12号袁小白 2：相比较而言SGD好像很慢，原有的Adam较快，我查了资料，这里使用了调整+动量，调整能够让学习率衰减，使得开始大步走，最后精细调；而动量在一定程度上能加速靠近极点 5：VGG16代码层数高，filter数目大致呈指数递增，所以，训练时间非常长，一晚上才3batch，见没收敛就停了。 ResNet18，使用残差，filter数目较小，虽然比原始网络复杂，但是算力跟的上，acc效果非常好我看了别人的：利用paddlepaddle中的resnet网络训练人脸验证1:1 其中"input_size"，"batch_size"均改了，net那个函数，返回没有加softmax层，我参考原有网络手动加了原有网络大致acc：0.65，resNet18现在EPOCH是3，都已经0.59+，有望打败原有网络

65

【百度技术学院机器学习训练营第二期】-实验作业

Ta的回复：居然可以自己回复自己

65

【百度技术学院机器学习训练营第二期】-实验作业

Ta的回复：大佬说的很有道理，这里再说一点：BatchNorm也会使得权重的初始化不那么重要（增加系统的鲁棒性）这里我引用博客的观点： 1）BN可以使学习率增大，而不至于会震荡（优化器的技巧降低） 2）BN使得系统不那么依赖初始值（对于初始值的选用降低技巧） 3） BN一定程度上抑制过拟合（Dropout等技巧选用降低）

65

【百度技术学院机器学习训练营第二期】-实验作业

Ta的回复：参考上面大佬的话：优化算法上： Adam优化相对较快，采用了自适应学习率的相关技术，实现多变量之间学习速率差异，以及优化的过去信息依赖，相当于结合了Adagrad和Momentum算法两者的优势，对于大部分问题可以在较短的时间内获得较好的解，但是查阅资料可以发现尽管Adam有良好适应性，但是通过精细调节学习率SGD算法下，往往网络可以获得更佳的表现我准备对代码做如下优化： 1）前20轮是Adam，后面20轮采用SGD，就是采用SGD进行Fine-Tune（微调） 2）修改保存，加载模型的代码

65

【百度技术学院机器学习训练营第二期】-实验作业

Ta的回复：[代码]

65

【百度技术学院机器学习训练营第二期】-实验作业

Ta的回复：在优化器修改之后，好像fluid.io.load_params(executor=exe, dirname=model_save_dir_now)可以重新载入，原来的持久化的不能载入。所以我的处理过程是：Adam读入持久化，写参数；然后切换到SGD读入参数，写参数，完美解决问题，现在SGD正在ResNet18结构上跑（paddle我看博客说有经典高层残差网络，好像没有18，18好慢，我都准备买GPU了）

65

【百度技术学院机器学习训练营第二期】-实验作业

Ta的回复：我觉得是510，w[50,10],b[10]

65

【百度技术学院机器学习训练营第二期】-实验作业

Ta的回复：我的疑问 1）我看到别人都说，top-5的错误率，F1宏，mAP这些来说多分类问题的指标，这个和实验中的评判指标acc，以及loss中的交叉商，有什么更深入的关系么？我大致知道，交叉熵低，那么每一类相对分的越纯，各指标大致上也是正相关的好；但是如果我系统用于召回，我最关心的是召回率，那么要改loss么？

65