新人刚学习一段时间,看到卷积这里有个疑问,卷积核大小是3*3,但是它的内部的值是如何确定的呢?
是随机生成的还是有什么规定?
飞桨代码底层是如何实现的呢?
求大佬告诉一下,谢谢!
一般是训练的时候进行初始化,如果有预训练模型,那么就从预训练模型中读取,如果没有就通过初始化方法进行初始化(初始化方法有很多)。
初始化之后会在每轮训练的时候进行更新,最终得到的模型也就是卷积层和其他一些层的参数。
好的,谢谢!
原来如此,受教了,感谢!
一般是根据特定的概率分布初始化,也可以说是随机的。
一般是训练的时候进行初始化,如果有预训练模型,那么就从预训练模型中读取,如果没有就通过随机化方法进行初始化(比如正态normal初始化)。
模型值初始化对收敛效果是有影响的。如果利用已训练好的模型进行迁移学习可以使用paddle-hub。
初始化为什么会对最终的收敛结果有影响呀?想不太明白
有些初始化是完全随机
有些是已经学到数据的部分特征了
在其他样布上经过训练 学到部分数据特征的 当然比完全随机的好收敛
原来如此(恍然大悟)
这个问题有论文探讨过,用normal分布是有原因的。
其实自然界中大部分的分布都是正态的
预训练模型吧,,这个基本看情况而定
好的分布能加快模型收敛
好的分布还能帮模型跳出某些局部最优
直觉分布是多种因果关系的叠加,本质应该二项分布产生的原因一样。
的确
normal分布是有原因的
怎么感觉卷积层上的数就是要训练的参数中的一部分,一开始的话我猜测是随机的或者服从正态分布??
一般是训练的时候进行初始化,如果有预训练模型,那么就从预训练模型中读取,如果没有就通过初始化方法进行初始化(初始化方法有很多)。
初始化之后会在每轮训练的时候进行更新,最终得到的模型也就是卷积层和其他一些层的参数。
好的,谢谢!
原来如此,受教了,感谢!
一般是根据特定的概率分布初始化,也可以说是随机的。
一般是训练的时候进行初始化,如果有预训练模型,那么就从预训练模型中读取,如果没有就通过随机化方法进行初始化(比如正态normal初始化)。
模型值初始化对收敛效果是有影响的。如果利用已训练好的模型进行迁移学习可以使用paddle-hub。
初始化为什么会对最终的收敛结果有影响呀?想不太明白
有些初始化是完全随机
有些是已经学到数据的部分特征了
在其他样布上经过训练 学到部分数据特征的 当然比完全随机的好收敛
原来如此(恍然大悟)
这个问题有论文探讨过,用normal分布是有原因的。
其实自然界中大部分的分布都是正态的
预训练模型吧,,这个基本看情况而定
好的分布能加快模型收敛
好的分布还能帮模型跳出某些局部最优
直觉分布是多种因果关系的叠加,本质应该二项分布产生的原因一样。
的确
normal分布是有原因的
怎么感觉卷积层上的数就是要训练的参数中的一部分,一开始的话我猜测是随机的或者服从正态分布??