为何模型去掉中间层的bias
收藏
看一些模型代码,发现好多模型都将中间层的bias停用掉了,只用最后一层(有时第一层也加上),这是为了优化么?
0
收藏
请登录后评论
一些gan模型,比较新的经典卷积模型比如densenet都是这么用的
我靠直觉推测,反正loss最后加一起更新梯度。网络也就用一两层的bias就够用了,bias偏置没有权重嵌套多少个都是线性的。是这样么?