有关注意力中softmax和sigmoid的问题
收藏
请问看到注意力机制使用softmax函数还是使用sigmoid函数?
senet使用的sigmoid,DANet,CCNet使用softmax?请问要捕获两个位置间的长距离的依赖关系是使用那个函数?
softmax函数是所有的分类概率加起来为1,那么这不是说只有几个特征位置能够增强,其他的位置信息不都被抑制了吗?,比如128*128特征,那抑制的信息太多了,不会出现问题吗?
sigmoid函数只是与自己有关,是不是就不能将两个位置的信息进行联系起来了?
其实就是想问注意力想捕获两个位置间的依赖关系,来进行图像分割,用什么?
0
收藏
请登录后评论
如果是最终打分的话肯定要用softmax,要保证分数之和是1.
softmax为主
意思是捕获一点与其他点之间的长距离依赖关系吧
我觉得softmax更合适一些
如果只是考虑两点间的关系就没区别了
就像二分类里最后用softmax还是sigmoid都一样
注意力机制如何实现