sagan的注意力层应该加在哪里?
收藏
看文章的源码,sagan的生成器和判别器都是将non local层加在了后面,为什么这样?
0
收藏
请登录后评论
判别器将注意力层加在后面可以理解,生成器难道不应该将注意力层加在前面么?
我理解cnn网络前几层提取网络特征更多受益于“平移不变性”吧,后几层提取宏观特征更受益于注意力的“全局语义的保持”吧。
大佬解惑~~
transformer用全注意力结构,那是因为每个字、每个词、每个句子、每个段落之间都有不同层面的语义联系。如果用到vision上,很难说像素之间的全局联系和图片宏观尺度的联系一样有意义吧
那么vision transformer会对所有层的注意力操作一视同仁么~~
赶快去学习吧,已经有大佬将vision transformer 搬到ai studio了~~
https://aistudio.baidu.com/aistudio/projectdetail/1469534