卷积神经网络表征可视化研究综述(4)
3382665wgss 发布于2022-08 浏览:2271 回复:3
0
收藏

转人工智能技术与咨询

源自:自动化学报 作者:司念文 张文林 屈丹 罗向阳 常禾雨 牛铜

(接上)

4. 可视化的应用

4.1理解与解释模型

表征可视化是理解CNN模型的一种重要途径,在图像领域应用广泛, 常见于图像分类、场景识别等任务的可视化解释. 本文第3节所述的表征可视化方法常用于对基于CNN的图像分类器的解释, 例如, AM方法用于可视化网络对输入图像的偏好, 从另一种角度揭示了网络对何种输入模式的依赖性较强. 注意力掩码能够告诉设计者网络的关注点, 这使其自身具有一定的可解释特性, 因此, 基于注意力掩码的可视化方法不仅可以验证注意力机制自身的有效性, 也常用于观察网络的训练效果.

此外, 表征可视化方法也可以应用在其他类型的数据, 例如, CAM这类方法具有较好的类别区分性, 能够用来确定与特定输出类别相关联的图像区域, 可在视觉问答模型中帮助定位与问题最相关的图像区域. LRP方法在制定反向传播规则时依靠网络的权重与激活值, 而非特征图和通道等图像领域的概念. 因此, 它不仅适应于图像识别任务的解释, 还可以用于可视化机器翻译、语音识别[94]等任务中, 为这些领域的研究者提供了另一种理解模型的途径.

4.2 诊断与优化网络

在CNN学习效果诊断和结构优化上, 基于反卷积的可视化能够观察任意层的神经元的激活, 从而分析CNN的学习率、卷积核尺寸及步长等重要参数的设计是否达到最优. 文献[13]使用基于反卷积的可视化方法对AlexNet内部激活进行分析与改进, 进而提出了ZFNet, 获得了2013年ImageNet数据集图像分类任务冠军. 这种基于表征可视化的针对性分析和诊断方式, 很大程度上避免了盲目的参数调优. 文献[95]利用基于梯度的可视化方法指导单像素的对抗性扰动和对抗性分析, 帮助模型进行对抗性学习. 文献[88]则使用显著性方法检测对抗样本, 避免模型受到对抗攻击. 文献[72]使用Grad-CAM产生的类激活图来观察网络中间层表征, 分析对比不同结构设计对模型训练效果的影响. 此外, CAM这类方法还可用于提供自注意力, 优化CNN的结构设计. 例如, 文献[73]和文献[77]使用Grad-CAM生成自注意力的掩码作为图像蒙版, 用于去除图像中的非重要区域, 并将处理后的图像应用于下阶段的模型训练和推理. 文献[96]将CAM方法集成到图像转换模型的自注意力模块中, 引导模型关注源域与目标域之间的判别性区域, 从而提升图像转换模型对细节的关注能力.

4.3 其他方面

除了对CNN本身的理解与诊断, 可视化方法在其他任务上也有不断拓展与延伸, 例如CAM和Grad-CAM方法在弱监督目标定位任务上取得了非常好的效果. 文献[93]进一步探索了将显著性归因方法产生的显著图作为先验, 应用于弱监督的分割任务上. 在应用领域方面, 可视化方法能够提升对推荐系统决策结果的理解[97], 以及与知识图谱的结合来实现可解释的推荐算法[98]. 对于自动驾驶[99-100]以及智能医疗[101]等领域, 由于这些领域对于决策风险的承受能力较低, 可视化方法对这些领域应用的现实落地至关重要.

5. 存在的难点及发展趋势

5.1 难点分析与趋势展望

近年来, CNN表征可视化相关研究越来越多, 研究者们提出了各种可视化方法, 极大推动了该领域的进展, 但仍存在一些难点问题有待解决, 本节对其进行了归纳, 并分析了未来可能的研究趋势.

1)对于可视化方法, 仍存在噪声、稳定性、解释能力有限等问题.

通过对多种可视化方法的实验比较发现, 多数可视化方法生成的热力图含有一定的噪声, 噪声产生的原因仍没有权威统一的解释. 同时, 面对不同图像时的可视化效果不尽相同, 有些图像可能直接导致可视化方法的失效, 而失效的原因尚不清楚, 仍有待进一步的探究. 此外, 面对复杂背景条件的图像、多目标场景、小目标图像等, 受限于模型本身在面对这些情形时的性能约束, 可视化方法的解释效果并不一定好. 未来可能的研究趋势是将可视化方法与其他解释方法的结合, 从不同侧面不同角度解释模型, 从而缓解单一可视化方法解释效果受限的问题.

2)对于可视化效果的评估, 仍欠缺标准统一的评估方法.

目前很难找到适用于大多数可视化方法的评估标准, 原因在于许多方法的目标并不相同, 也即每种方法对“可解释性”的理解并不相同, 导致各种可视化方法的解释结果差别较大. 同时, 很多可视化方法自身同样缺乏清晰明确的数学与逻辑机理, 导致结果难以量化比较. 如果可以从“可解释性”的概念出发, 统一数个可解释性的标准, 那么对于可视化结果的评估也就有了依据. 同时, 还可以根据可视化方法产生的热力图的特点进行分类评价, 每类热力图使用与之适应的评价标准, 提升其侧重解释某方面的能力.

3)对于可视化的对象, 细粒度的识别模型难以可视化解释.

可视化方法多应用于对图像分类、目标定位及场景识别等任务的解释, 能够实现对多目标图像中语义级目标的区分. 例如,“Cat”和“Dog”虽然同属动物, 但是在语义级上属于明显不同的两种动物. 而单独对于“Cat”这一动物, 实现的不同品种猫的细粒度图像分类, 受限于分类网络自身准确性, 可视化方法很难找到用于区分目标的细节特征, 此时的解释效果非常有限, 甚至对于不同的目标可视化效果始终相同. 与人们的视觉观察及解释能力相差较远. 这一问题或许可以通过视觉解释与语言解释相结合的途径来改善解释效果. 对可视化解释难以描述的细微之处, 辅助加以自然语言描述形式的解释(比如对猫的颜色、猫耳形状的描述), 能够实现更好的解释效果.

4)对于可视化解释的完备性, 现有研究中的解释结果与预测结果无法相互印证.

理论上看, 一个完备可靠的解释可以使用户从中推理并得到被解释的预测结果, 而目前的可视化方法仍不具备这一能力, 仅能从预测结果中得到解释结果, 而无法根据解释来推断出模型的预测, 即两者之间的相互印证关系没有被建立起来. 例如, 如果可视化方法给出了错误的解释, 但这一解释恰好符合用户根据预测结果推测的预期解释, 进而使得用户相信了解释的可靠性, 这将对其形成误导. 此时, 若能根据解释结果推断预测结果, 发现推断出的预测结果和实际预测结果不相符合, 则可通过进一步分析发现其中存在的问题, 从而提升用户对可视化方法的信任.

5.2 学界近年来的关注

近年来, 众多人工智能领域顶级会议关注人工智能和深度学习可解释问题, 其中许多涉及到表征可视化方面的前沿研究, 如[102]:

1) IJCAI 2020 Tutorial on Trustworthiness of Interpretable Machine Learning;

2) CVPR 2020 Tutorial on Interpretable Machine Learning for Computer Vision;

3) ICCV 2019 Workshop on Interpretating and Explaining Visual Artificial Intelligence Models;

4) ICLR 2019 Workshop on Safe Machine Learning;

5) CVPR 2019 Workshop on Explainable AI;

6) AAAI 2019 Workshop on Network Interpretability for Deep Learning;

7) IJCAI 2018/2017 Workshop on Explainable Artificial Intelligence;

8) ICML 2018 Workshop on Human Interpretability in Machine Learning;

9) NIPS 2017 Interpretable Machine Learning Symposium.

收藏
点赞
0
个赞
共3条回复 最后由回复于2022-09
#4回复于2022-09

1111

0
#33382665wgss回复于2022-08

a1九五------lll2------2152(v)

0
#23382665wgss回复于2022-08

深度学习与神经网络 关键点 1.人工智能、深度学习的发展历程 2.深度学习框架 3.神经网络训练方法 4.卷积神经网络,卷积核、池化、通道、激活函数 5.循环神经网络,长短时记忆LSTM、门控循环单元GRU 6.参数初始化方法、损失函数Loss、过拟合 7.对抗生成网络GAN 8.迁移学习TL 9.强化学习RF 10.图神经网络GNN 一、算法和场景融合理解 二、数据理解及处理 三、技术路径设计 四、模型验证及问题排查 五、高级-模型优化的原理 六、高级-定制化思路 实操解析与训练 第一阶段: 神经网络实践 实验:神经网络 关键点: 1.掌握神经网络的基本概念 2.学会搭建简单的神经网络结构 3.理解神经网络参数 实操解析与训练 第二阶段: 深度学习三种编程思想 实验:Keras实践 关键点: 1.掌握Keras编程思想 2.采用三种不同方式编写深度神经网络 实操解析与训练 第三阶段:CNN实践 实验:图像分类 关键点: 1.使用卷积神经网络做图像分类 2.常见开源代码以及适用的问题 实验:视频人物行为识别 关键点: 1.C3D网络的构建 2.Attention机制 实操解析与训练 第四阶段: R-CNN及YOLO实践 S-实验:目标检测 关键点: 1.提名方法 2.ROI Pooling 3.SPP Net 4.RPN 5.YOLO 第五阶段: RNN实践 实验:股票预测 关键点: 1.构建RNN 2.采用Keras编程实现 第六阶段: Encoder-Decoder实践 实验:去噪分析 关键点: 1.设计去噪自编码器 实验:图像标题生成 关键点: 1.提取图像特征CNN,生成文本RNN 2.构建Encoder-Decoder结构 第七阶段: GAN实践 实验:艺术家作品生成 关键点: 1.掌握GAN的思想与原理 2.根据需求学会设计生成模型与判别模型 第八阶段: 强化学习实践 实验:游戏分析 关键点: 1.深度强化学习的原理 2.根据实际需求,设计深度强化学习模型 第九阶段: 图卷积神经网络实践 实验:社交网络分析 关键点: 1. 掌握图神经网络原理 2. 图卷积神经网络编程实现 第十阶段: Transformer实践 实验:基于Transformer的对话生成 关键点: 1.self-Attention机制 2.position

 

0
TOP
切换版块