从优化算法角度看,像layers.elementwise_max, layers.clip这些不可导的op是如何被计算导数,并参与梯度优化过程的?
收藏
从优化算法角度看,像layers.elementwise_max, layers.clip这些不可导的op是如何被计算导数,并参与梯度优化过程的?
收藏
比如下面这些代码,来自如下链接代码中的182行:https://github.com/PaddlePaddle/PARL/blob/develop/parl/algorithms/fluid/ppo.py