关于所谓的"模型复现"
收藏
发现这个社区经常将模型复现等价于把网络结构搭出来,而不管训练能不能达到类似的精度,直接从其他框架移植权重O(∩_∩)O
0
收藏
请登录后评论
官方那个模型复现交付物有要求的吧
貌似精度要达到多少多少,才能瓜分论文复现的奖金来着
不过如果是挂在aistudio上面的项目,有的可能没那么讲究
网络复现出来就可以加精品了,剩下的要靠众人拾柴……
一层一层弄精度对齐是个力气活儿啊~~
弄一遍很是锻炼身体,能长肌肉,哈哈
只是好奇,如果权重是直接转换过来的怎么会精度对不齐呢?除非超参的问题
会不会是转换过程中的问题?
有的层实现会有些区别,tf和pytorch的也不会完全一样。还有的是精度转换的损失
也许这就是直接转换不成,所以搞模型搭建式的复现的原因吧。毕竟用api重新搭建,方便一层一层的对齐输出,定位问题。
哦,那应该是比较特殊的api吧。基本的卷积、全连接、正则化行为倒是一致的。一般也都是用float32精度。除非新模型的改进比较底层
精度对齐我们一直都很重视的。精度超过的也不少。
模型复现首先得考虑是否该论文公开代码和模型参数,如果没有压根就没法精度对齐,只能从头开始训练,但是大数据集训练时间长aistudio没办法跑,这种情况下只能官方来做了
对,好多都是在imagenet上的实验,平台又挂不上,所以有代码,在小数据集上做实验也还行。起码有代码复现。总比没有强
Training and deployment are also important in the whole process.