想谈谈梦想啊，聊聊曾经的自己刚开始接触AI，到现状，写给自己看

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

小呀小帅哥发布于2022-01

已经大二了，大一也不算荒废，甚至我可以说是喜欢我大一的自己干的事情，我高中是讨厌编程的，以为未来的自己会走上从商的道路，不过现在想想那不叫讨厌，那个时候单纯是没有走进编程的世界，没有入门罢了，学习工具最开始总是枯燥的，那个时候我怎么说呢，做过很多吧，做过游戏设计，建模，特效剪辑，都是玩玩的，至少都接触过，至少我的高中相对于大部分同龄的，也算丰富的，探索自我的兴趣总是很重要的。大一了学PYTHON，这是我真正用心学的，之前也接触其他很多的编程语言，但是匆匆一瞥罢了，但是这些经历让我很容易有编程的基本逻辑，我不再害怕它了。后来学了爬虫，还报班的那种，花了我大几千老贵了，现在想想。但是怎么说呢，它让我明白体系学习的重要性和自主性的建立，就当旅游娱乐开支了吧，反正我除了吃喝也没啥兴趣爱好，除了陪伴我6 7年的王者荣耀。

我喜欢创造，AI啊，从神经网络开始从李宏毅的开始学，我是从机器学习知道AI的慢慢知道卷积这些概念，然后被一个很有激情的老师拉到他的实验室，更像有了一群可以一起追逐的伙伴，他们很好。我底子确实不错哈，那个老师QQ跟我说的时候我就确立了我想做的就是感情开放域对话系统，有自己说话的风格，甚至我觉得现在让我用CV的任务迁移到NLP应该是，风格迁移加上多任务学习加上感知任务加上强化学习加上开放域对话任务。真的是梦想，这个梦想好大好大。风格迁移用来控制说话是暖男还是高冷，多任务学习我希望不单单是随意回答，要有逻辑，能回答情感，也能正常聊天，感知任务也是类似理由吧，很有趣吧。甚至如果我需要可解释性，应该有图神经网络才行。好大好大的梦想。但是值得追逐吧。

谈谈至今我学了啥，就当驻足自我小小陶醉一下，总要有点成就感的，人啦，对吧，吹真的牛逼总是很快乐。最开始的VAE GAN然后一系列GAN，当初去雾的任务，收获很多很多，我那个时候自己搭建辅助网络，自己训练自己的模型，自己设计loss针对特定任务，这是我大一下的时候干的。然后暑假学了很多关于NLP的，了解了基本任务和我的梦想，越尝试我才发现这个真的很难有重重的迷雾。后来就是RL强化学习基本所有模型我看啦，思想，架构，但是没有真正融入我写的项目中过，毕竟这个确实有点难度，but我相信我可以，学了到掌握总是需要时间的思考的。虽说NLP我代码复现很烂，真的，毕竟生成任务好难，但是LSTM到transformer到BERT到唯一看的NLP论文ernie gram，看懂了，那个古诗的项目案例真不错，我很欣赏其中输入和输出分开的思想，真的。到此为止我的NLP暂时放下。然后我开始接触风格迁移，从Pixel2pixel开始，跑案例，完全看懂，不难的，毕竟我也之前B站专门看过目标检测的UNET，这个时候算我第二次真正很有收获的模型尝试，我在过去积累下，自己改架构，自己换组件，比如加上自注意力机制，真的挺有收获的，还有减少几层加几层，自己尝试，然后真正训练animegan ，看完论文，根据paddlegan提供的模型，自己慢慢试着看懂，然后搭建训练，这次很让我骄傲啊，可以说很成功了，第一次论文到代码复现训练成功，值得纪念，也让我慢慢习惯看英文论文。后来到任意风格迁移，到Stylegan2,有复现失败的，比如stylegan2，这个难度太大了，但是慢慢的对于paddle也开始熟悉了，真正慢慢的从容起来，风格迁移我还自己进行论文改良，真不错我。我还想基于改良发表论文，但是我觉得没意思，因为这样我太浮躁了，不沉淀。后来这个大二上我开始做衣服生成任务，我的效率开始提高，我对GAN也熟悉，也慢慢对于神经网络搭建有自己看法，然后也能结合着理解数学，从刚开始大一不喜欢GAN公式推导，到看懂时隔半年的积累，也慢慢有自己独立的思考，比如有逻辑的替换优化损失KL变成JS到W（推土机），类似这种演变，感谢paddle，谢谢这个平台，我得到很多很多的收获，比如知道SWIN Transformer用到语义分割的模型架构，我自己看懂然后复制到自己项目上，用在边缘检测任务上，失败了，但是我懂了，特征层的深度问题，还学会真的考虑数据的特性，因为边缘信息很少要用权重交叉熵。经验的增加，这个总是很重要，它让你思考更有逻辑，认识任务更加清晰，让浓雾减少。

这两天我看并复现SPADE，因为要做衣服生成，我打算以此为基础，进行操作，毕竟其他特征解耦的复现说实话有点难，比如Editgan论文我看了，但是复现别做梦了，哈哈哈，然后发现竟然有大佬复现过SPADE，有很多宝贵的思路经验，谢谢大佬分享，以后我也要成为大佬，嗯，大大佬，也能用自己的视角教新人，最近我在看图神经网路在CV Upernet提出的感知任务的应用，2020发表的一篇论文，给了我很大启发，祝愿我可以结合在衣服生成上，实现精细化控制，祝福我一下。

总要回顾一下自己的道路，时光的记忆，它值得。

接下来我要看看PGL的代码更加了解API，然后看那篇论文，相关的论文，然后基于SPADE改进，我认为特征其实也分高维抽象特征和低维像素级特征，我要验证尝试，感谢paddle，感谢那个喜欢教别人的高某某，他让我python进展很快，谢谢他，还有回答我问题的大哥，他让我习惯了实验，也用他的方式带我，这是一种传承吧，创新的传承。

这篇文章主要写给自己，深夜睡不着，本来想学习一下，莫名逛到论坛，随笔

全部评论(17)

三岁

#2 回复于2022-01

这就大佬嘛？？
加油加油！！！

你可以的

十进制到二进制

#3 回复于2022-01

给大佬顶顶~ 每个追梦人都值得鲜花和掌声~ 继续做自己喜欢的东西！加油

JavaRoom

#4 回复于2022-01

大佬加油

奔向未来的样子

#5 回复于2022-01

大佬加油

看你这码字的数量，膜拜。

天下事有难易乎，为之，则难者亦易矣；不为，则易者亦难矣。

共勉了。

炼丹师233

#6 回复于2022-01

加油，可以试试带着自己的创意项目去优化和参加些比赛玩玩哈哈

小呀小帅哥

#7 回复于2022-01

定期记录1，晚上收到精品项目拟审核通过的信息优化一下，明天下午应该可以拥有我的第一个精品项目。

定期记录2，最近SPADE项目我自己正在训练，做的是衣服生成，一直在尝试，现在正在训练，有点慢，才几百batch，没办法，图片预处理缩放需要太多时间，因此有点慢。我也基于衣服生成任务进行修改，也算习惯了权重初始化了。接下来明天看看效果，可以的话就放后台任务，这个任务得用至尊版，算力消耗有点心痛，毕竟我一般只用0.5的那个。

定期记录3，特征解耦还有创新点和老师小组汇报讨论了一下，我把特征解耦中的特征分为低级像素级特征和高级特征（人脸微笑），然后寒假到现在editgan,然后很感谢那个圣诞项目年龄编辑项目，让我第一次从代码认识了特征解耦

然后我需要一点点图神经网络的知识，主要是落实到我的代码之上，

然后那个最新的无穷GAN还没看完，唉，还有两篇论文压着要看，之前看了一个把attantion用在风格迁移上的论文，然后把特征分为浅层特征和高级特征，然后其实架构也没啥特别值得学习的，估计有点麻木了，那个无穷GAN竟然提供代码，还有架构很清晰提供，真好，肯定值得一看。一般敢于提供代码的就不太容易隐藏细节，这很重要。

ygq

#8 回复于2022-01

加油

李长安

#9 回复于2022-01

牛逼牛逼，加油

小呀小帅哥

#10 回复于2022-01

最近我在训练spade，然后发现这个非常不好训练，然后这边的话，我现在后台任务在跑，然后我也在反思这个任务为什么不好训练的原因，我的理解是这样的：因为我风格迁移比较熟悉，于是我就拿风格迁移举例，风格迁移，我们输入的是两张图片，一张是内容图，一张是风格图，模型的任务是把内容图的内容和风格图的风格进行一个合理的结合，对于模型来说，最后要生成图片的风格和内容其实都是已知信息，无非风格和内容分别融合在原先输入模型的风格图和内容图中。我认为模型在这里所起的作用应该是一个抽取特征并且融合的过程。但是spade 输入的是，语义分割信息，相当于内容的一个基本框架，需要模型，自己在没有先验信息，或者是先验信息很少的情况下进行大部分的补全，这是其中的一个很大的问题，就是对模型的要求很高，毕竟创造比修复困难很多。另外，再进行另外一个推理，如何去让模型去判断生成出来的是一个符合任务要求的图片，如果用GAN，那么其实这个判别压力都在于判别器上，对于风格迁移任务来说，我们需要判别器去判别合理的风格，这个风格其实相对来说比较好细化，我们可以基本进行一个颜色和纹理的比较，gram和rgb2yuv。因为内容信息判别器不需要操心，基本的主体其实已经是具备的。判别器不需要有太大的压力。但是，如何去理解一个语义生成任务里面的判别器，这个判别器需要判别语义生成出来的东西，是否是真实的，也就是他需要判别内容本身是否合理，内容主体框架也需要它指导生成器，如何去产生，或许在这里判别器的压力太大了，我们把太多的高维损失期望给了判别器，我认为这并不是一个很好的点，因为训练判别器本身判别正确我们想让它判别正确的东西，就具有很高的难度，在训练生成器的时候，判别器参数不动，让它只作为一个loss去指导，生成器生成。
因此，我在考虑，语义生成任务，输入的信息是不是太少了？能不能给主干网络增加一个类似于知识库的东西，可以让帮助他更好的去获得纹理颜色等信息，更好地去帮助初始输入语义分割进行一个创造，这个知识库我认为可以是一个辅助网络，或者是把判别器的压力减小，一个判别器变成两个判别器，或者是想办法，除了输入语义分割这个大致框架，还输入一点点纹理信息，去给主干网络减少训练压力，这就是以上我全部的思考