120亿参数,文字描述生成图片,这才是牛叉的生成网络啊,看看效果:
输入:一个穿着芭蕾舞裙遛狗的萝卜宝宝
输出:
已经有大佬用paddle复现ViT了,还并入paddleclas分类套件了吧
大神吖
transformer的弟弟performer也能用于cv任务~
paddledetection来一波
已经有大佬用paddle复现ViT了,还并入paddleclas分类套件了吧
大神吖
transformer的弟弟performer也能用于cv任务~
paddledetection来一波