一个完美的dataset应该长什么样？

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

AIStudio810259 发布于2021-01

一个完美的dataset应该长什么样？

我认为应该有以下几点：

1.可以对train数据进行数据增强。问题是数据增强放哪一块？我想一次多重增强，比如5倍增强。

2.可以按比例随机抽取划分训练集和测试集。问题是怎么做？感觉我都是写死在里头的，每次实例化后就固定了，是不是不合适？有没有解决办法？

期待大佬们打个样！

1

收藏

回复

全部评论(49)

七年期限

#22 回复于2021-01

AIStudio810260 #20

我觉得一些封装过于厉害的dataset有个比较严重的问题，看不到数据原样。进而衍生出一个问题，比如mnist，我会分类了，那我现在有个自己的数据集，该咋用？

你指的是飞桨封装好的数据集？

0

回复

七年期限

#23 回复于2021-01

AIStudio810260 #21

我指的是那种直接连下载一步搞定的dataset……

我理解的对吗

0

回复

AIStudio810260

#24 回复于2021-01

七年期限 #23

我理解的对吗

对……

0

回复

AIStudio810260

#25 回复于2021-01

七年期限 #22

你指的是飞桨封装好的数据集？

我觉得paddlex的dataset设计就挺好的，你把数据按目录准备好，配进去就行了

0

回复

AIStudio810260

#26 回复于2021-01

AIStudio810260 #25

我觉得paddlex的dataset设计就挺好的，你把数据按目录准备好，配进去就行了

就是样例数据要另开一行命令下，其实多这一步，更方便新用户上手

0

回复

七年期限

#27 回复于2021-01

AIStudio810260 #25

我觉得paddlex的dataset设计就挺好的，你把数据按目录准备好，配进去就行了

对对对自己分配

0

回复

七年期限

#28 回复于2021-01

AIStudio810260 #25

我觉得paddlex的dataset设计就挺好的，你把数据按目录准备好，配进去就行了

不过我基本都i是用windows 的那个paddlex 好久不用了

0

回复

thinc

#29 回复于2021-01

AIStudio810260 #20

我觉得一些封装过于厉害的dataset有个比较严重的问题，看不到数据原样。进而衍生出一个问题，比如mnist，我会分类了，那我现在有个自己的数据集，该咋用？

所以，我以前有过把各种类型的数据预处理都做一个项目= =

0

回复

thinc

#30 回复于2021-01

AIStudio810260 #25

我觉得paddlex的dataset设计就挺好的，你把数据按目录准备好，配进去就行了

这种数据的目的主要还是在于方便，既可以让新手快速处理数据，又可以让一些老手测试一下非数据集部分有没有问题，一举两得啊~~

0

回复

七年期限

#31 回复于2021-01

thinc #29

所以，我以前有过把各种类型的数据预处理都做一个项目= =

这个可以

0

回复

七年期限

#32 回复于2021-01

thinc #30

这种数据的目的主要还是在于方便，既可以让新手快速处理数据，又可以让一些老手测试一下非数据集部分有没有问题，一举两得啊~~

没毛病，而且很快就能试一下了

0

回复

AIStudio810260

#33 回复于2021-01

七年期限 #28

不过我基本都i是用windows 的那个paddlex 好久不用了

Windows那个很好很强大，要是把lite部分也纳入，我感觉可以一路零代码打通……

0

回复

AIStudio810260

#34 回复于2021-01

thinc #30

这种数据的目的主要还是在于方便，既可以让新手快速处理数据，又可以让一些老手测试一下非数据集部分有没有问题，一举两得啊~~

看来大家审美还是比较一致的，哈哈哈

0

回复

七年期限

#35 回复于2021-01

AIStudio810260 #33

Windows那个很好很强大，要是把lite部分也纳入，我感觉可以一路零代码打通……

除了部署好像就是0代码

0

回复

AIStudio810260

#36 回复于2021-01

七年期限 #35

除了部署好像就是0代码

是的，很好很强大。这么说来，完美的dataset看来还需要能够简单可视化

0

回复

陈鹏烨

#37 回复于2021-01

AIStudio810260 #36

是的，很好很强大。这么说来，完美的dataset看来还需要能够简单可视化

评论区都被你占领了，O(∩_∩)O哈哈~

0

回复

七年期限

#38 回复于2021-01

AIStudio810260 #36

是的，很好很强大。这么说来，完美的dataset看来还需要能够简单可视化

是的哈哈

0

回复

七年期限

#39 回复于2021-01

会越来越完善

0

回复

AIStudio810260

#40 回复于2021-01

七年期限 #39

会越来越完善

用户好套用和一键可调用其实有点儿矛盾……

0

回复

七年期限

#41 回复于2021-01

AIStudio810260 #40

用户好套用和一键可调用其实有点儿矛盾……

是的

0

回复