一个完美的dataset应该长什么样？

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

AIStudio810259 发布于2021-01

一个完美的dataset应该长什么样？

我认为应该有以下几点：

1.可以对train数据进行数据增强。问题是数据增强放哪一块？我想一次多重增强，比如5倍增强。

2.可以按比例随机抽取划分训练集和测试集。问题是怎么做？感觉我都是写死在里头的，每次实例化后就固定了，是不是不合适？有没有解决办法？

期待大佬们打个样！

1

收藏

回复

全部评论(49)

AIStudio810258

#2 回复于2021-01

可以把数据增强处理都定义成op，然后建立op列表，再在__geiitem__里执行

0

回复

thinc

#3 回复于2021-01

我觉得完美的dataset不应该有数据增强【狗头】

0

回复

thinc

#4 回复于2021-01

应该是读完数据后写一个数据增强函数，再把加载的数据丢进去返回新的reader

0

回复

thinc

#5 回复于2021-01

这样思路清晰很多

0

回复

AIStudio810259

#6 回复于2021-01

thinc #4

应该是读完数据后写一个数据增强函数，再把加载的数据丢进去返回新的reader

reader可以解决

现在2.0淘汰reader吗？

0

回复

AIStudio810259

#7 回复于2021-01

AIStudio810258 #2

可以把数据增强处理都定义成op，然后建立op列表，再在__geiitem__里执行

反正我哭了，我觉得我玩不转

0

回复

周小鱼whoyou

#8 回复于2021-01

thinc #3

我觉得完美的dataset不应该有数据增强【狗头】

我同意，搞数据集去~~

0

回复

AIStudio810259

#9 回复于2021-01

thinc #3

我觉得完美的dataset不应该有数据增强【狗头】

我觉你说得对

0

回复

AIStudio810258

#10 回复于2021-01

thinc #3

我觉得完美的dataset不应该有数据增强【狗头】

哈哈，这是套件大佬的思路，我也是学习～

0

回复

AIStudio810258

#11 回复于2021-01

thinc #5

这样思路清晰很多

项目简单的话，这样做有道理

0

回复

AIStudio810258

#12 回复于2021-01

AIStudio810259 #6

reader可以解决现在2.0淘汰reader吗？

文档推荐用DataLoader

0

回复

何必固執丶

#13 回复于2021-01

长什么样子

0

回复

七年期限

#14 回复于2021-01

thinc #3

我觉得完美的dataset不应该有数据增强【狗头】

没有的话会不会精度会上不去

0

回复

七年期限

#15 回复于2021-01

AIStudio810259 #9

我觉你说得对

随机抽取好像可以做到吧

0

回复

thinc

#16 回复于2021-01

AIStudio810259 #6

reader可以解决现在2.0淘汰reader吗？

reader loader我都傻傻分不清

0

回复

thinc

#17 回复于2021-01

AIStudio810259 #7

反正我哭了，我觉得我玩不转

熟能生巧

0

回复

七年期限

#18 回复于2021-01

thinc #16

reader loader我都傻傻分不清

+1

0

回复

陈鹏烨

#19 回复于2021-01

厉害哦

0

回复

AIStudio810260

#20 回复于2021-01

我觉得一些封装过于厉害的dataset有个比较严重的问题，看不到数据原样。进而衍生出一个问题，比如mnist，我会分类了，那我现在有个自己的数据集，该咋用？

0

回复

AIStudio810260

#21 回复于2021-01

AIStudio810260 #20

我觉得一些封装过于厉害的dataset有个比较严重的问题，看不到数据原样。进而衍生出一个问题，比如mnist，我会分类了，那我现在有个自己的数据集，该咋用？

我指的是那种直接连下载一步搞定的dataset……

0

回复