首页 Paddle框架 帖子详情
DataSet定义里加数据增强合适吗?
收藏
快速回复
Paddle框架 问答深度学习 3213 42
DataSet定义里加数据增强合适吗?
收藏
快速回复
Paddle框架 问答深度学习 3213 42

DataSet定义里加数据增强合适吗?

感觉增强后再划分训练集、验证集是不是不妥?

0
收藏
回复
全部评论(42)
时间顺序
m
mar836924042
#2 回复于2020-12

一般就是在Dateset的__gettime__()函数里做数据增强。增强后再划分训练和验证集不妥,这样会导致验证集中有一部分是来自训练集的数据增强,而这部分更容易识别正确,会导致验证集精度偏高。所以还是先划分再做数据增强。

0
回复
AIStudio810259
#3 回复于2020-12
一般就是在Dateset的__gettime__()函数里做数据增强。增强后再划分训练和验证集不妥,这样会导致验证集中有一部分是来自训练集的数据增强,而这部分更容易识别正确,会导致验证集精度偏高。所以还是先划分再做数据增强。
展开

嘿嘿嘿,额也是这么想的。划分了再增强,增强的搞到训练集里去。

0
回复
thinc
#4 回复于2020-12

我觉得单独拿出来好一点,各个模块分工具体。DataSet里面定义看起来代码更加“模块化”,实际调试起来会比较麻烦

0
回复
AIStudio810259
#5 回复于2020-12
thinc #4
我觉得单独拿出来好一点,各个模块分工具体。DataSet里面定义看起来代码更加“模块化”,实际调试起来会比较麻烦

咦?我又可以发新贴了。

0
回复
thinc
#6 回复于2020-12
咦?我又可以发新贴了。

好家伙,直呼内行

0
回复
AIStudio810258
#7 回复于2020-12

合适着呢,官方套件都这么用的~~

0
回复
AIStudio810258
#8 回复于2020-12

就是一些复杂点的就得分散代码了,比如mixup这样的

0
回复
AIStudio810258
#9 回复于2020-12
一般就是在Dateset的__gettime__()函数里做数据增强。增强后再划分训练和验证集不妥,这样会导致验证集中有一部分是来自训练集的数据增强,而这部分更容易识别正确,会导致验证集精度偏高。所以还是先划分再做数据增强。
展开

这个可以在增强函数里设个开关,判断train与否

0
回复
AIStudio810258
#10 回复于2020-12
咦?我又可以发新贴了。

不亦乐乎~

0
回复
AIStudio810258
#11 回复于2020-12
thinc #6
好家伙,直呼内行

欢迎新内行~

0
回复
AIStudio810259
#12 回复于2020-12
欢迎新内行~

独乐乐不如众乐乐

0
回复
AIStudio810260
#13 回复于2020-12
一般就是在Dateset的__gettime__()函数里做数据增强。增强后再划分训练和验证集不妥,这样会导致验证集中有一部分是来自训练集的数据增强,而这部分更容易识别正确,会导致验证集精度偏高。所以还是先划分再做数据增强。
展开

原来是这样,学习了!

0
回复
AIStudio810260
#14 回复于2020-12
咦?我又可以发新贴了。

原来新贴是这么来的……

0
回复
AIStudio810258
#15 回复于2020-12
原来新贴是这么来的……

众人拾柴欢乐多~

0
回复
thinc
#16 回复于2020-12
合适着呢,官方套件都这么用的~~

GitHub上的代码结构太大了,动不动就跳转函数

0
回复
thinc
#17 回复于2020-12
一般就是在Dateset的__gettime__()函数里做数据增强。增强后再划分训练和验证集不妥,这样会导致验证集中有一部分是来自训练集的数据增强,而这部分更容易识别正确,会导致验证集精度偏高。所以还是先划分再做数据增强。
展开

不应该是 __getitem__() 吗

0
回复
m
mar836924042
#18 回复于2020-12
thinc #17
不应该是 __getitem__() 吗

哈哈哈,不小心写错了

0
回复
AIStudio810259
#19 回复于2020-12
原来新贴是这么来的……

就你懂得多

0
回复
AIStudio810259
#20 回复于2020-12
这个可以在增强函数里设个开关,判断train与否

对呀对呀

0
回复
七年期限
#21 回复于2020-12
一般就是在Dateset的__gettime__()函数里做数据增强。增强后再划分训练和验证集不妥,这样会导致验证集中有一部分是来自训练集的数据增强,而这部分更容易识别正确,会导致验证集精度偏高。所以还是先划分再做数据增强。
展开

这样呀

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户