询问关于数据集划分的问题

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

白白加黑127 发布于2020-12

图像分类问题 5类，在训练集与测试集划分的是时候，训练集是 23000 ，测试集是2600 ，然后老师给的意见是

“进一步探讨训练集和验证集图片数目变化较大的时候是否对所提方法实验的结果有影响。”

请问按照平常来说训练集和测试集7:3 ，可能我的训练集和测试集的比例有些悬殊，导致结果会稍为高一点，但是个人感觉这个是不是只需要修改数据分布，不用做具体分析把。

大佬们有没有关于这方面的文章推荐一下，还是就需要分析，有什么知识我疏忽了。

全部评论(13)

thinc

#2 回复于2020-12

多比较就行了，比如9:1 8:1 8:2

另外可以了解下k折交叉验证

我一般习惯8:2

thinc

#3 回复于2020-12

另外验证的数据要确保特征分布和训练集接近，类别比例也是接近的，这样得到的准确率或者loss才真实

夜雨飘零1

#4 回复于2020-12

这个不一定，如果是数据集比较小，我一般是9：1，如果是数据集大，我会只取5千到1万这样。可能这些只占数据集的5%不到

AIStudio810258

#5 回复于2020-12

我觉得这个跟数据量有关，数据量小的时候7：1～9：1都见过。数据量大的话就不按比例了

AIStudio810258

#6 回复于2020-12

AIStudio810258 #5

我觉得这个跟数据量有关，数据量小的时候7：1～9：1都见过。数据量大的话就不按比例了

7：3～9：1

AIStudio810258

#7 回复于2020-12

据量大的话就划分一定数量的数据作为验证集，划太多的话也没有意义，毕竟目的是验证泛化性能。

AIStudio810258

#8 回复于2020-12

原来在一些总结kaggle比赛或是训练经验的公众号文章里读到过这方面的内容。

thinc

#9 回复于2020-12

夜雨飘零1 #4

这个不一定，如果是数据集比较小，我一般是9：1，如果是数据集大，我会只取5千到1万这样。可能这些只占数据集的5%不到

我在PP-OCR论文中也看到，训练数据上千万，测试集1万

thinc

#10 回复于2020-12

确实，数据量是问题，小的话最好按比例，上百万千万的话拿1W条出来测试完全足够了

AIStudio810260

#11 回复于2020-12

还是要多比较看看的，感觉你导师是对的

AIStudio810260

#12 回复于2020-12

主要是吧……投论文真的很看审稿人口味，准备周全点没错。

时间女神

#13 回复于2021-12

数据集小就提高比例，数据集大就可以降低比例

DeepGeGe

#14 回复于2021-12

这种的意见就是大家怎么弄，我也怎么弄。各种论文里面是怎么划分的，你也可以怎么划分。

提issue

需求/bug反馈？一键提issue告诉我们

提pr

发现bug？如果您知道修复办法，欢迎提pr直接参与建设飞桨~