询问关于数据集划分的问题
收藏
图像分类问题 5类, 在训练集与测试集划分的是时候,训练集是 23000 ,测试集是2600 ,然后老师给的意见是
“进一步探讨训练集和验证集图片数目变化较大的时候是否对所提方法实验的结果有影响。”
请问 按照平常来说训练集和测试集7:3 ,可能 我的训练集和测试集 的比例有些悬殊,导致结果会稍为高一点,但是个人感觉这个是不是只需要修改数据分布,不用做具体分析把。
大佬们有没有关于这方面的文章推荐一下,还是就需要分析,有什么知识我疏忽了。
0
收藏
请登录后评论
多比较就行了,比如9:1 8:1 8:2
另外可以了解下k折交叉验证
我一般习惯8:2
另外验证的数据要确保特征分布和训练集接近,类别比例也是接近的,这样得到的准确率或者loss才真实
这个不一定,如果是数据集比较小,我一般是9:1,如果是数据集大,我会只取5千到1万这样。 可能这些只占数据集的5%不到
我觉得这个跟数据量有关,数据量小的时候7:1~9:1都见过。数据量大的话就不按比例了
7:3~9:1
据量大的话就划分一定数量的数据作为验证集,划太多的话也没有意义,毕竟目的是验证泛化性能。
原来在一些总结kaggle比赛或是训练经验的公众号文章里读到过这方面的内容。
我在PP-OCR论文中也看到,训练数据上千万,测试集1万
确实,数据量是问题,小的话最好按比例,上百万千万的话拿1W条出来测试完全足够了
还是要多比较看看的,感觉你导师是对的
主要是吧……投论文真的很看审稿人口味,准备周全点没错。
数据集小就提高比例,数据集大就可以降低比例
这种的意见就是大家怎么弄,我也怎么弄。各种论文里面是怎么划分的,你也可以怎么划分。