机器阅读理解的线上和线下差了20
收藏
有没人遇到过这情况的?dev集能F1能到77, test1结果只有不到60?
0
收藏
请登录后评论
一样,同样是这个问题,不知道为什么,希望有好心人能帮忙解答一下
一样,给的基线也是这个结果,就很离谱
提一个我的想法,应该是测试集里面有混淆数据造成的。看到测试集里面有很多重复的数据,如果你的模型恰巧对这些重复数据回答的不好,那么评价指标会跌的比较厉害。
我知道的,test1集里面有加上混淆数据有3w多条,有些是一个context对应多个重复问题,算上的话一共5W条问题,我看了下我的模型,发现对这些重复数据回答的都是很准确的,所以实在不明白为什么指标线上会跌这么高。
注意一下,有些是一个context对应一个问题的,最后test1集一共应该是有5W个question
注意一下,有些是一个context对应一个问题的,最后test1集一共应该是有5W个question
test1应该提交多少条数据啊?
我认为一共是5W条,那真正测评的只是这5W条里面的属于测试集1的2K条?
一样,我检查了预测结果后发现模型给的还是挺正常的
测试集中的部分数据和训练集、验证集存在差别,“数据集”部分有介绍,原文如下:
/*******/
3.测试集1:共2K个样本,主要包含了大部分领域内测试集和少部分鲁棒性测试集,不提供参考答案,用于参赛者在比赛平台上自助验证模型效果。为了防止针对测试集的调试,数据中将会额外加入混淆数据。
/******/
这个差距感觉像是提交数据有缺失,提交文件是否包含5W条结果呢~
可能是这个原因
明白的 test1的query一共有5W条,
这个知道的,所以排除这个原因哈哈
dev全是in-domain数据,所以性能高。测试集和开发集不是同分布的
应该就是这个原因了 ,不纠结了,继续尝试其它模型吧,感谢你的回答
我回来了,我们这里发现预测结果时nbest和max answer length两个参数会对测试集结果有很大影响,推荐和基线设置的一样,nbest 20, max answer length 40