机器阅读理解的线上和线下差了20

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

小贤04 发布于2020-04

有没人遇到过这情况的？dev集能F1能到77， test1结果只有不到60？

全部评论(16)

郭

郭决Azaleine

#2 回复于2020-04

一样，同样是这个问题，不知道为什么，希望有好心人能帮忙解答一下

AI小强aistrong

#3 回复于2020-04

一样，给的基线也是这个结果，就很离谱

故事尾音

#4 回复于2020-04

提一个我的想法，应该是测试集里面有混淆数据造成的。看到测试集里面有很多重复的数据，如果你的模型恰巧对这些重复数据回答的不好，那么评价指标会跌的比较厉害。

小贤04

#5 回复于2020-04

故事尾音 #4

我知道的，test1集里面有加上混淆数据有3w多条，有些是一个context对应多个重复问题，算上的话一共5W条问题，我看了下我的模型，发现对这些重复数据回答的都是很准确的，所以实在不明白为什么指标线上会跌这么高。

小贤04

#6 回复于2020-04

郭决Azaleine #2

一样，同样是这个问题，不知道为什么，希望有好心人能帮忙解答一下

注意一下，有些是一个context对应一个问题的，最后test1集一共应该是有5W个question

小贤04

#7 回复于2020-04

AI小强aistrong #3

一样，给的基线也是这个结果，就很离谱

注意一下，有些是一个context对应一个问题的，最后test1集一共应该是有5W个question

Lqj

#8 回复于2020-04

test1应该提交多少条数据啊？

小贤04

#9 回复于2020-04

Lqj #8

test1应该提交多少条数据啊？

我认为一共是5W条，那真正测评的只是这5W条里面的属于测试集1的2K条？

郭

郭决Azaleine

#10 回复于2020-04

小贤04 #5

展开

一样，我检查了预测结果后发现模型给的还是挺正常的

寥落星河

#11 回复于2020-04

测试集中的部分数据和训练集、验证集存在差别，“数据集”部分有介绍，原文如下：

/*******/

3.测试集1：共2K个样本，主要包含了大部分领域内测试集和少部分鲁棒性测试集，不提供参考答案，用于参赛者在比赛平台上自助验证模型效果。为了防止针对测试集的调试，数据中将会额外加入混淆数据。

/******/

光

光风霁月dk

#12 回复于2020-04

这个差距感觉像是提交数据有缺失，提交文件是否包含5W条结果呢~

小贤04

#13 回复于2020-04

寥落星河 #11

测试集中的部分数据和训练集、验证集存在差别，“数据集”部分有介绍，原文如下： /*******/ 3.测试集1：共2K个样本，主要包含了大部分领域内测试集和少部分鲁棒性测试集，不提供参考答案，用于参赛者在比赛平台上自助验证模型效果。为了防止针对测试集的调试，数据中将会额外加入混淆数据。 /******/

展开

可能是这个原因

小贤04

#14 回复于2020-04

光风霁月dk #12

这个差距感觉像是提交数据有缺失，提交文件是否包含5W条结果呢~

明白的 test1的query一共有5W条，
这个知道的，所以排除这个原因哈哈

疯

疯狂e绵羊

#15 回复于2020-04

dev全是in-domain数据，所以性能高。测试集和开发集不是同分布的

小贤04

#16 回复于2020-04

疯狂e绵羊 #15

dev全是in-domain数据，所以性能高。测试集和开发集不是同分布的

应该就是这个原因了，不纠结了，继续尝试其它模型吧，感谢你的回答

zbytbe

#17 回复于2020-04

我回来了，我们这里发现预测结果时nbest和max answer length两个参数会对测试集结果有很大影响，推荐和基线设置的一样，nbest 20， max answer length 40