机器阅读理解的线上和线下差了20
收藏
快速回复
语言与智能技术竞赛 问答学习资料其他 1560 16
机器阅读理解的线上和线下差了20
收藏
快速回复
语言与智能技术竞赛 问答学习资料其他 1560 16

有没人遇到过这情况的?dev集能F1能到77, test1结果只有不到60?

0
收藏
回复
全部评论(16)
时间顺序
郭决Azaleine
#2 回复于2020-04

一样,同样是这个问题,不知道为什么,希望有好心人能帮忙解答一下

0
回复
AI小强aistrong
#3 回复于2020-04

一样,给的基线也是这个结果,就很离谱

0
回复
故事尾音
#4 回复于2020-04

提一个我的想法,应该是测试集里面有混淆数据造成的。看到测试集里面有很多重复的数据,如果你的模型恰巧对这些重复数据回答的不好,那么评价指标会跌的比较厉害。

0
回复
小贤04
#5 回复于2020-04
提一个我的想法,应该是测试集里面有混淆数据造成的。看到测试集里面有很多重复的数据,如果你的模型恰巧对这些重复数据回答的不好,那么评价指标会跌的比较厉害。

我知道的,test1集里面有加上混淆数据有3w多条,有些是一个context对应多个重复问题,算上的话一共5W条问题,我看了下我的模型,发现对这些重复数据回答的都是很准确的,所以实在不明白为什么指标线上会跌这么高。

0
回复
小贤04
#6 回复于2020-04
一样,同样是这个问题,不知道为什么,希望有好心人能帮忙解答一下

注意一下,有些是一个context对应一个问题的,最后test1集一共应该是有5W个question

0
回复
小贤04
#7 回复于2020-04
一样,给的基线也是这个结果,就很离谱

注意一下,有些是一个context对应一个问题的,最后test1集一共应该是有5W个question

0
回复
Lqj
#8 回复于2020-04

test1应该提交多少条数据啊?

0
回复
小贤04
#9 回复于2020-04
Lqj #8
test1应该提交多少条数据啊?

我认为一共是5W条,那真正测评的只是这5W条里面的属于测试集1的2K条?

0
回复
郭决Azaleine
#10 回复于2020-04
我知道的,test1集里面有加上混淆数据有3w多条,有些是一个context对应多个重复问题,算上的话一共5W条问题,我看了下我的模型,发现对这些重复数据回答的都是很准确的,所以实在不明白为什么指标线上会跌这么高。
展开

一样,我检查了预测结果后发现模型给的还是挺正常的

0
回复
寥落星河
#11 回复于2020-04

测试集中的部分数据和训练集、验证集存在差别,“数据集”部分有介绍,原文如下:

/*******/

3.测试集1:共2K个样本,主要包含了大部分领域内测试集和少部分鲁棒性测试集,不提供参考答案,用于参赛者在比赛平台上自助验证模型效果。为了防止针对测试集的调试,数据中将会额外加入混淆数据。

/******/

0
回复
光风霁月dk
#12 回复于2020-04

这个差距感觉像是提交数据有缺失,提交文件是否包含5W条结果呢~

0
回复
小贤04
#13 回复于2020-04
测试集中的部分数据和训练集、验证集存在差别,“数据集”部分有介绍,原文如下: /*******/ 3.测试集1:共2K个样本,主要包含了大部分领域内测试集和少部分鲁棒性测试集,不提供参考答案,用于参赛者在比赛平台上自助验证模型效果。为了防止针对测试集的调试,数据中将会额外加入混淆数据。 /******/
展开

可能是这个原因

0
回复
小贤04
#14 回复于2020-04
这个差距感觉像是提交数据有缺失,提交文件是否包含5W条结果呢~

明白的  test1的query一共有5W条,
这个知道的,所以排除这个原因哈哈

0
回复
疯狂e绵羊
#15 回复于2020-04

dev全是in-domain数据,所以性能高。测试集和开发集不是同分布的

0
回复
小贤04
#16 回复于2020-04
dev全是in-domain数据,所以性能高。测试集和开发集不是同分布的

应该就是这个原因了 ,不纠结了,继续尝试其它模型吧,感谢你的回答

0
回复
z
zbytbe
#17 回复于2020-04

我回来了,我们这里发现预测结果时nbest和max answer length两个参数会对测试集结果有很大影响,推荐和基线设置的一样,nbest 20, max answer length 40

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户