希望主办方可以复核数据
收藏
快速回复
希望主办方可以复核数据
收藏
快速回复

在处理数据的过程中,目前发现了一些问题,希望主办方可以对数据进行复核。这些问题包括但不限于

  1. 有众多数据无法在content.xlsx中找到对应的内容。例如:
    1. 无成陪伴儿童怎么办理? {'content-key': 'b8421d91262579550acfea5a214aab8f', 'correlation': 'c', 'detail': ['h1_0', 0, 'title'], 'location': [0, 2], 'detail-type': 'y-0'}
    2. 伟哥怎么过飞机安检 {'content-key': 'f1ffec3235891c1c968f963cb351be7b', 'correlation': 'c', 'detail': ['h1_0', 0, 'texts', 17, 'text'], 'location': [0, 88], 'detail-type': 'y-0'}
    3. 我可以到机场买当天无人陪伴机票吗 {'content-key': 'b8421d91262579550acfea5a214aab8f', 'correlation': 'c', 'detail': ['h1_0', 0, 'title'], 'location': [0, 2], 'detail-type': 'y-0'}
    4. 电子产品过飞机安检 {'content-key': 'f1ffec3235891c1c968f963cb351be7b', 'correlation': 'c', 'detail': ['h1_0', 0, 'texts', 17, 'text'], 'location': [0, 88], 'detail-type': 'y-0'}
    5. 螺蛳粉能过安检吗 {'content-key': 'f1ffec3235891c1c968f963cb351be7b', 'correlation': 'c', 'detail': ['h1_0', 0, 'texts', 17, 'text'], 'location': [0, 88], 'detail-type': 'y-0'}
  2. answer中混用detail_type与detail-type;
  3.  

 

1
收藏
回复
全部评论(7)
时间顺序
奈何pierre
#2 回复于2022-07

好的,问题2确实存在,会对子任务3造成影响,理论上不影响子任务1和2.

问题1 对应的问题我们会跟原始数据做对比,也会统一进行核查。

本周核查完数据会进行一次数据更新,更新完在QQ群进行通知,在数据集页面也会添加更新说明。

感谢您提的问题!

1
回复
奈何pierre
#4 回复于2022-07

数据集已经更新一版,主要涉及:
1. detail_type与detail-type混用问题:都已更改为detail-type,与数据说明一致,修改train和valid文件。
2. 根据detail找不到段落,或者根据location超范围:已更新content内容,实际涉及一个篇章,影响较小

1
回复
s
swimminginmind
#5 回复于2022-07
好的,问题2确实存在,会对子任务3造成影响,理论上不影响子任务1和2. 问题1 对应的问题我们会跟原始数据做对比,也会统一进行核查。 本周核查完数据会进行一次数据更新,更新完在QQ群进行通知,在数据集页面也会添加更新说明。 感谢您提的问题!
展开

十分感谢您的及时跟进~

0
回复
s
swimminginmind
#6 回复于2022-07
数据集已经更新一版,主要涉及: 1. detail_type与detail-type混用问题:都已更改为detail-type,与数据说明一致,修改train和valid文件。 2. 根据detail找不到段落,或者根据location超范围:已更新content内容,实际涉及一个篇章,影响较小
展开

您好,仍然十分感谢你在上次反馈时的及时回复与处理。处理过后的数据仍然存在部分问题,不知是否需要再次核对:

在 content.xlsx文件中,content-key为f1ffec3235891c1c968f963cb351be7b的这条数据,存在content与label_ content不一致的情况;
在content.xlsx文件中,content-key为9ac1cb67c0f2994babd3e95dfd73f481的这条数据,tittle仍为空;
部分数据的location值存在忽略答案中最后一个字符的情况,例如train.txt中的第一条;
此外,content.xlsx 与 所有段落列表.xlsx 应当保持数据一致性,希望同步更改。
十分希望主办方可以再次复核数据,对主办方造成的麻烦深表歉意。

0
回复
七重天池
#7 回复于2022-07

1、content-key为f1ffec3235891c1c968f963cb351be7b的这条数据,存在content与label_ content不一致的情况,目前应该就这一条数据,如果拿不准,以label_ content数据为准,下次出现这种情况及时提醒我们。

2、content-key为9ac1cb67c0f2994babd3e95dfd73f481的这条数据,tittle仍为空,这个数据不影响答案,所以当初未作过多校验,这是我们的失误,如发现这种情况,可以及时反馈,也可以加入我们qq群方便及时沟通,我们也会安排人员及时修改。

3、部分数据的location值存在忽略答案中最后一个字符的情况,这是正常情况,答案就是这么设置的,可以加入qq群,qq群对答案的样式以及location有文档说明。

4、所有段落列表.xlsx 这个文档是我们工作人员为了方便竞赛选手从content.xlsx 里面提取的,因为最近修改了content文档,没有人员重新提取,后续会安排人员重新提取,选手着急的话,可以自己自行提取,也欢迎加入qq群对我门及时提出建议。

欢迎您随时对我们比赛提出建议。

1
回复
z
zerozzl01
#8 回复于2022-08
数据集已经更新一版,主要涉及: 1. detail_type与detail-type混用问题:都已更改为detail-type,与数据说明一致,修改train和valid文件。 2. 根据detail找不到段落,或者根据location超范围:已更新content内容,实际涉及一个篇章,影响较小
展开

你好,请问最后提交的结果,训练模型的时候,是否可以使用验证集的数据的呢?

0
回复
奈何pierre
#9 回复于2022-08
你好,请问最后提交的结果,训练模型的时候,是否可以使用验证集的数据的呢?

验证集可以用来训练模型的,不使用测试集的数据训练模型就好

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户