Q1: 关于评价指标的明确。
#评测内容#
本次大赛基于抽取系统从输入序列中抽取的输出记录(Record)进行评价。我们将不同范式(schema)的抽取任务统一表示成不同的多元组,并对集合去重后的结果进行评价。评测脚本自动将提交格式中的输出结果转化为多元组并进行评价,评价形式可能包括二元组与三元组。
多元组中所涉及的基本元素包括:
- 文本块抽取结果span(以字符串形式体现,不需要对应回offset)
- 表示类型的标签(例如:实体类型、事件类型)
- 表示关联关系的标签(例如:关系类型、事件论元类型)。
具体来说,评价的多元组可能包含有:
- (Span,类型标签):代表性的抽取任务包括有实体抽取任务(实体提及span,实体类型)、事件触发词识别任务(触发词span,事件类型)
- (关联关系标签,Span1,Span2):代表性的抽取任务包括有关系抽取任务(关系类型, 主体span, 客体span)、情感三元组(情感极性,目标对象span,情感表达span)
- (类型标签,关联关系标签,Span):代表性的抽取任务包括有事件论元识别(事件类型,论元角色,论元span)
请注意,本次评测主要关注于信息的抽取,而非标注。因此,对于同一段文本中出现多次的相同信息,我们将去重后进行评价。例如,对于同一段输入文本中出现有多次相同的特定实体,模型仅需要输出一个二元组即可,输出多个相同的二元组,评价脚本将自动去重。
#评测指标#
对于每个任务的正确预测(TP),正确匹配标准答案中的多元组,即视为:TP += 1。
每个任务的计分方式为:
P=|TP| / |Pred|
R=|TP| / |Gold|
F1=|2 * P * R| / (P+R)
#总体打分#
我们会给出一个总体的多元组打分以及每个领域的schema下的评测结果打分。所有打分评价指标使用微平均Micro-F1。
对于A榜而言,每个领域我们考察的抽取任务如下:
人生信息:抽取(关系类型, 主体span, 客体span)关系三元组
机构信息:抽取(关系类型, 主体span, 客体span)关系三元组
金融信息:抽取(事件类型,论元角色,论元span)事件论元三元组
体育竞赛:抽取(事件类型,论元角色,论元span)事件论元三元组
影视情感:抽取(情感极性,目标对象span,情感表达span)情感三元组
灾害意外:抽取(事件类型,论元角色,论元span)事件论元三元组
对于B榜的Seen Schema而言,每个领域我们考察的抽取任务如下:
人生信息:抽取(关系类型, 主体span, 客体span)关系三元组、抽取(实体提及span,实体类型)实体二元组
机构信息:抽取(关系类型, 主体span, 客体span)关系三元组、抽取(实体提及span,实体类型)实体二元组
金融信息:抽取(事件类型,论元角色,论元span)事件论元三元组
体育竞赛:抽取(事件类型,论元角色,论元span)事件论元三元组
影视情感:抽取(情感极性,目标对象span,情感表达span)情感三元组
灾害意外:抽取(事件类型,论元角色,论元span)事件论元三元组
对于 B 榜的 Unseen Schema 所涉及的抽取目标将在 B 榜 Schema 发布之时通知。
Q2: 关于外部数据的使用。
1. 本评测鼓励参赛者使用公开可获取的数据集和知识库数据通过半监督、远距离监督等形式构建训练数据。
2. 以往其他赛事的竞赛数据,需要报名审核而无法再次获取的数据不纳入公开可获取范畴。
3. 获奖队伍的评审材料中需提供数据来源,保证结果的有效性。
Q3: 对模型是否有要求。
A3: 无要求,抽取结果正确符合要求即可。
Q4: 提交显示错误为: 'f4204XXXX' 等实例编号
A4:
1. 请确认使用的是4.26号更新的 duuie_test_a.zip 文件,包含5801数据。
2. 请确认所有的 duuie_test_a.zip 中的实例 id 都包含在提交文件中。
请问,对于unseen schema,评测方未给训练数据,意思是模型不进一步训练直接预测unseen schema的数据吗,还是说自己构建训练数据
您好,unseen schema 附带的是样例数据,比赛不限制样例数据的使用方式和训练数据的构建方式,符合比赛的外部数据使用要求即可。
好的。非常感谢
有人能分享一下那个框架定义文件seen_schema.zip吗?