请问语义解析任务评测标准的细节
收藏
请问计算component acc时是否考虑value的准确性?
例如:
gold: **** where 时间 >= '1989-10-10' order by **** desc limit 3
predict: **** where 时间 >= VALUE order by **** desc limit 1
如果VALUE缺失或错误,component acc怎么计算?谢谢。
0
收藏
请登录后评论
评测方法 Evaluation
各参赛系统生成的SQL query与测试集人工标注的标准SQL query进行组件精确匹配, ...
我理解缺失或错误的话,该value组件不得分吧
英文数据集spider是不做value验证的,而且如果做验证的话,还要统一格式标准,例如上述例子在question中是"1989年10月10日",在table和sql_query中是"1989-10-10"。
spider确实没有验证value,但一个完整的语义解析任务,对value的匹配和标准化处理也是个难点,直接影响执行准确率。
等看官方怎么说。