11月千言最新评测推荐，覆盖中文对话、视频语义理解、可信AI等前沿方向

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

千言助手发布于2022-11

千言数据集是百度联合中国计算机学会、中国中文信息学会共同发起的数据共建计划，千言针对每个自然语言处理问题，均收集和整理多个开源数据集，进行统一的处理并提供统一的测评方式，帮助加速模型的研发。截至目前，千言评测任务已覆盖15个任务方向。

千言数据集官网：https://www.luge.ai

近期，千言联合天津大学、百度搜索内容技术部等开设了多个评测任务，覆盖中文对话、视频语义理解、可解释性评测、阅读理解等前沿技术方向，详情如下：

一、中文对话任务

1、知识对话评测

知识对话是指对话系统利用外部知识信息，使聊天内容更加丰富、准确，这对提升用户体验是非常重要的。为了解决静态知识的丰富性、时效性和个性化问题，我们提出了一个全新的知识对话任务——搜索信息增强的对话(SINC)。对话系统在对话的过程中动态地搜索外部知识信息，并将搜索知识用于回复生成中。

评测链接：https://aistudio.baidu.com/aistudio/competition/detail/432/0/introduction

2、对话共指消解评测

在任务型对话系统中，往往包含大量的指代现象，即使用代词代替已经出现过的词语。考虑到任务型对话的特点，我们主要关注槽值的共指消解，这将有助于对话系统更好地理解对话文本。此任务要求模型具备远距离依赖建模能力、多槽值指称识别能力以及上下文感知的共指消解能力。

评测链接：https://aistudio.baidu.com/aistudio/competition/detail/550/0/introduction

3、对话状态追踪评测

在任务型对话系统中，对话状态追踪模块负责跟踪和更新整个对话历史中提及的与任务有关的信息，其从自然语言理解模块接收对话历史中各轮次语句提及的信息，并输出当前对话状态，即对话历史中提及的(domain, slot, value)三元组的集合。

评测链接：https://aistudio.baidu.com/aistudio/competition/detail/552/0/introduction

4、自然语言理解评测

在任务型对话系统中，自然语言理解（NLU）模块主要负责从用户输入的语句中获取与任务有关的信息，例如预订出租车服务时所需要的出发地和目的地等槽位的槽值，其性能对任务型对话系统的整体表现有重大影响。在涉及多领域的场景下，NLU模块的输出一般以四元组 (intent, domain, slot, value) 的集合表示。

评测链接：https://aistudio.baidu.com/aistudio/competition/detail/554/0/introduction

5、生成式对话省略与共指消解联合建模评测

在任务型对话系统中，除了指代现象之外，省略现象也十分常见，这使得准确理解对话变得较为困难。本次评测聚焦于对话中省略和共指消解的联合建模，要求模型能够根据对话已有上下文信息正确判断并还原当前对话语句中省略和被指代的槽值。如果句子中没有省略或指代现象，则输出原句子。

评测链接：https://aistudio.baidu.com/aistudio/competition/detail/556/0/introduction

6、基于对话历史的回复生成评测

在任务型对话系统中，基于对话历史信息的回复更加自然流畅，且有助于完成任务的系统侧回复语句。此任务要求模型具备理解对话历史信息，判断对话当前进度和缺失信息，并据此生成回复的能力。

评测链接：https://aistudio.baidu.com/aistudio/competition/detail/558/0/introduction

二、视频语义理解任务

1、视频语义理解评测

视频的深度语义理解是诸多视频智能应用的基础，期望融合知识、NLP、视觉、语音等相关技术和多模态信息，为视频生成刻画主旨信息的语义标签，从而实现视频的语义理解。

评测链接：https://aistudio.baidu.com/aistudio/competition/detail/434/0/introduction

2、视频看点抽取评测

视频看点是指对视频片段内容的概括，通过短句总结概括视频中各个片段的主题。所有看点构成视频内容大纲，让用户可以直观、快速地理解视频的主要内容。本任务会给出视频、视频标题、视频字幕，要求参赛选手基于提供的信息提取出视频的所有看点，并给出所有看点的起始时间和看点摘要。

评测链接：https://aistudio.baidu.com/aistudio/competition/detail/672/0/introduction

三、可解释性评测任务

1、中文情感分析可解释性评测

情感分析可解释性评测任务旨在评估情感分析模型预测准确率的同时，评估预测的可解释性。基于给定的输入文本t，模型输出其对应的情感标签，以及预测依赖的证据。基于模型预测的情感标签，评估模型的准确率；基于模型提供的预测依赖证据，评估预测可解释性。

评测链接：https://aistudio.baidu.com/aistudio/competition/detail/443/0/introduction

四、阅读理解任务

中学语文阅读理解任务评测

该评测任务中的数据集中题目为中学语文阅读理解题目。通常是一个长文章后接着几个相应的问题。文章的平均长度为1024，这十分考验模型从长文本中提炼信息的能力，同时文章同时设计古诗文和现代文。相应的问题涉及字词的理解，段落总结，逻辑推理，情感分析以及创作背景等各个方面。

评测链接：https://aistudio.baidu.com/aistudio/competition/detail/708/0/introduction

五、知识问答任务

针对民航出行领域中信息动态更新频繁、用户出行问答需求旺盛及大量文本数据使用价值较低等问题，探索基于阅读理解技术实现从民航相关网页的文本数据中精准抽取出的问题和答案对。

1、细粒度文本级答案抽取

此任务要求模型具有细粒度的文本理解和信息抽取能力。基于目标文章的段落集合P’，提供一个用户问句Qi，要求模型从段落集合P’中找到一个或者多个连续的片段作为答案，答案可以为词（Word）、短语（Phrase）或句子（Sentence）等，问句对应的答案集合A为不同类型答案的集合。

评测链接：https://aistudio.baidu.com/aistudio/competition/detail/668/0/introduction

2、段落级答案抽取

该任务关键在于评判模型对于答案段落精准定位的能力，作为篇章级答案检索的进一步细粒度定位，并为文本级答案抽取提供候选段落集合（P’）。在给定目标文章的段落集合P中，结合用户问句Q，识别包含问句答案的段落，模型可返回与答案相关或者评分较高的N个段落（Pi, Pj, Pk）。

评测链接：https://aistudio.baidu.com/aistudio/competition/detail/666/0/introduction

3、篇章级答案检索

本任务旨在探究模型篇章级信息检索能力，定位满足用户问句的答案所在相应文章。基于民航领域相关语料集合S，结合用户问句Q，采用信息检索相关模型与方法，返回与问句Q较相关或检索模型得分较高的N篇文章（Si, Sj, Sk等）。

评测链接：https://aistudio.baidu.com/aistudio/competition/detail/670/0/introduction

现在报名上述千言评测任务并提交结果，将有机会获得千言定制精美周边礼品！

如果您想了解更多中文NLP方向任务评测榜单，请点击查看：

https://www.luge.ai/#/luge/game