来评估评估你训练的技能是否够聪明

首页版块访问AI主站注册发帖

来评估评估你训练的技能是否够聪明

精

官

tiancorn 发布于2018-08 浏览:9413 回复:14

来评估评估你训练的技能是否够聪明

快速回复

最后编辑于2021-03

在UNIT平台上配置技能意图，配置对话模板、标注对话样本完成特定场景的BOT对话模型训练后如果要把BOT应用到实际业务中还需要系统科学地对当前BOT的对话理解效果进行测试评估，进而对“是否还需要进一步优化、是否可以上线”进行判断和决策。

下面介绍一套技能对话理解测评方案，帮助大家完成测评的工作，以保障技能上线效果和用户体验。

1、对话意图词槽理解效果评估
1.1、从实际场景中随机富集评估样本集
评估样本集要求：

覆盖技能所有意图，且包含真实负例，从实际业务场景中去随机富集并标注后 再调整，比如增加随机样本中缺少的某些新功能意图的样本。
评估集中不可包含训练集中的任何样本。

评估指标：

整体Precision = 意图和词槽都识别正确的正例样本数 / 模型识别为正例的总数
整体recall = 意图和词槽都识别正确的正例样本数 / 评估样本中所有正例样本数

评估集文件格式

天气怎么样？    ASK_WEATHER
周六天气好吗？    ASK_WEATHER      user_time:周六
杭州明天是什么天气？    ASK_WEATHER     user_loc:杭州###user_time:明天
你好       SYS_OTHER

一行为一个样本，顺序依次为：query，意图，词槽。三者之间以’\t’分隔，词槽之间以’###’分隔，编码为utf-8。再次提醒，评估样本建议为真实场景下的样本，请勿凭空构造。

评估集中的每条样本都要标注意图、词槽（没有词槽的只标意图），其中正例样本是指需要识别为场景中意图的样本，例如上面评估查天气的BOT的评估样本中意图为ASK_WEATHER的都是正例样本。而对于当前bot对应场景不应该识别的对话都可以标为负例样本，同系统预置的负例意图SYS_OTHER 表示。

1.2、评估脚本，下载后可以与评估样本放在同一个目录下

链接: https://pan.baidu.com/s/1RGbLivtPghcdbXqhMwKlIA 提取码: 4dm6

该脚本需要输入四个参数。从前往后依次是：评估样本的名称，APIKey，Secret Key，技能的Skill_ID.

获取自己的 API Key / Secret Key和skill_id，具体参见下图。

2、查看评估结果，判断可上线还是需继续优化

结果如下：

使用评估结果结合业务的实际要求，综合判断技能理解效果是否可以达到上线标准。
如判断达不到上线标注可以review测评的详细数据，分析具体是哪些意图、词槽的召回和识别有问题，分析问题的类型分类，并进行有针对的优化，比如有针对性的配置对话模板、标注更多对话样本强化训练。

文档

个赞

共14条回复最后由WISE飞杰回复于2021-03

#15WISE飞杰回复于2021-03

请问调用脚本时遇到这个错误是什么原因呢："技能内部错误,错误原因[{skill_id=1075341,error=Invalid parameters. Please check the interface and query encoding !}]"}

#14wangwei8638回复于2020-08

收藏了

#13研爱飞回复于2020-08

具体说应该是，运行乱码。

#12研爱飞回复于2020-08

不会用额，求讲解脚本具体用法

#11荒墨丶迷失回复于2020-02

对#10 134******14回复

两年前的员工就做出了这么优秀的内容，给你们点赞~！

亲请勿发表一些重复的观点呢

#10134******14回复于2020-02

两年前的员工就做出了这么优秀的内容，给你们点赞~！

#9134******14回复于2020-02

很详细的内容

#8荒墨丶迷失回复于2019-12

准确率和召回率需要让大家理解一下

#7傲视皇妃灬回复于2019-12

啊，不会用，评估集怎么弄啊

#6荒墨丶迷失回复于2019-09

非常适用的脚本赞一个

#5fewrwerf回复于2019-05

我的校园卡

#4SB呵呵风在笑回复于2018-08

前排围观。

#3爱上主丽叶回复于2018-08

好东西，用的时候可以直接拿过来copy了。大赞！

#2伊茨米可回复于2018-08

硬货十足！

快速回复

小编推荐

【7.18升级】自动预标注上线、词典值管理升级

TroubleMaker源 7回复

【智能对话深度实战营】首批训练师认证名单公示

魏亚非669 38回复

语音语义一体化全新升级，一次数据交互全搞定

用户已被禁言 18回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服