在UNIT平台上配置技能意图,配置对话模板、标注对话样本完成特定场景的BOT对话模型训练后 如果要把BOT应用到实际业务中还需要系统科学地对当前BOT的对话理解效果进行测试评估,进而对“是否还需要进一步优化、是否可以上线”进行判断和决策。
下面介绍一套技能对话理解测评方案,帮助大家完成测评的工作,以保障技能上线效果和用户体验。
1、对话意图词槽理解效果评估
1.1、从实际场景中随机富集评估样本集
评估样本集要求:
覆盖技能所有意图,且包含真实负例,从实际业务场景中去随机富集并标注后 再调整,比如增加随机样本中缺少的某些新功能意图的样本。
评估集中不可包含训练集中的任何样本。
评估指标:
整体Precision = 意图和词槽都识别正确的正例样本数 / 模型识别为正例的总数
整体recall = 意图和词槽都识别正确的正例样本数 / 评估样本中所有正例样本数
评估集文件格式
天气怎么样? ASK_WEATHER
周六天气好吗? ASK_WEATHER user_time:周六
杭州明天是什么天气? ASK_WEATHER user_loc:杭州###user_time:明天
你好 SYS_OTHER
一行为一个样本,顺序依次为:query,意图,词槽。三者之间以’\t’分隔,词槽之间以’###’分隔,编码为utf-8。再次提醒,评估样本建议为真实场景下的样本,请勿凭空构造。
评估集中的每条样本都要标注意图、词槽(没有词槽的只标意图),其中正例样本是指需要识别为场景中意图的样本,例如上面评估查天气的BOT的评估样本中意图为ASK_WEATHER的都是正例样本。而对于当前bot对应场景不应该识别的对话 都可以标为负例样本,同系统预置的负例意图SYS_OTHER 表示。
1.2、评估脚本,下载后可以与评估样本放在同一个目录下
链接: https://pan.baidu.com/s/1RGbLivtPghcdbXqhMwKlIA 提取码: 4dm6
该脚本需要输入四个参数。从前往后依次是:评估样本的名称,APIKey,Secret Key,技能的Skill_ID.
获取自己的 API Key / Secret Key和skill_id,具体参见下图。
2、查看评估结果,判断可上线还是需继续优化
结果如下:
使用评估结果结合业务的实际要求,综合判断技能理解效果是否可以达到上线标准。
如判断达不到上线标注可以review测评的详细数据,分析具体是哪些意图、词槽的召回和识别有问题,分析问题的类型分类,并进行有针对的优化,比如有针对性的配置对话模板、标注更多对话样本强化训练。
请问调用脚本时遇到这个错误是什么原因呢:"技能内部错误,错误原因[{skill_id=1075341,error=Invalid parameters. Please check the interface and query encoding !}]"}
收藏了
具体说应该是,运行乱码。
不会用额,求讲解脚本具体用法
亲 请勿发表一些重复的观点呢
两年前的员工就做出了这么优秀的内容,给你们点赞~!
很详细的内容
准确率和召回率 需要让大家理解一下
啊,不会用,评估集怎么弄啊
非常适用的脚本 赞一个
我的校园卡
前排围观。
好东西,用的时候可以直接拿过来copy了。大赞!
硬货十足!