最后编辑于2021-01
很高兴告知大家,为实现对话系统高效定制,UNIT平台带来了以下功能!
- 全新上线 自动预标注服务:提供对话样本自动化标注服务,减少人工标注成本。
- 优化升级 词典值管理功能:支持在线配置归一词、同义词。
----------------------------
1、全新上线 自动预标注
为实现对话系统的高效定制,UNIT在对话训练数据的收集、标注等需要开发者亲力亲为的环节进行效率和体验的持续升级优化:
此前!平台上提供了「一键获取对话样本」,借助百度搜索的海量用户query在技能冷启动阶段解决对话数据收集难题。
现在!「自动预标注服务」将帮助开发者解决对话数据标注难题。基于对话技能的定义和训练好的模型,对待标注的对话样本进行批量自动化预标注,经开发者确认后参与训练,进一步减少标注大量样本的工作量。随着模型理解能力提升,自动标注效果也会逐步提升,以此作为对话系统定制 效果+效率 持续提升的有效举措。
了解以下几点有助于您更好的使用该功能:
- 自动预标注需要存在运行中的模型!如果没有,请先完成技能训练再使用该服务。
- 自动预标注的范围 是样本集中全部“未标注”的对话样本。“已标注”或“待确认”的样本不受影响。
- 自动预标注的结果好坏 由 预标注样本+模型效果+schema(意图、词槽、词典值) 决定。分为以下3种:
- 预标出意图:需要开发者手动确认
- 未标出意图、预标出词槽:需要开发者标注意图后确认
- 未标出意图、未标出词槽:需要开发者自行标注
- 随着模型理解效果提升,自动标注效果也会逐步提升。
2、优化升级 词典值管理功能:
支持在线新增、修改、查询 归一格式/同义格式 的词典值。通过此次升级,开发者在遇到某些query中的词槽值未识别,需要添加到对应词槽的自定义词典中并设置归一格式的词典值时(或需要给某个归一格式的词典值添加同义的词典值时),再也不用先导出整个词典文件修改后再次导入词典文件。大大提高词槽识别相关badcase的修复效率。
了解以下几点有助于您更好的使用该功能:
- 词典值 包含 归一格式的词典值 + 同义格式的词典值。
- 对于 归一格式的词典值 而言,它的归一化值为自己
- 对于 同义格式的词典值 而言,它的归一化值为开发者配置的归一格式的词典值
请登录后评论
TOP
切换版块
越来越便捷
这个好,不过这两种方法目前的效果还有待提升。
anyway,非常好的一个功能想法!
以后更方便管理,
这个值得大大的点赞
手动点赞
欢迎大家体验“预标注服务”,如果大家愿意分享使用体验!欢迎在本帖下留言,比如:
我们将十分感激,并利用大家的反馈持续优化预标注服务。
这个好