对话式文档问答使用中的10条建议
TroubleMaker源 发布于2019-07 浏览:1085 回复:0
0
收藏
最后编辑于2019-07

最近发现很多使用“对话式文档问答”技能的开发者反应使用效果不如预期,我们汇总梳理了开发者使用中遇到问题,整理了10条建议,希望能够帮助开发者取得更好的效果。

1、命名恰当的文档名

开发者上传的文档名字应能够体现这篇文档的主要内容,尽可能避免文档名和文档内容无关的情况,同时尽量使用中文文件名,以便于我们的技术能够更好的分析理解文档。比如,建议使用的文档名:《海淀公园介绍》、《航空公司行李托运说明》,应避免使用的文档名:《test1》、《1-5》、《说明3》等。

2、选择正确的文档类型

对话式文档问答目前支持两种文档类型,一种是普通文档,一种是整理过的faq类型的文档(即问答对的形式),这两种文档有各自的上传入口,如下图所示: 在收到的反馈中会发现有些开发者朋友在上传faq类型的文档时选择了普通文档而导致效果不佳。

3、文档内容以中文为主

目前我们的技术主要支持中文文档,暂不支持英文文档。

4、建议每篇文档只包含一篇文章

我们发现有些开发者上传的一篇文档实际上包含多篇文章,建议每篇文章作为一个文档单独上传,我们支持同一技能包含多篇文档。单独上传有助于系统理解文档,也有利于开发者管理文档。

5、避免在同一个技能中上传多个领域的文档

在一个技能中最好只上传一个领域的文档,如果有多个领域的文档,建议通过创建多个技能的方式来处理。通过创建机器人,可以实现多个技能在同一个窗口对话。

6、建议去掉文档中存在的表格

目前我们还没有对上传文档中的表格进行针对性的处理,因此建议开发者朋友在使用该技术时去除文档中的表格。

7、不要将对话日志作为文档上传

对话日志作为一种特殊类型的文档,我们后续会予以支持,但是目前支持的文档类型中不包含对话日志,因此,建议开发者暂时不要将对话日志作为普通文档上传。

8、去除文档中的冗杂信息

有些开发者朋友在上传文档时不小心将一些冗余信息加入其中,比如会将页码、页眉中的内容混入到正文中,导致原本连贯的语句被冗余信息切开了,使得文档难以被机器理解。建议用户在上传文档时,只需要将正文内容上传即可。

9、设置恰当的召回及top1阈值

因为开发者上传的文档涉及多种类型和多个领域,因此我们提供的默认的召回阈值及top1阈值在开发者创建的具体技能中不一定是最优的,因此开发者可以自己调节”技能设置”里的召回阈值和top1阈值,以取得更好的效果。

10、建议多使用干预系统优化结果

系统的结果在有些时候并不是开发者想要的,这时候需要开发者对原始结果进行干预。目前我们提供了两种干预模式,一种是通过调优模式进行干预,参见下图:

另一种是通过将case配置成问答对,以上传faq类型的文档的方式进行干预。两者的区别是通过上传faq类型的文档可以进行批量的干预,但是上传后必须重新训练才能生效;而在调优模式下只能单条进行干预,还可以对干预过的结果进行删除,而且case级的干预可以迅速生效。

 

如果您在使用过程中遇到一些问题,或者您有什么建议,欢迎留言或给我们发邮件(unit-innovation@baidu.com)。

收藏
点赞
0
个赞
TOP
切换版块