根据语音识别内容的范围,语音识别可分为“封闭域识别”和“开放域识别”。目前主流的语音识别是将日常生活语音转化成文本,属于开放域语音识别,看起来应用场景非常广,但如果不与人工智能结合,其应用场景还不如封闭域语音识别广。
一、应用场景:
1、语音做题app(或小程序)
2、远程授课语音做题
例如,用语音做数学题,除了要有结果,还要有步骤,用开放域语音识别来做,基本是不可能的,但如果用只含有数学语言的封闭域(简称数学域,其他类推)语音识别来做,就会很流畅。同样,用物理域语音识别做物理题,用化学域语音识别做化学题,等等。在远程授课过程中,教师和学生都可以通过语音做题,内容即时显示在屏幕上,这不仅极大的还原了真实课堂的授课体验,而且还有真实课堂无法比拟的优势。
二、个人开发:
如果在以前,再牛的技术大神想个人开发语音做题项目,基本上是不可能的,因为语音识别需要大数据训练,单就获取这些数据,就会成为挡在个人开发者面前的大山。而现在,这座大山看起来似乎仅凭几个人的力量就可以搬动。
百度大脑推出的“语音自训练平台”(http://ai.baidu.com/tech/smartasr)
为做封闭域语音识别应用的个人开发者提供了可能。
本人尝试做物理域语音识别训练,虽然失败了(后面会说失败的可能原因),但方向是对的。
利用百度大脑“语音自训练平台”训练物理公式“ρ=m/V”的语音识别的经历:
1、通过文本转语音软件做语音文件:我用的是讯飞配音,输入文本“ρ等于m除以V”,得到符合要求的wma音频文件,命名为0001.wma,压缩成zip文件。
2、用win10自带的记事本制作标注文件:0001.wma(tab换列)ρ=m/V
3、上传:提示“部分音频文件未找到对应的标注文本……”(如图)
失败原因分析:①标注文件内容不能含有某些符号,如ρ、=、/等;②win10自带的记事本默认格式不符(没有GBK格式);③其他原因。
最有可能的原因:根据“语音自训练平台”对标注文件的编码要求为“GBK编码”,所以推测百度大脑“语音自训练平台”只能对中文进行训练,其他非中文符号(特别是一些在日常生活领域基本不会用到的符号)都不支持训练,因为训练它们看起来“毫无意义”(或者是,即使是百度这样的大平台,也没有足够的数据来训练它们)。
建议:百度大脑“语音自训练平台”不能只局限于中文领域,要开放对所有符号的训练。没有数据,也要想方设法去获取数据。
三、封闭域语音字典编辑
某学科专业人士可以从事的工作。例如:本人可以从事初中物理域语音字典的编辑,但不能做初中数学域语音字典的编辑。
四、软件设计示例
1、语音做物理填空题设计示例(如图)
说明:点击填空位语音输入答案; 提交后显示答题批改结果;
2、语音做数学计算题设计示例(如图)
说明:说出做题过程,即时显示;需要修改手指擦除;提交后显示批改结果;
3、语音做化学题设计示例(如图)
让做题变得简单了