谁有好的基于paddle的语音识别模型???做这方面的人很少吗?怎么搜不到
求大神指点迷津
的确是
语音识别模型还是很少的
在查了好多资料,也没有几个像样的模型
大佬,你做过这方面的研究吗?
看看这个文对你有帮助没
https://blog.csdn.net/chinatelecom08/article/details/82557715
这里面直接就将语谱图当成图片输入进cnn网络了,然后用字做分类标签。
传统的玩法都是用梅尔倒谱系数做变换,然后提取峰值功率点进行比对。现在有了dl就直接用语谱图干了。
以前还用动态时间规整(DTW)增强字发音长度的鲁棒性,现在有了dl,都由cnn干了
有关于CNN的成熟的语音识别的结构没
深度学习的语音识别我也没怎么玩过。现在智能音箱满天飞,那些背后的模型算不算成熟。或者开源么。还得问大佬啊。
智能音箱你可以看UNIT的视频课,其实感觉语音识别用得不是太深,主要是NLP和配规则。
嗯,这个主要是看做哪个层面的开发。如果是应用层面的开发,不但底层的语音识别(包括方言)细节不用操心,甚至nlp也有框架给做好了,其更像是前端开发。
现在语音模型开源的很少呀,太难了
数据集也很少啊
语音识别尤其是智能音箱、语音助手都是大佬们把持着呢,前景广阔。同学们研究出成果基本也都是“货卖帝王家”吧。
测试过开源的数据集和算法,实际应用效果很差,几乎一句话都不能完整识别出来,感觉数据集的原因比较大。
可能也是网络不够深
现在才知道语音识别难呀,以前年纪小不懂事
嗯,工业用的的根比赛研究用的数据集应该完全不是一回事吧。
求大神指点迷津
的确是
语音识别模型还是很少的
在查了好多资料,也没有几个像样的模型
大佬,你做过这方面的研究吗?
看看这个文对你有帮助没
https://blog.csdn.net/chinatelecom08/article/details/82557715
这里面直接就将语谱图当成图片输入进cnn网络了,然后用字做分类标签。
传统的玩法都是用梅尔倒谱系数做变换,然后提取峰值功率点进行比对。现在有了dl就直接用语谱图干了。
以前还用动态时间规整(DTW)增强字发音长度的鲁棒性,现在有了dl,都由cnn干了
有关于CNN的成熟的语音识别的结构没
深度学习的语音识别我也没怎么玩过。现在智能音箱满天飞,那些背后的模型算不算成熟。或者开源么。还得问大佬啊。
智能音箱你可以看UNIT的视频课,其实感觉语音识别用得不是太深,主要是NLP和配规则。
嗯,这个主要是看做哪个层面的开发。如果是应用层面的开发,不但底层的语音识别(包括方言)细节不用操心,甚至nlp也有框架给做好了,其更像是前端开发。
现在语音模型开源的很少呀,太难了
数据集也很少啊
语音识别尤其是智能音箱、语音助手都是大佬们把持着呢,前景广阔。同学们研究出成果基本也都是“货卖帝王家”吧。
测试过开源的数据集和算法,实际应用效果很差,几乎一句话都不能完整识别出来,感觉数据集的原因比较大。
可能也是网络不够深
现在才知道语音识别难呀,以前年纪小不懂事
嗯,工业用的的根比赛研究用的数据集应该完全不是一回事吧。