[语音技术]C#在win平台基于录音类试写打断

首页版块访问AI主站注册发帖

goJhou 发布于2017-10 浏览:19132 回复:40

[语音技术]C#在win平台基于录音类试写打断

快速回复

那在现实生活中，微信的语音功能让人铭记于心。手指按下录音，抬起发送。

试想一下，如果某些场景，我们在没有手的情况下如何让设备进行识别。

今天，我将我自己封装的语音打断的代码共享给大家，各位可以按自己的需求和场景需要修改代码细节。

原理介绍：

启动一个新线程 ←←←←←←←←←←←←←←←←←←←←

↓ ↑

开始录制（聆听） ↑

↓ ↑

当前音量低于从录音开始的平均音量多于设定阈值 ↑

↓ ↑

结束录制，生成文件并上传至百度进行语音识别（聆听）→→→

↓

语音识别返回结果

↓

将结果丢到下一个逻辑

↓

线程销毁

依照以上的逻辑，我们可以在线程不间断的对接下识别所有的句子。各位可以调整设定阈值来控制打断时机。

这里安利一下上几章节给各位讲到的windows录音类。

《[语音技术]C#在windows平台的录音类封装》 url:http://ai.baidu.com/forum/topic/show/492634

《[语音技术]C#在win平台基于录音类试写唤醒》 url:http://ai.baidu.com/forum/topic/show/492635

有要用UNIT的同学可以看一下c#调用UNIT通用API的文章

《[UNIT] C#利用API调用UNIT》 url:http://ai.baidu.com/forum/topic/show/492630

关于UNIT配置请移步至UNIT板块，有我详细的3篇配置UNIT的经验贴这里就不说了

这里我在上一章节的基础上再次封装一个类，目的是为了更好的控制识别流程，是根据我项目场景来的。我命名为了SoundListener

class SoundListener
    {
        private string time; //文件名
        private bool IsChecking;//是否在识别中
        private SoundRecord sr; //录音类
        private int VolumnCount; //音量计数器
        private readonly Asr _asrClient; //ASR SDK
        public static bool IsJarvis; //判断是否触发唤醒
        public SoundListener(Asr asr,bool isjarvis) //构造函数
        {
            time = DateTime.Now.ToString("yyyyMMddHHmmss"); //获取时间
            IsChecking = true; //开始录制信号
            sr = new SoundRecord(); //new一个录音类
            sr.SetFileName(time + ".wav"); //设置文件名
            _asrClient = asr; //创建语音识别
            IsJarvis = isjarvis; //继承唤醒信号
        }
        public Task Start() //核心方法  往后看 会再介绍
        {
            return Task.Run(() =>
            {
                sr.RecStart();
                while (IsChecking)
                {
                    if (sr.CurrentVolume < sr.AverageVolumn)
                    {
                        VolumnCount++;
                        Thread.Sleep(10);
                    }
                    else
                    {
                        VolumnCount = 0;
                    }
                    if (VolumnCount >= 100)
                    {
                        VolumnCount = 0;
                        Console.Write(".");
                        sr.RecStop();
                        //Thread.Sleep(50);
                        IsChecking = false;
                    }
                }
            });
        }
        public Task Update() //上传
        {
            return Task.Run(() => //Task线程
            {
                var data = File.ReadAllBytes(time + ".wav"); //读文件
                Dictionary d = new Dictionary();  //asr接口参数       
                //d.Add("lan", "zh"); //指定中文识别
                var result = _asrClient.Recognize(data, "pcm", 16000, d);    //开始识别            
                if (result.GetValue("err_msg").ToString() == "success.") //如果识别成功
                {
                    File.Delete(time + ".wav"); //文件删除
                    Application.Current.Dispatcher.Invoke(() => //再开一个线程
                    {
                        string res = result.GetValue("result").First.ToString(); //拿到识别结果的第一个（接口可能会返回多个结果，但机器不会判断哪个好用，好吧应该能判断，我写不来，所以我默认第一个了）
                        Console.WriteLine(result.GetValue("result").ToString()); //将识别结果打印出来 以便可以查看识别准确率
                        Regex regex = new Regex("贾维斯"); //我自己的唤醒词
                        Match match = regex.Match(res); //与识别结果去匹配
                        if (match.Success || IsJarvis) //说出了贾维斯 或 处于唤醒状态 开始一系列操作
                        {
                            if(IsJarvis) //处于贾维斯
                            {
                                if (match.Success)  说了贾维斯  进入睡眠逻辑
                                {
                                    IsJarvis = false;//退出贾维斯模式
                                    Console.Write("\t进入睡眠，等待唤醒");
                                }
                                else //没说贾维斯，开始处理识别结果
                                {
                                    if (!UNIT.UNIT.IsFinishedThisUnit) //UNIT未结束意图
                                    {
                                        Queue.Queue.WaitForIntentionsWord.Add(WordToNumber.WordToNumberClass.WordToNumber(res));//文字转数字后添加到意图澄清队列（我自己写的消息队列，比较蠢 这里是词槽澄清的逻辑 不用UNIT的可以忽略）
                                    }
                                    else //UNIT返回的意图是satisfy
                                        Queue.Queue.WaitForDealFromVoice.Add(WordToNumber.WordToNumberClass.WordToNumber(res));//文字转数字后添加到待意图识别队列（我自己写的消息队列，比较蠢 这里是UNIT意图识别完成返回执行函数的逻辑 不用UNIT的可以忽略）
                                }
                            }else //不处于唤醒状态时说了贾维斯
                            {
                                IsJarvis = true; //进入唤醒模式
                                Console.Write("\t唤醒成功");
                                Queue.Queue.WaitForDealFromVoice.Add(WordToNumber.WordToNumberClass.WordToNumber(res));//res..Replace("，", "").Replace("贾维斯", ""))  //将唤醒词去掉后 文字转数字 丢入待意图识别队列
                            }
                        }
                    });
                    return result.GetValue("result").First.ToString().Replace("，",""); //方法执行成功返回语音识别的第一句
                }
                return null; //分析失败返回空
            });
        }
    }

那这里介绍那个Start方法如下：

private int VolumnCount;

public Task Start() //声明了一个Task方法  （Task贼好玩  有兴趣可以自行了解一下）
        {
            return Task.Run(() =>  //使用Task类 开启一个新的线程
            {
                sr.RecStart(); //开始录制
                while (IsChecking)
                {
                    if (sr.CurrentVolume < sr.AverageVolumn) //当前音量小于平均音量
                    {
                        VolumnCount++;
                        Thread.Sleep(10);  //睡眠10毫秒
                    }
                    else  //如果当前音量大于平均音量了 清空检测数值重头计算
                    {
                        VolumnCount = 0;
                    }
                    if (VolumnCount >= 100) //当抵达100*10=1000毫秒时 进入打断逻辑
                    {
                        VolumnCount = 0;
                        Console.Write(".");  //输出信号，为了调试的时候让自己知道打断了
                        sr.RecStop();   //停止录制
                        IsChecking = false;  //跳出这次死循环
                    }
                }
            });
        }

以下是整个打断的调用方式：

bool IsJarvis = false;

private void Window_Loaded(object sender, RoutedEventArgs e)
{
//其他逻辑......

//语音识别线程
            Application.Current.Dispatcher.Invoke(async () => //开启一个新的线程，以防止处理过程阻塞到UI线程 因为线程内会使用到异步等待方法，所以需要加上async关键字
            {
                while (true) //陷入死循环 因为我的设定是不停的听。所以不考虑出循环
                {
                    SoundListener sl = new SoundListener(_asrClient,IsJarvis); //继承自上一次的唤醒状态新建对象
                    await sl.Start(); //调用SoundListener.Start方法，一直会阻塞到录制完成
                    Task t = new Task(async () =>//同样有异步等待的需求，加async关键字
                    {
                        string res = await sl.Update(); //上传 并等待上一次的执行结果 阻塞到识别逻辑全部结束
                        IsJarvis = SoundListener.IsJarvis; //将唤醒标识从SoundListener类中取出 然后Task自己会被辣鸡处理  因为第一次唤醒会默认执行，所以不考虑第一次的识别 之后的识别也会如期丢入UNIT识别
                    });
                    t.Start(); //Task类会一直存活，直到全部处理完成
                }
            });

//其他逻辑.......
}

主要的多线程循环识别的实现方式就是这样啦。可能会有点难喔各位可以简化我的代码（因为我实在懒的去抠主逻辑了因为我自己的代码都乱的看不下去）

其他

个赞

共40条回复最后由用户已被禁言回复于2022-04

#45荒墨丶迷失回复于2018-01

该评论已删除

这个是什么图片

#40笔墨哥回复于2017-11

对#39 goJhou回复

= =其实现在社区人太少了。人多点就好了

嗯，每天看到的都是眼熟的ID~

#39goJhou回复于2017-11

对#38 笔墨哥回复

额~其实好多回复不了的帖子，我都是默默看过去的...

= =其实现在社区人太少了。人多点就好了

#38笔墨哥回复于2017-11

对#33 goJhou回复

。。。。。，，，，不同寻常的用户我发现你能接所有人的话然后又能让所有人接不了你的话你也蛮厉害的

展开

额~其实好多回复不了的帖子，我都是默默看过去的...

#37goJhou回复于2017-11

对#36 kohakuarc回复

大佬，出现了新问题，我把你的这个C#录音类移植到ASP.NET网站上的时候，在执行sr.recstart();的时候，会出现“试图访问已卸载的Appdomain”之类的错误。此外，我想问一下，部署这种录音服务的网站服务器本身是不是也要安装录音设备呢？

展开

处理音频应该只是客户端的事情。你可以百度一下 ASP.NET与ActiveX之间是否存在什么调用问题。因为网页我也没深入了解。他是不是没有宿主。。。

#36kohakuarc回复于2017-11

对#35 goJhou回复

H5有getUserMedia API吧。好像可以调用麦克风的。你研究研究

展开

大佬，出现了新问题，我把你的这个C#录音类移植到ASP.NET网站上的时候，在执行sr.recstart();的时候，会出现“试图访问已卸载的Appdomain”之类的错误。

此外，我想问一下，部署这种录音服务的网站服务器本身是不是也要安装录音设备呢？

#35goJhou回复于2017-11

对#34 荒墨丶迷失回复

java怎么搞大哥我录音是H5的

H5有getUserMedia API吧。好像可以调用麦克风的。你研究研究

#34荒墨丶迷失回复于2017-11

java怎么搞大哥我录音是H5的

#33goJhou回复于2017-11

对#32 笔墨哥回复

嗯哼~此话怎讲？来接这句，试试看吧~

。。。。。，，，，不同寻常的用户我发现你能接所有人的话然后又能让所有人接不了你的话你也蛮厉害的

#32笔墨哥回复于2017-11

对#28 goJhou回复

我发现你的回复我都接不下去！！！！

嗯哼~此话怎讲？

来接这句，试试看吧~

#31笔墨哥回复于2017-11

对#30 goJhou回复

。。。。。。你这话我接不下去

嘿嘿，聊尴尬了

#30goJhou回复于2017-11

对#29 kohakuarc回复

码工~~

。。。。。。你这话我接不下去

#29kohakuarc回复于2017-11

对#28 goJhou回复

我发现你的回复我都接不下去！！！！

码工~~

#28goJhou回复于2017-11

对#27 笔墨哥回复

哼~搬砖工比你勤劳，一天要搬很多砖呢~~~

我发现你的回复我都接不下去！！！！

#27笔墨哥回复于2017-11

对#26 goJhou回复

大神还算不上呢搬砖工

哼~搬砖工比你勤劳，一天要搬很多砖呢~~~

#26goJhou回复于2017-11

对#24 笔墨哥回复

这就厉害啦呢~棒棒哒~

大神还算不上呢搬砖工

#25goJhou回复于2017-11

对#24 笔墨哥回复

这就厉害啦呢~棒棒哒~

哈哈哈哈哈哈哈哈哈哈。。。

#24笔墨哥回复于2017-11

对#22 goJhou回复

实时我也有想过，后来放弃了。因为现在的流识别只支持安卓和ios。 windows的语音识别，有一些上下文联想，必须整句丢过去请求。不然一个字一识别估计全是错别字

展开

这就厉害啦呢~棒棒哒~

#23笔墨哥回复于2017-11

对#21 goJhou回复

我是自己写着玩的。。。。只负责实现= = 性能啥的我都没在意

嗯，看大神切磋，就是过瘾~

#22goJhou回复于2017-11

对#20 kohakuarc回复

有东西啊，大哥。我现在可以录音了，微软也是欺负人，wpf就配置的好好的，winform连个app.config都要自己配，真是烦死了。另外想问，这响应速度你们接受么？如果要实现实时的把你的语音识别出来，有什么优化方案么？

展开

实时我也有想过，后来放弃了。

因为现在的流识别只支持安卓和ios。

windows的语音识别，有一些上下文联想，必须整句丢过去请求。

不然一个字一识别估计全是错别字

快速回复

小编推荐

小帅丶干货之图像识别在微信小程序展示

用户已被禁言 62回复

用php开发的在线OCR文字识别工具

交换机高手 15回复

C# SDK-CLI快速部署框架

goJhou 33回复

个人学习总结瞎扯蛋类博客成功建站完成

goJhou 47回复

[人脸检测] 基于C# WPF的开发尝试

goJhou 24回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服