WO2015085959A1

WO2015085959A1 - 语音处理方法及装置

Info

Publication number: WO2015085959A1
Application number: PCT/CN2015/072099
Authority: WO
Inventors: 刘洪�
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2013-12-09
Filing date: 2015-02-02
Publication date: 2015-06-18
Also published as: US9978386B2; US20180240468A1; CN103617797A; US10510356B2; US20160284358A1

Abstract

一种语音处理方法及装置。所述语音处理方法包括：检测所述网络中当前的语音应用场景（S1）；确定当前的语音应用场景对语音质量的要求以及对所述网络的要求（S2）；基于所确定的对语音质量的要求以及对所述网络的要求配置与所述语音应用场景对应的语音处理参数（S3）；按照所述语音处理参数对在所述语音应用场景采集的语音信号进行语音处理（S4）。

Description

语音处理方法及装置

本申请要求于2013年12月9日提交中国专利局、申请号为201310661273.6、发明名称为“一种语音处理方法，及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及信息技术领域，特别涉及一种语音处理方法及装置。

背景技术

随着互联网语音通话的普及，语音通话逐渐成为了用户日常生活中不可缺少的一部分。例如：网络聊天室、游戏过程中的聊天以及网络语音直播等均涉及网络语音通话的技术。

要实现网络语音通话，在语音的采集设备侧需要执行如下流程：

1、采集语音信号；该步骤会采集用户的语音，可以通过麦克风等设备实现语音信号的采集工作。

2、对语音信号进行数字信号处理(Digital Signal Processing，DSP)得到语音编码包；该步骤是对采集的语音信号进行的处理过程，可以有的处理包括：回声消除、噪音抑制等。

如果采集到的是多路语音信号，则在得到语音编码包之前，还可能需要进行混音处理。得到语音编码包之前还可以对语音进行其他音效方面的处理。

3、向语音接收端发送上述得到的语音编码包。

目前，对于不同的应用场景，均按照统一处理方式处理语音流，对于音质要求高的场景不能达到音质要求，对于音质要求低的场景又因占用较多的系统资源造成资源浪费的现象，因此目前采用统一处理方式处理语音流的方案并不能与目前多场景下的语音需求相适应。

发明内容

有鉴于此，本发明实施例提供了一种语音处理方法及装置，用于提供基于语音应用场景的语音处理方案，使语音处理方案与语音应用场景相适应。

一种语音处理方法，应用于网络中，包括：

检测所述网络中当前的语音应用场景；

确定当前的语音应用场景对语音质量的要求以及对所述网络的要求；

基于所确定的对语音质量的要求以及对所述网络的要求配置与所述语音应用场景对应的语音处理参数；

按照所述语音处理参数对在所述语音应用场景采集的语音信号进行语音处理。

一种语音处理装置，应用于网络中，包括：

检测单元，用于检测所述网络中当前的语音应用场景；

确定单元，用于确定当前的语音应用场景对语音质量的要求以及对所述网络的要求；

参数配置单元，用于基于所确定的对语音质量的要求以及对所述网络的要求配置与所述检测单元检测的语音应用场景对应的语音处理参数；

语音处理单元，用于按照所述参数配置单元配置的语音处理参数对在所述语音应用场景采集的语音信号进行语音处理。

从以上技术方案可以看出，针对不同语音质量要求的语音应用场景对应有不同的语音处理参数，从而确定与当前的语音应用场景相适应的语音处理参数。采用与当前的语音应用场景相适应的语音处理参数进行语音处理，则可以使语音处理的方案适应于当前语音应用场景，因此可以实现在满足音质要求的前提下节省系统资源的技术效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A为本发明实施例方法流程示意图；

图1B为本发明实施例方法流程示意图；

图2为本发明实施例方法流程示意图；

图3为本发明实施例方法流程示意图；

图4A为本发明实施例装置结构示意图；

图4B为本发明实施例装置结构示意图；

图5为本发明实施例装置结构示意图；以及

图6为本发明实施例终端结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

使用在这里，语音宽泛地指包含发声器官所发出话音的音频以及其中话音为静默的音频。例如，语音可以是通话双方所发出的话音以及话音之间所包含的静默，可以是包含话音以及话音环境中的背景声音的音频。再例如，语音可以是其中话音静默的音乐会音频。

使用在这里，语音应用场景是指其中涉及语音的场景，例如通话、聊天、表演等。

参照图1，根据本发明的一个实施例，提供了一种语音处理方法100，所述方法应用于网络中，并且包括：

步骤S1：检测所述网络中当前的语音应用场景；

步骤S2：确定当前的语音应用场景对语音质量的要求以及对所述网络的要求；

步骤S3：基于所确定的对语音质量的要求以及对所述网络的要求配置与所述语音应用场景对应的语音处理参数；以及

步骤S4：按照所述语音处理参数对在所述语音应用场景采集的语音信号进行语音处理。

根据一个实例，所述语音应用场景包括：网络游戏场景、通话聊天场景、高音质无视频网络聊天场景、高音质网络直播场景或高音质视频网络聊天场景、超高音质网络直播场景或超高音质视频网络聊天场景。

根据再一个实例，对所述网络的要求包括对网络速度的要求、对网络上下行带宽的要求、对网络流量的要求或者对网络延迟的要求。

根据各个实例，语音处理参数可以包括：语音采样率、声学回声抵消是否开启、噪声抑制是否开启、噪声衰减的强度、自动增益控制是否开启、语音活性检测是否开启、静音帧数、编码码率、编码复杂度、前向纠错是否开启、网络封包方式、网络包发送方式中的至少一项。

本发明实施例提供了一种语音处理方法，如图1B所示，包括步骤101-103。

101：检测当前的语音应用场景。

上述场景检测的过程，可以是设备执行的自动检测过程，也可以是用户对于场景模式的设置，具体获得语音应用场景的方式并不会影响到本发明实施例的实现，因此本发明实施例对此不予限定。

上述语音应用场景是指语音处理所针对的当前应用场景，因此以上语音应用场景可以是目前计算机技术领域能够应用到语音的各种应用场景，本领域技术人员可以获知的是目前能够用到语音的应用场景有很多，本发明实施例对此无法穷举，不过本发明实施例仍然就其中几种有代表性的语音应用场景进行了举例说明：可选地，上述语音应用场景包括：游戏场景(Game Talk Mode，GTM，也称为游戏场景的聊天模式)、通话聊天场景(Normal Talk Mode，NTM，也称为一般的通话聊天模式)、高音质无视频聊天场景(High Quality Mode，HQM也可以称为高音质场景下的无视频聊天模式)、高音质直播场景或高音质视频聊天场景(High Quality with Video Mode，HQVM，也称为高音质直播模式或者高音质场景下的视频聊天模式)、超高音质直播场景或超高音质视频聊天场景(Super Quality with Video Mode，SQV超高音质直播模式：超高音质场景下的视频聊天模式)中的至少一项。

对于不同的语音应用场景，对语音的质量会有所不同，例如：游戏场景对语音质量要求最低，但是要求对当前的网速占用要求较高，并且语音处理所用的CPU(Central Processor Unit，中央处理器)资源要较少。直播相关的场景则相对需要高保真，需要特殊的音效处理。高音质模式下，则需要消耗更多的CPU资源和网络流量来保证音质满足用户需求。

102：配置与上述语音应用场景对应的语音处理参数；语音质量要求越高的应用场景对应的语音处理参数的标准越高。

语音处理参数是用来决定如何进行语音处理的指导性标准参数，本领域技术人员可以获知的是对语音处理的控制可以有很多种选择，对于各种可能的选择会导致语音处理所占用的系统资源的变化本领域技术人员也是可以预知的，各种语音处理将会导致语音质量的变化也是可以预知的，基于各种应用场景对语音质量要求以及对资源消耗的要求本领域技术人员是可以确定语音处理参数是如何选择的。

在获得语音应用场景以后需要确定相应的语音处理参数，语音处理参数可以是预置在本地的，例如采用配置表的形式存放，具体实现如下：可选地，在语音处理设备中预置有各语音应用场景对应的语音处理参数，各语音应用场景对应不同的语音质量；上述配置与上述语音应用场景对应的语音处理参数包括：依据预置的各语音应用场景对应的语音处理参数，配置与上述语音应用场景对应的语音处理参数。

本领域技术人员可以获知对语音处理的控制可以有很多种选择，对于各种可能的选择会导致语音处理所占用的系统资源的变化本领域技术人员也是可以预知的，各种语音处理将会导致语音质量的变化也是可以预知的，本发明实施例还对优选用来进行控制决策的语音处理参数进行了举例说明，具体如下：可选地，上述语音处理参数包括：语音采样率、声学回声抵消是否开启、噪声抑制(Noise Suppress，NS)是否开启、噪声衰减的强度、自动增益控制(Automatic Gain Control，AGC)是否开启、语音活性检测是否开启、静音帧数、编码码率、编码复杂度、前向纠错是否开启、网络封包方式、网络包发送方式中的至少一项。

依据以上举例的语音处理参数，其参数结果的选择会导致语音处理所占用的系统资源的变化本领域技术人员也是可以预知的，各种语音处理将会导致语音质量的变化也是可以预知的，基于前述实施例所举例的各种应用场景本发明实施例还给出了优选的设置方案，具体如下：上述语音质量要求越高的应用场景对应的语音处理参数的标准越高包括：

游戏场景下语音处理参数设置为：声学回声抵消开启、噪声抑制开启、噪声衰减的强度强、自动增益控制开启、语音活性检测开启、静音帧数多、编码码率低、编码复杂度高、前向纠错开启、网络封包方式为2个语音帧封1个语音编码包、网络包发送方式为单发；

通话聊天场景下语音处理参数设置为：声学回声抵消开启、噪声抑制开启、噪声衰减的强度低、自动增益控制开启、语音活性检测开启、静音帧数低、编码码率低、编码复杂度高、前向纠错开启、网络封包方式为3个语音帧封1个语音编码包、网络包发送方式为单发；

高音质无视频聊天场景下语音处理参数设置为：声学回声抵消开启、噪声抑制开启、噪声衰减的强度低、自动增益控制开启、语音活性检测开启、静音帧数低、编码码率默认值、编码复杂度默认值、前向纠错开启、网络封包方式为1个语音帧封1个语音编码包、网络包发送方式为单发；

高音质直播场景或高音质视频聊天场景下语音处理参数设置为：声学回声抵消是关闭、噪声抑制关闭、自动增益控制关闭、语音活性检测关闭、编码码率默认值、编码复杂度默认值、前向纠错开启、网络封包方式为1个语音帧封1个语音编码包、网络包发送方式为双发；

超高音质直播场景或超高音质视频聊天场景下语音处理参数设置为：声学回声抵消关闭、噪声抑制关闭、自动增益控制关闭、语音活性检测关闭、编码码率高、编码复杂度默认值、前向纠错关闭、网络封包方式为1个语音帧封1个语音编码包、网络包发送方式为单发。

对于语音采样率的控制还可以进一步通过控制声道数来影响语音采样率，本发明实施例所称的多声道包含双声道或者更多的声道数，具体的声道数本发明实施例可以不予限制，对于各种不同的应用场景语音采样率的优选设置方案具体如下：可选地，游戏场景和通话聊天场景下语音采样率设置为：单声道低采样率，低码率；高音质无视频聊天场景、高音质直播场景或高音质视频聊天场景以及超高音质直播场景或超高音质视频聊天场景下语音采样率设置为：多声道高采样率，高码率；上述高码率为高于上述低码率的码率。

103：按照上述语音处理参数对采集的语音信号进行语音处理得到语音编码包，向语音接收端发送上述语音编码包。

以上实施例，针对不同语音质量要求的语音应用场景对应有不同的语音处理参数，从而确定与当前的语音应用场景相适应的语音处理参数。采用与当前的语音应用场景相适应的语音处理参数进行语音处理得到语音编码包，则可以使语音处理的方案适应于当前语音应用场景，因此可以实现在满足音质要求的前提下节省系统资源的技术效果。

对采集的语音信号进行语音处理得到语音编码包的过程，依据不同需要可以选用控制参数，对应不同的控制参数则会有不同的控制流程，本发明实施例给出了其中的一种可选方案的举例，本领域技术人员可以获知的是以下举例并不是可选方案的穷举，因此不应理解为对本发明实施例的限定，具体如下：可选地，上述对采集的语音信号进行语音处理得到语音编码包括：

若当前开启有背景音，则确定是否为麦克风输入的语音，如是麦克风输入的语音则进行数字信号处理，在对麦克风输入的语音流进行数字信号处理完毕后与背景音进行混音、语音编码以及打包得到语音编码包；若不是麦克风输入的语音则在语音采集完毕后进行混音、语音编码以及打包得到语音编码包；

若当前未开启背景音，则采集的语音信号进行数字信号处理得到语音帧，对得到的语音帧进行语音活性检测确定是否为静音帧，对非静音帧进行语音编码并打包得到语音编码包。

可选地，上述数字信号处理包括：语音信号预处理、回声消除、噪声抑制、自动增益控制中的至少一项。

以下实施例将就本发明实施例的具体应用场景，进行更详细的举例说明。

不同场景的语音通话是语音设计者要面临的一个问题，比如游戏聊天场景、普通聊天场景、高音质聊天场景、高音质直播场景(一般的视频模式)、超高音质直播场景(主要是针对演唱会的)等等，由于不同场景对音质音效、CPU效率、上下行流量等参数指标的要求不同，所以需要分场景设计语音引擎算法以满足不同的用户需要。然而现有的语音通话软件都不区分这些应用场景，按照统一处理方式去处理语音流，这会导致在以上应用场景中存在如下的具体问题：1、游戏模式场景下，不需要太高的音质，但是要求不能卡游戏，所以如果不区别处理就会造成过高的CPU开销，过大的上下行流量开销，影响到游戏的体验；2、高音质模式场景下，如果按照普通的语音聊天模式处理，音质会明显满足不了用户需求；3、在演唱会的时候，需要高保真的音乐，需要特殊的音效处理；基于以上技术问题，本发明实施例将根据不同的应用场景，设计不同的语音处理方法，达到各中场景下在满足效果要求的前提下实现资源代价的最合理要求。

基于多场景语音引擎技术发送端具体流程，如图2所示，该图2只是一个一般性的框架图，不同模式各步骤是可选的(即可以不需要执行)，在图2所示的各步骤中将会使用到的具体参数请参阅模式配置表1。

201：场景检测，确定当前的语音应用场景；

本步骤的场景检测执行的是检测语音的语音应用场景，在本发明实施例的举例中主要如下5个场景：普通聊天场景、游戏聊天场景、高音质聊天场景、高音质直播场景、超高音质直播场景。

202：语音信号采集；

对于语音处理端而言，采集可以通过麦克风来进行采集。

本步骤会启动采集线程，根据引擎的配置进行语音采集，其中普通聊天场景、游戏聊天场景采用单声道低采样率；其他几种应用场景采用双声道高采样率；

203：确定是否开启背景音；如果是，进入204，如果否，进入210；

有的应用场景是有背景音的，例如音乐会的伴奏。有些应用场景则没有背景音，例如语音聊天的场景。

204：确定是否是麦克风信号；如果是进入205，否则进入206；

本步骤执行的是对语音来源的确定。

205：进行DSP处理；

DSP的具体处理流程，在后续实施例中将给出更详细的说明；

206：确定语音数据的采集是否完毕；如果是，进入207，否则进入202；

对于采用麦克风采集语音的方案来说，此步骤需要确定的是各路麦克风的语音数据采集是否均完毕。

207：混音处理；

本步骤中，混音是对背景音和麦克风音的混音。另外，本步骤也可以不执行混音，混音的步骤在对端，即语音编码包的接收端进行混音也是可以的，例如在聊天室场景下，各语音编码包的接收端接收到的背景音可以是相同的，也即是时候语音编码包的接收端也有上述背景音，此时完全可以在语音编码包的接收端执行混音处理。

208：语音编码；

本步骤执行的是对混音处理后的语音信号进行压缩，从而节省了流量，编码模块会根据不同的应用场景选择最合适的算法，游戏模式或普通的聊天模式一般开启FEC(Forward Error Correction，前向纠错)，降低上下行流量的同时，提高了抗丢包能力；而且在游戏模式或普通的聊天模式一般都选择低码率、低复杂度的编码器；在高音质模式下会选择高码率、高复杂度的编码器。具体如何配置语音编码参数可以参考表1。

209：语音帧打包，得到语音编码包。打包完成以后则可以发送给语音编码包对应的接收端。

在本步骤中，会根据不同的场景选择不同的打包长度和打包方式，具体参数控制请参阅表1。

210：进行DSP处理；

211：进行语音活性检测(Voice Active Detect，VAD)；

212：通过211步骤的语音活性检测可以确定当前帧是否是静音帧，是静音帧，则可以丢弃掉，如果确定结果为否，则进入208的语音编码。

表1各语音应用场景语音引擎算法配置信息表

注：1、on表示该模块打开，off表示关闭；

2、att是attenuate(衰减)的缩写，high模式表示噪声衰减多，low表示噪声衰减少；

3、agg是Aggressive的缩写，high表示产生更多的静音帧，low表示产生静音帧比较少；

4、com是Complicity(复杂度)，high表示复杂度高，同等码率下音质也越好；

5、br是bits rate(码率)的缩写，low表示低码率，high表示高码率，def表示默认码率；

6、fec表示前向纠错的编码方式，fec打开后抗丢包能力会明显增强；

7、pack mode表示网络封包方式，目前有3种方式3个语音帧封1包，2个语音帧封1包，1个语音帧封1包；

8、Send mode表示网络包发送方式，单发表示每个网络包只发一次，双发表示每个网络包都发两次。

DSP算法流程图，如图3所示，包括如下步骤：

301：语音信号预处理；本步骤是在麦克风采集到的语音信号经过的预处理，主要做隔直滤波和高通滤波，滤除相关的直流噪声和超低频噪声，使得后续信号处理更加稳定。

302：回声消除；本步骤是对预处理信号进行回声消除来抵消麦克风采集到的回声信号。

303：噪声抑制；回声处理器输出信号通过噪声抑制(Noise Suppress，NS)后，提高语音信号的信噪比和辨识度。

304：自动增益控制。噪声抑制后的信号经过自动增益控制模块，语音信号变的更加的平滑舒缓。

通过实验发现，采用以上方案在游戏模式下可以明显降低了CPU占用和上下行的流量。超高音质视频模式下，音质明显提升。因此以上提供了基于语音应用场景的语音处理方案，可以使语音处理方案与语音应用场景相适应，从而在满足音质要求的前提下节省系统资源。

参照图4A，根据本发明的一个实施例，提供了语音处理装置400，应用于网络中，并且包括：

检测单元4001，用于检测所述网络中当前的语音应用场景；

确定单元4002，用于确定当前的语音应用场景对语音质量的要求以及对所述网络的要求；

参数配置单元4003，用于基于所确定的对语音质量的要求以及对所述网络的要求配置与所述检测单元检测的语音应用场景对应的语音处理参数；以及

语音处理单元4004，用于按照所述参数配置单元配置的语音处理参数对在所述语音应用场景采集的语音信号进行语音处理。

一种语音处理装置，如图4B所示，包括：

检测单元401，用于检测当前的语音应用场景；

参数配置单元402，用于配置与上述检测单元401获取的语音应用场景对应的语音处理参数；语音质量要求越高的应用场景对应的语音处理参数的标准越高；

语音处理单元403，用于按照上述参数配置单元402配置的语音处理参数对采集的语音信号进行语音处理得到语音编码包；

发送单元404，用于向语音接收端发送上述语音处理单元403得到的语音编码包。

上述场景检测的过程，可以是设备执行的自动检测过程，也可以是接收用户对于场景模式的设置，具体获得语音应用场景的方式并不会影响到本发明实施例的实现，因此本发明实施例对此不予限定。

在获得语音应用场景以后需要确定相应的语音处理参数，语音处理参数可以是预置在本地的，例如采用配置表的形式存放，具体实现如下：可选地，在语音处理设备中预置有各语音应用场景对应的语音处理参数，各语音应用场景对应不同的语音质量；

上述参数配置单元402，用于依据预置的各语音应用场景对应的语音处理参数，配置与上述语音应用场景对应的语音处理参数。

本领域技术人员可以获知对语音处理的控制可以有很多种选择，对于各种可能的选择会导致语音处理所占用的系统资源的变化本领域技术人员也是可以预知的，各种语音处理将会导致语音质量的变化也是可以预知的，本发明实施例还对优选用来进行控制决策的语音处理参数进行了举例说明，具体如下：可选地，上述参数配置单元402，用于配置的语音处理参数包括：语音采样率、声学回声抵消是否开启、噪声抑制是否开启、噪声衰减的强度、自动增益控制是否开启、语音活性检测是否开启、静音帧数、编码码率、编码复杂度、前向纠错是否开启、网络封包方式、网络包发送方式中的至少一项。

对采集的语音信号进行语音处理得到语音编码包的过程，依据不同需要可以选用控制参数，对应不同的控制参数则会有不同的控制流程，本发明实施例给出了其中的一种可选方案的举例，本领域技术人员可以获知的是以下举例并不是可选方案的穷举，因此不应理解为对本发明实施例的限定，具体如下：可选地，上述语音处理单元403，用于若当前开启有背景音，则确定是否为麦克风输入的语音，如是麦克风输入的语音则进行数字信号处理，在对麦克风输入的语音流进行数字信号处理完毕后与背景音进行混音、语音编码以及打包得到语音编码包；若不是麦克风输入的语音则在语音采集完毕后进行混音、语音编码以及打包得到语音编码包；若当前未开启背景音，则采集的语音信号进行数字信号处理得到语音帧，对得到的语音帧进行语音活性检测确定是否为静音帧，对非静音帧进行语音编码并打包得到语音编码包。

可选地，上述语音处理单元403，用于进行的上述数字信号处理包括：进行语音信号预处理、回声消除、噪声抑制、自动增益控制中的至少一项。

上述语音应用场景是指语音处理所针对的当前应用场景，因此以上语音应用场景可以是目前计算机技术领域能够应用到语音的各种应用场景，本领域技术人员可以获知的是目前能够用到语音的应用场景有很多，本发明实施例对此无法穷举，不过本发明实施例仍然就其中几种有代表性的语音应用场景进行了举例说明：可选地，上述检测单元401，用于获取的语音应用场景包括：游戏场景、通话聊天场景、高音质无视频聊天场景、高音质直播场景或高音质视频聊天场景、超高音质直播场景或超高音质视频聊天场景中的至少一项。

依据以上举例的语音处理参数，其参数结果的选择会导致语音处理所占用的系统资源的变化本领域技术人员也是可以预知的，各种语音处理将会导致语音质量的变化也是可以预知的，基于前述实施例所举例的各种应用场景本发明实施例还给出了优选的设置方案，具体如下：上述参数配置单元402，用于配置的语音处理参数包括：游戏场景下语音处理参数设置为：声学回声抵消开启、噪声抑制开启、噪声衰减的强度强、自动增益控制开启、语音活性检测开启、静音帧数多、编码码率低、编码复杂度高、前向纠错开启、网络封包方式为2个语音帧封1个语音编码包、网络包发送方式为单发；

对于语音采样率的控制还可以进一步通过控制声道数来影响语音采样率，本发明实施例所称的多声道包含双声道或者更多的声道数，具体的声道数本发明实施例可以不予限制，对于各种不同的应用场景语音采样率的优选设置方案具体如下：可选地，上述参数配置单元402，用于配置的语音处理参数包括：游戏场景和通话聊天场景下语音采样率设置为：单声道低采样率；高音质无视频聊天场景、高音质直播场景或高音质视频聊天场景以及超高音质直播场景或超高音质视频聊天场景下语音采样率设置为：多声道高采样率。

本发明实施例还提供了另一种语音处理装置，如图5所示，包括：接收器501、发射器502、处理器503以及存储器504；

其中，上述处理器503，用于检测当前的语音应用场景；配置与上述语音应用场景对应的语音处理参数；语音质量要求越高的应用场景对应的语音处理参数的标准越高；按照上述语音处理参数对采集的语音信号进行语音处理得到语音编码包，向语音接收端发送上述语音编码包。

在获得语音应用场景以后需要确定相应的语音处理参数，语音处理参数可以是预置在本地的，例如采用配置表的形式存放，具体实现如下：可选地，在语音处理设备中预置有各语音应用场景对应的语音处理参数，各语音应用场景对应不同的语音质量；上述处理器503，用于配置与上述语音应用场景对应的语音处理参数包括：依据预置的各语音应用场景对应的语音处理参数，配置与上述语音应用场景对应的语音处理参数。

本领域技术人员可以获知对语音处理的控制可以有很多种选择，对于各种可能的选择会导致语音处理所占用的系统资源的变化本领域技术人员也是可以预知的，各种语音处理将会导致语音质量的变化也是可以预知的，本发明实施例还对优选用来进行控制决策的语音处理参数进行了举例说明，具体如下：可选地，上述处理器503，用于配置的上述语音处理参数包括：语音采样率、声学回声抵消是否开启、噪声抑制是否开启、噪声衰减的强度、自动增益控制是否开启、语音活性检测是否开启、静音帧数、编码码率、编码复杂度、前向纠错是否开启、网络封包方式、网络包发送方式中的至少一项。

对采集的语音信号进行语音处理得到语音编码包的过程，依据不同需要可以选用控制参数，对应不同的控制参数则会有不同的控制流程，本发明实施例给出了其中的一种可选方案的举例，本领域技术人员可以获知的是以下举例并不是可选方案的穷举，因此不应理解为对本发明实施例的限定，具体如下：可选地，上述处理器503，用于对采集的语音信号进行语音处理得到语音编码包包括：若当前开启有背景音，则确定是否为麦克风输入的语音，如是麦克风输入的语音则进行数字信号处理，在对麦克风输入的语音流进行数字信号处理完毕后与背景音进行混音、语音编码以及打包得到语音编码包；若不是麦克风输入的语音则在语音采集完毕后进行混音、语音编码以及打包得到语音编码包；若当前未开启背景音，则采集的语音信号进行数字信号处理得到语音帧，对得到的语音帧进行语音活性检测确定是否为静音帧，对非静音帧进行语音编码并打包得到语音编码包。

可选地，上述处理器503，用于进行的上述数字信号处理包括：语音信号预处理、回声消除、噪声抑制、自动增益控制中的至少一项。

上述语音应用场景是指语音处理所针对的当前应用场景，因此以上语音应用场景可以是目前计算机技术领域能够应用到语音的各种应用场景，本领域技术人员可以获知的是目前能够用到语音的应用场景有很多，本发明实施例对此无法穷举，不过本发明实施例仍然就其中几种有代表性的语音应用场景进行了举例说明：可选地，上述语音应用场景包括：游戏场景、通话聊天场景、高音质无视频聊天场景、高音质直播场景或高音质视频聊天场景、超高音质直播场景或超高音质视频聊天场景中的至少一项。对于不同的语音应用场景，对语音的质量会有所不同，例如：游戏场景对语音质量要求最低，但是要求对当前的网速占用要求较高，并且语音处理所用的CPU(Central Processor Unit，中央处理器)资源要较少。直播相关的场景则相对需要高保真，需要特殊的音效处理。高音质模式下，则需要消耗更多的CPU资源和网络流量来保证音质满足用户需求。依据以上举例的语音处理参数，其参数结果的选择会导致语音处理所占用的系统资源的变化本领域技术人员也是可以预知的，各种语音处理将会导致语音质量的变化也是可以预知的，基于前述实施例所举例的各种应用场景本发明实施例还给出了优选的设置方案，具体如下：上述处理器503，用于游戏场景下语音处理参数设置为：声学回声抵消开启、噪声抑制开启、噪声衰减的强度强、自动增益控制开启、语音活性检测开启、静音帧数多、编码码率低、编码复杂度高、前向纠错开启、网络封包方式为2个语音帧封1个语音编码包、网络包发送方式为单发；

对于语音采样率的控制还可以进一步通过控制声道数来影响语音采样率，本发明实施例所称的多声道包含双声道或者更多的声道数，具体的声道数本发明实施例可以不予限制，对于各种不同的应用场景语音采样率的优选设置方案具体如下：可选地，上述处理器503，用于在游戏场景和通话聊天场景下语音采样率设置为：单声道低采样率；在高音质无视频聊天场景、高音质直播场景或高音质视频聊天场景以及超高音质直播场景或超高音质视频聊天场景下语音采样率设置为：多声道高采样率。

本发明实施例还提供了另一种语音处理装置，如图6所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point of Sales，销售终端)、车载电脑等任意终端设备，以终端为手机为例：

图6示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图6，手机包括：射频(Radio Frequency，RF)电路610、存储器620、输入单元630、显示单元640、传感器650、语音电路660、无线保真(wireless fidelity，WiFi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解，图6中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图6对手机的各个构成部件进行具体的介绍：

RF电路610可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器680处理；另外，将设计上行的数据发送给基站。通常，RF电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。此外，RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器620可用于存储软件程序以及模块，处理器680通过运行存储在存储器620的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如语音数据、电话本等)等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元630可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元630可包括触控面板631以及其他输入设备632。触控面板631，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器680，并能接收处理器680发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631，输入单元630还可以包括其他输入设备632。具体地，其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元640可包括显示面板641，可选的，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板641。进一步的，触控面板631可覆盖显示面板641，当触控面板631检测到在其上或附近的触摸操作后，传送给处理器680以确定触摸事件的类型，随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图6中，触控面板631与显示面板641是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板631与显示面板641集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器650，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板641的亮度，接近传感器可在手机移动到耳边时，关闭显示面板641和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

语音电路660、扬声器661，传声器662可提供用户与手机之间的语音接口。语音电路660可将接收到的语音数据转换后的电信号，传输到扬声器661，由扬声器661转换为声音信号输出；另一方面，传声器662将收集的声音信号转换为电信号，由语音电路660接收后转换为语音数据，再将语音数据输出处理器680处理后，经RF电路610以发送给比如另一手机，或者将语音数据输出至存储器620以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块670，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器680是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器680可包括一个或多个处理单元；优选的，处理器680可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器680中。

手机还包括给各个部件供电的电源690(比如电池)，优选的，电源可以通过电源管理系统与处理器680逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

根据本发明的一个实施例，所述处理器680可执行存储器620中的指令，以执行以下操作：

检测网络中当前的语音应用场景；

在本发明实施例中，该终端所包括的处理器680还具有以下功能：

上述处理器680，用于检测当前的语音应用场景；配置与上述语音应用场景对应的语音处理参数；语音质量要求越高的应用场景对应的语音处理参数的标准越高；按照上述语音处理参数对采集的语音信号进行语音处理得到语音编码包，向语音接收端发送上述语音编码包。

在获得语音应用场景以后需要确定相应的语音处理参数，语音处理参数可以是预置在本地的，例如采用配置表的形式存放，具体实现如下：可选地，在语音处理设备中预置有各语音应用场景对应的语音处理参数，各语音应用场景对应不同的语音质量；上述处理器680，用于配置与上述语音应用场景对应的语音处理参数包括：依据预置的各语音应用场景对应的语音处理参数，配置与上述语音应用场景对应的语音处理参数。

本领域技术人员可以获知对语音处理的控制可以有很多种选择，对于各种可能的选择会导致语音处理所占用的系统资源的变化本领域技术人员也是可以预知的，各种语音处理将会导致语音质量的变化也是可以预知的，本发明实施例还对优选用来进行控制决策的语音处理参数进行了举例说明，具体如下：可选地，上述处理器680，用于配置的上述语音处理参数包括：语音采样率、声学回声抵消是否开启、噪声抑制是否开启、噪声衰减的强度、自动增益控制是否开启、语音活性检测是否开启、静音帧数、编码码率、编码复杂度、前向纠错是否开启、网络封包方式、网络包发送方式中的至少一项。

对采集的语音信号进行语音处理得到语音编码包的过程，依据不同需要可以选用控制参数，对应不同的控制参数则会有不同的控制流程，本发明实施例给出了其中的一种可选方案的举例，本领域技术人员可以获知的是以下举例并不是可选方案的穷举，因此不应理解为对本发明实施例的限定，具体如下：可选地，上述处理器680，用于对采集的语音信号进行语音处理得到语音编码包包括：若当前开启有背景音，则确定是否为麦克风输入的语音，如是麦克风输入的语音则进行数字信号处理，在对麦克风输入的语音流进行数字信号处理完毕后与背景音进行混音、语音编码以及打包得到语音编码包；若不是麦克风输入的语音则在语音采集完毕后进行混音、语音编码以及打包得到语音编码包；若当前未开启背景音，则采集的语音信号进行数字信号处理得到语音帧，对得到的语音帧进行语音活性检测确定是否为静音帧，对非静音帧进行语音编码并打包得到语音编码包。

可选地，上述处理器680，用于进行的上述数字信号处理包括：语音信号预处理、回声消除、噪声抑制、自动增益控制中的至少一项。

上述语音应用场景是指语音处理所针对的当前应用场景，因此以上语音应用场景可以是目前计算机技术领域能够应用到语音的各种应用场景，本领域技术人员可以获知的是目前能够用到语音的应用场景有很多，本发明实施例对此无法穷举，不过本发明实施例仍然就其中几种有代表性的语音应用场景进行了举例说明：可选地，上述语音应用场景包括：游戏场景、通话聊天场景、高音质无视频聊天场景、高音质直播场景或高音质视频聊天场景、超高音质直播场景或超高音质视频聊天场景中的至少一项。对于不同的语音应用场景，对语音的质量会有所不同，例如：游戏场景对语音质量要求最低，但是要求对当前的网速占用要求较高，并且语音处理所用的CPU(Central Processor Unit，中央处理器)资源要较少。直播相关的场景则相对需要高保真，需要特殊的音效处理。高音质模式下，则需要消耗更多的CPU资源和网络流量来保证音质满足用户需求。依据以上举例的语音处理参数，其参数结果的选择会导致语音处理所占用的系统资源的变化本领域技术人员也是可以预知的，各种语音处理将会导致语音质量的变化也是可以预知的，基于前述实施例所举例的各种应用场景本发明实施例还给出了优选的设置方案，具体如下：上述处理器680，用于游戏场景下语音处理参数设置为：声学回声抵消开启、噪声抑制开启、噪声衰减的强度强、自动增益控制开启、语音活性检测开启、静音帧数多、编码码率低、编码复杂度高、前向纠错开启、网络封包方式为2个语音帧封1个语音编码包、网络包发送方式为单发；

对于语音采样率的控制还可以进一步通过控制声道数来影响语音采样率，本发明实施例所称的多声道包含双声道或者更多的声道数，具体的声道数本发明实施例可以不予限制，对于各种不同的应用场景语音采样率的优选设置方案具体如下：可选地，上述处理器680，用于在游戏场景和通话聊天场景下语音采样率设置为：单声道低采样率；在高音质无视频聊天场景、高音质直播场景或高音质视频聊天场景以及超高音质直播场景或超高音质视频聊天场景下语音采样率设置为：多声道高采样率。

值得注意的是，上述装置实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件完成，相应的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

一种语音处理方法，应用于网络中，包括：

检测所述网络中当前的语音应用场景；

确定当前的语音应用场景对语音质量的要求以及对所述网络的要求；

基于所确定的对语音质量的要求以及对所述网络的要求配置与所述语音应用场景对应的语音处理参数；

按照所述语音处理参数对在所述语音应用场景采集的语音信号进行语音处理。
根据权利要求1所述方法，其中，所述语音应用场景包括：网络游戏场景、通话聊天场景、高音质无视频网络聊天场景、高音质网络直播场景或高音质视频网络聊天场景、超高音质网络直播场景或超高音质视频网络聊天场景。
根据权利要求1所述方法，其中，对所述网络的要求包括对网络速度的要求、对网络上下行带宽的要求、对网络流量的要求或者对网络延迟的要求。
根据权利要求1所述方法，还包括：

预置各语音应用场景对应的语音处理参数；

依据预置的各语音应用场景对应的语音处理参数，配置与所述语音应用场景对应的语音处理参数。
根据权利要求1或4所述方法，其中，所述语音处理参数包括：

语音采样率、声学回声抵消是否开启、噪声抑制是否开启、噪声衰减的强度、自动增益控制是否开启、语音活性检测是否开启、静音帧数、编码码率、编码复杂度、前向纠错是否开启、网络封包方式、网络包发送方式中的至少一项。
根据权利要求5所述方法，其中，所述对采集的语音信号进行语音处理包括：

若当前开启有背景音，则确定是否为麦克风输入的语音，如是麦克风输入的语音则进行数字信号处理，在对麦克风输入的语音流进行数字信号处理完毕后与背景音进行混音、语音编码以及打包得到语音编码包；若不是麦克风输入的语音则在语音采集完毕后进行混音、语音编码以及打包得到语音编码包；

若当前未开启背景音，则采集的语音信号进行数字信号处理得到语音帧，对得到的语音帧进行语音活性检测确定是否为静音帧，对非静音帧进行语音编码并打包得到语音编码包。
根据权利要求6所述方法，其中，所述数字信号处理包括：

语音信号预处理、回声消除、噪声抑制、自动增益控制中的至少一项。
根据权利要求5所述方法，其中：

游戏场景下语音处理参数设置为：声学回声抵消开启、噪声抑制开启、噪声衰减的强度强、自动增益控制开启、语音活性检测开启、静音帧数多、编码码率低、编码复杂度高、前向纠错开启、网络封包方式为2个语音帧封1个语音编码包、网络包发送方式为单发；

通话聊天场景下语音处理参数设置为：声学回声抵消开启、噪声抑制开启、噪声衰减的强度低、自动增益控制开启、语音活性检测开启、静音帧数低、编码码率低、编码复杂度高、前向纠错开启、网络封包方式为3个语音帧封1个语音编码包、网络包发送方式为单发；

高音质无视频聊天场景下语音处理参数设置为：声学回声抵消开启、噪声抑制开启、噪声衰减的强度低、自动增益控制开启、语音活性检测开启、静音帧数低、编码码率默认值、编码复杂度默认值、前向纠错开启、网络封包方式为1个语音帧封1个语音编码包、网络包发送方式为单发；

高音质直播场景或高音质视频聊天场景下语音处理参数设置为：声学回声抵消是关闭、噪声抑制关闭、自动增益控制关闭、语音活性检测关闭、编码码率默认值、编码复杂度默认值、前向纠错开启、网络封包方式为1个语音帧封1个语音编码包、网络包发送方式为双发；

超高音质直播场景或超高音质视频聊天场景下语音处理参数设置为：声学回声抵消关闭、噪声抑制关闭、自动增益控制关闭、语音活性检测关闭、编码码率高、编码复杂度默认值、前向纠错关闭、网络封包方式为1个语音帧封1个语音编码包、网络包发送方式为单发。
根据权利要求8所述方法，其中，

游戏场景和通话聊天场景下语音采样率设置为：单声道低采样率，低码率；

高音质无视频聊天场景、高音质直播场景或高音质视频聊天场景以及超高音质直播场景或超高音质视频聊天场景下语音采样率设置为：多声道高采样率，高码率；所述高码率为高于所述低码率的码率。
一种语音处理装置，应用于网络中，包括：

检测单元，用于检测所述网络中当前的语音应用场景；

确定单元，用于确定当前的语音应用场景对语音质量的要求以及对所述网络的要求；

参数配置单元，用于基于所确定的对语音质量的要求以及对所述网络的要求配置与所述检测单元检测的语音应用场景对应的语音处理参数；以及

语音处理单元，用于按照所述参数配置单元配置的语音处理参数对在所述语音应用场景采集的语音信号进行语音处理。
根据权利要求10所述装置，其中，所述语音应用场景包括：网络游戏场景、通话聊天场景、高音质无视频网络聊天场景、高音质网络直播场景或高音质视频网络聊天场景、超高音质网络直播场景或超高音质视频网络聊天场景。
根据权利要求10所述装置，其中，对所述网络的要求包括对网络速度的要求、对网络上下行带宽的要求、对网络流量的要求或者对网络延迟的要求。
根据权利要求10所述装置，其中：

所述参数配置单元，用于依据预置的各语音应用场景对应的语音处理参数，配置与所述语音应用场景对应的语音处理参数。
根据权利要求10或13所述装置，其中，

所述参数配置单元，用于配置的语音处理参数包括：语音采样率、声学回声抵消是否开启、噪声抑制是否开启、噪声衰减的强度、自动增益控制是否开启、语音活性检测是否开启、静音帧数、编码码率、编码复杂度、前向纠错是否开启、网络封包方式、网络包发送方式中的至少一项。
根据权利要求14所述装置，其中，

所述语音处理单元，用于若当前开启有背景音，则确定是否为麦克风输入的语音，如是麦克风输入的语音则进行数字信号处理，在对麦克风输入的语音流进行数字信号处理完毕后与背景音进行混音、语音编码以及打包得到语音编码包；若不是麦克风输入的语音则在语音采集完毕后进行混音、语音编码以及打包得到语音编码包；若当前未开启背景音，则采集的语音信号进行数字信号处理得到语音帧，对得到的语音帧进行语音活性检测确定是否为静音帧，对非静音帧进行语音编码并打包得到语音编码包。
根据权利要求15所述装置，其中，

所述语音处理单元，用于进行的所述数字信号处理包括：进行语音信号预处理、回声消除、噪声抑制、自动增益控制中的至少一项。
根据权利要求11所述装置，其中，

所述参数配置单元用于：

游戏场景下将语音处理参数设置为：声学回声抵消开启、噪声抑制开启、噪声衰减的强度强、自动增益控制开启、语音活性检测开启、静音帧数多、编码码率低、编码复杂度高、前向纠错开启、网络封包方式为2个语音帧封1个语音编码包、网络包发送方式为单发；

通话聊天场景下将语音处理参数设置为：声学回声抵消开启、噪声抑制开启、噪声衰减的强度低、自动增益控制开启、语音活性检测开启、静音帧数低、编码码率低、编码复杂度高、前向纠错开启、网络封包方式为3个语音帧封1个语音编码包、网络包发送方式为单发；

高音质无视频聊天场景下将语音处理参数设置为：声学回声抵消开启、噪声抑制开启、噪声衰减的强度低、自动增益控制开启、语音活性检测开启、静音帧数低、编码码率默认值、编码复杂度默认值、前向纠错开启、网络封包方式为1个语音帧封1个语音编码包、网络包发送方式为单发；

高音质直播场景或高音质视频聊天场景下将语音处理参数设置为：声学回声抵消是关闭、噪声抑制关闭、自动增益控制关闭、语音活性检测关闭、编码码率默认值、编码复杂度默认值、前向纠错开启、网络封包方式为1个语音帧封1个语音编码包、网络包发送方式为双发；

超高音质直播场景或超高音质视频聊天场景下将语音处理参数设置为：声学回声抵消关闭、噪声抑制关闭、自动增益控制关闭、语音活性检测关闭、编码码率高、编码复杂度默认值、前向纠错关闭、网络封包方式为1个语音帧封1个语音编码包、网络包发送方式为单发。
根据权利要求17所述装置，其中，

所述参数配置单元，用于配置的语音处理参数包括：游戏场景和通话聊天场景下语音采样率设置为：单声道低采样率，低码率；高音质无视频聊天场景、高音质直播场景或高音质视频聊天场景以及超高音质直播场景或超高音质视频聊天场景下语音采样率设置为：多声道高采样率，高码率；所述高码率为高于所述低码率的码率。
一种非瞬时性的计算机可读存储介质，其上存储有计算机可执行指令，当计算机中运行这些可执行指令时，执行如下步骤：

检测网络中当前的语音应用场景；

确定当前的语音应用场景对语音质量的要求以及对所述网络的要求；

基于所确定的对语音质量的要求以及对所述网络的要求配置与所述语音应用场景对应的语音处理参数；

按照所述语音处理参数对在所述语音应用场景采集的语音信号进行语音处理。