WO2010083737A1

WO2010083737A1 - 一种语音信号的处理方法、语音信号的发送方法及装置

Info

Publication number: WO2010083737A1
Application number: PCT/CN2010/070076
Authority: WO
Inventors: 罗桂英
Original assignee: 华为终端有限公司
Priority date: 2009-01-23
Filing date: 2010-01-08
Publication date: 2010-07-29
Also published as: CN101489091A

Description

一种语音信号的处理方法、语音信号的发送方法及装置

本申请要求于 2009 年 1 月 23 日提交中国专利局、申请号为 200910008450.4、发明名称为"一种语音信号传输处理方法及装置 "的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及通信技术领域，具体涉及语音信号的处理方法、语音信号的发送方法及装置。

背景技术

会议电视系统是一种实时通讯的视音频数据传送的一种业务，可在 IP网络、电路交换网络以及更新的 3G网络中提供，实现终端之间点对点通讯、多个终端参加的点对多点通讯。主流通讯协议框架则是 IP网络下的 H323 , 以及电路交换网络的 H320协议框架，其他网络则可以通过网关实现数据格式的转换和传输。其中语音传送是必须的，其他视频，数据是可选的。随着技术的成熟以及应用的扩大，高清晰的视音频，以及大容量的组网是当前的发展趋势。

在会议电视系统中涉及到对音频进行编解码，由于实际业务应用，特别是在多点会议中并不是所有会场的声音都需要在相同的时刻发送给所有入会终端，而是根据业务策略 (如，选取音量值最大的 4参与方）进行混音后再发送给所有会场；当前各个主流会议电视或者会议电话厂家，在对音频处理上需要在解码后才能获取到音量（能量）；也有一些协议涉及到音量的传输，但音频码流以及音量值是分别传送的。

现有技术中的一种技术方案如下：

当前各个主流会议电视或者会议电话厂家，在对音频处理上需要通过解码后才能获取到各会场音量值（能量），然后根据这种方法获取到的音量值大小来为业务所使用，根据策略选取部分会场进行混音或者编码，这样将导致在特定场景应用中造成很大的资源浪费，如多点控制单元（ MCU, Multipoint Control Unit )的多点会议中实际参与混音的终端只支持到几个（由于语音效果的限制，超过一定数量的会场（如 5方）进行同时发言时，就失去了交流的清晰性。因此，在实际应用场景也是支持到几方终端同时发言，所有会场说话的场景基本没有），而解码后才能获取各会场的语音码流的音量值大小，而对音量值不满足要求的语音码流则消耗了解码设备的资源，特别是对于大性能的 MCU在实现中就会造成很大的解码资源浪费。

现有技术中的另一种技术方案如下：也有一些协议涉及到音量的传输，但音频码流以及音量值是分别传送的。由于音量传输和语音数据流是分别独立传送的，其传输目的地址可以不是相同的地址，必然存在码流传送和音量值大小不同步的情况，导致实际应用存在较大的技术难度，关联关系的建立会占用很大系统资源以及影响系统的处理性能，同时传输的不同步会导致一定的延时等待，影响实时通讯系统的性能，导致主观效果感受体验不好的结果；另外，如果传送的音量值与语音码流传送的目的地址不一致，如语音码流传送给 MP, 音量值传送给 MC, 即 MP和 MC分别为独立实体的形态下则接收到码流的 MP不能同步获得音量值的大小，从而最终导致 MP还是要全部解码语音码流才能获得音量值的情况，浪费了解码资源。

发明内容

有鉴于此，本发明实施例提供一种语音信号的处理方法、语音信号的发送方法及装置，可避免或减少解码资源的浪费，从而提高系统性能。

本发明实施例提供的一种语音信号的处理方法，包括：

接收包括语音数据码流及其对应的音量值的数据包；

判断所述音量值的大小，并在所述音量值满足业务策略时，对该音量值对应的语音数据码流进行解码。

本发明实施例提供的一种语音信号处理装置，包括：接收单元、判断单元和解码单元，其中，

所述接收单元，用于包括语音数据码流接收音频信号及其对应的音量值的数据包；

所述判断单元，用于判断所述音量值的大小，并在所述音量值满足业务策略时，发送解码指令给所述解码单元；

所述解码单元，用于对音频信号进行解码；根据所述判断单元发送的解码指令对所述音量值对应的音频信号进行解码。

本发明实施例提供的另一种语音信号的发送方法，包括：

获取语音数据码流及其对应的音量值；将包括所述语音数据码流及其对应的音量值的数据包发送给接收端。本发明实施例还提供一种语音信号发送装置，包括：

获取单元，用于获取语音数据码流及其对应的音量值；

发送单元，用于发送包括所述音量值及语音数据码流的数据包给接收端。综上所述，本发明实施例提供的技术方案，将音量值实时传递给接收码流的设备，可在解码之前获知接收语音码流对应的音量值，在判断该音量值是否满足要求之后，确定是否对所述语音码流进行解码，从而避免或减少解码资源的浪费，有效解决了当前会议电视系统中对接收到的所有语音码流进行解码才能获取到音量值的大量浪费资源的问题，支撑在该方案下的节能但不损伤任何服务质量的一种应用方式。

附图说明

图 1为本发明实施例中的语音信号处理装置架构示意图；

图 2为本发明实施例中提供的语音信号的处理方法流程图；

图 3为本发明实施例中釆用的 RTP协议数据包固定头部示意图；图 4为本发明实施例 RTP协议数据包扩展头格式示意图；

图 5为本发明实施例还提供一种语音信号发送装置。

具体实施方式

鉴于现有技术中接收端设备进行解码后才能获知接收到的语音码流的音量值大小，但对音量值不满足要求的语音码流消耗了解码设备的资源，本发明的实施例提供一种语音信号传输处理方法，实现音量值与语音码流同步传送，可在解码之前获知接收语音码流对应的音量值，在判断该音量值是否满足要求之后，确定是否对所述语音码流进行解码，从而避免或减少解码资源的浪费，提高系统的性能，进一步提供一种比较完整的方案支撑业务使用。

下面通过具体实施例对本发明进行详细描述。

本发明实施例以会议电视系统中的语音传输为例进行描述，但并不限于此，其他的语音传输与此类似。

在会议电视系统中的语音发送端主要是指终端设备（也可以是 MCU以及语音网关等设备），可进行语音码流的编码。

参照图 1 , 本发明实施例提供的设置在语音发送端的一种语音信号的处理装置，包括：

编码单元 110, 用于对需要传输的音频信号进行抽样、编码形成语音数据码流；

音量获取单元 120, 用于获取语音数据码流对应的音量值；

封装单元 130, 用于将所述音量值与所述语音数据码流一起按照预定格式进行封装，得到数据包；

发送单元 140, 用于将所述封装后的数据包发送给接收端。

本实施例中，在编码单元进行语音编码（码流生成）过程中音量获取单元同步记录下该码流的音量值大小 ,可以通过数据表方式保存在编码后的緩冲区中或者把数据以文件方式保存下来，供后续操作使用；也可以直接将这两组数据（实际语音码流数据以及对应的语音音量值）同时传递给封装单元，由封装单元进行封装处理，形成数据包。然后由发送单元将所述封装后的数据包发送给接收端。

在会议电视系统中语音接收端的语音信号的处理装置，如图 2所示，包括：接收单元 210, 用于接收包括语音数据码流及其对应的音量值的数据包，所述音量值不迟于所述语音数据码流到达接收端；

判断单元 220, 用于判断所述音量值的大小，若所述音量值满足业务策略时，则发送解码指令给解码单元 230;

解码单元 230, 用于对语音数据码流进行解码；具体可以是在会议电视系统中的终端设备、 MCU、网关设备等；根据所述判断单元 220发送的解码指令对所述音量值对应的语音数据码流进行解码。

接收单元 210接收到的数据包，然后进行拆分数据包，区别出实际的音频码流数据和与之对应的音量值数据。判断单元 220对于需要根据音量值大小决策是否需要进行解码的则直接对提取出来的语音音量值大小进行判断过滤，决策是否需要解码，需要则启动解码单元 230进行解码，否则不启动解码。

由于能够从传送过来的数据直接获取到语音数据的音量值，解码设备支持对音量值的判断过滤后决策是否进行解码，因此可以节约解码设备的解码资源。这样，对于支持超大容量的终端 /网关 /MCU等接入的应用场景下，可以大大节省解码资源配置，为客户提供最低的成本，但不影响任何服务质量。也就是说，对于接收端，本发明在判断该音量值是否满足要求之后，确定是否对所述语音码流进行解码，从而避免或减少解码资源的浪费。对于发送端，将获取到的语音数据码流及其对应的音量值通过数据包的形式发送给接收端，以便于接收只对满足要求的语音码流进行解码，从而避免或减少解码资源的浪费。

参照图 3本发明实施例提供的一种语音信号的处理方法，包括如下步骤：

S301 , 发送端获取语音数据码流及其对应的音量值；

其中，获取语音数据码流对应的音量值的方法包括如下几种：

( 1 )平均取值方法

假设音量值时间取值范围为每 4个时间单位为一个计算单元，该计算单元内的平均值算法则可以把 4个固定的间隔（可以是 4等分或者其他等分）读取一次音量值，然后所有音量值的加和 /取值的次数 =音量值。

( 2 )最大值取值方法

假设音量值时间取值范围为每 4个时间单位为一个计算单元，该计算单元内的最大值算法则可以把 4个刻度的时间分别按照固定的间隔（可以是 4等分或者其他等分）读取一次音量值，然后取所有音量值中的最大值作为本时间单元内的音量值。

( 3 )音量面积积分加权取值方法

假设音量值时间取值范围为每 4个时间单位为一个计算单元，则通过该单元内的面积（音量值曲线与横轴，纵轴组成的面积）积分方法计算出面积，然后再根据上述平均取值或最大值等方法来计算出音量值，通过面积和取得的音量值进行不同比例的加权计算，得出最终的音量值，则能更好体现根据音量的变化范围进行一种比较好的取值方法。

S302 , 将包括所述语音数据码流及其对应的音量值的数据包发送给接收端；

所述方法还可以包括：

将所述音量值与所述语音数据码流一起按照预定格式进行封装得到数据包；并将封装后的数据包发送给接收端。

所述按照预定格式进行封装，具体包括：

将预定格式数据包包头进行扩展，将所述音量值携带在所述数据包的扩展包头；

( IP包交换网络） H323/SIP等基于 IP传送的系统：直接在音频码流传输中的 RTP协议中扩展 RTP包头的字段，用于表示同步发送的语音码流的音量值。

RTP协议数据包固定头部如图 3所示， RTP扩展头格式，如图 4所示，其中的扩展头 Header extension (X): 1 bit, 其中 X为音量值。如果该字段置 1 , RTP固定头后面必须跟至少一个扩展头部。将下面的 X位置设为 1 , 并放置在固定头部之后（包括 CSRC列表，如果有的话），媒体数据（包含媒体头和媒体数据）之前。扩展头长度不固定，但是前 16 bits表示类型，接着 16 bites表示长度（包含自身和前面的类型长度）。

或者，将所述音量值与所述语音数据码流按照对应关系封装到数据包中。另外，也可釆用在语音码流中定义音量值，可以釆用下面的表达形式进行音频码流和音量值的封装，釆用标识字段进行标识后面跟随的数据是音量值还是码流值，标识段至少要 1个 bit以上，可以用多个 bit位填特殊的数据表明该段为标识段，然后其中 lbit的 0/1值分别表示后续的数据是音量值或者是码流数据；音量值的表示数据则釆用 32bit表示；后续的音频码流数据则按照现有的格式进行封装，根据音频协议的不同，音频码流数据长度也不同，因此，在此不进行具体音频码流数据的长度标识，其实现方式与现有的一样即可。

当电视会议系统中釆用 E1/ISDN等电路交换专线，如按照 H.320标准的电视会议系统（H.320标准对基于电路交换的电视会议系统进行了定义，能在传输网络平台上开展标准的电视会议应用），在基于 H.320系统的传输通道中传输用于表示同步发送的语音码流的音量值；

H.320是有专门的独立音频时隙（通道），目前其他非音频时隙已经没有可以扩展的，因为 H.320每个时隙都是独立传送某种类型的数据，如果把音量以本发明实施例中釆用在传输语音数据流的时隙中增加传送音量值，即在每次传输音频码流数据前先进行音量值的传送，实现——对应。

由于音频协议不同，音频码流数据长度也不同，因此本实施例中不进行具体音频码流数据的长度标识，具体釆用与以前一样的实现方式即可。音量值数据段的定义建议釆用 32位以上，其中 32位用于表示音量值，其他位用于标识该段数据为音量值表示数据。

另外，根据实际每次封装音频码流的数据量（即一个时间段内的数据，如

G.711A是每次封装 20ms时间长度的数据），可以在传输音频码流前传输多个音量值；也可以多个音频码流数据前只传输一个音量值。

5303 ,接收端接收包括语音数据码流及其对应的音量值的数据包；通常所述音量值不迟于所述语音数据码流到达接收端；

5304, 判断所述音量值的大小；

将接收到的音量值与预定的业务策略所需要的音量值进行比较，根据比较结果进行后续操作。

5305 ,若所述音量值大于业务策略所需要的音量值时，则对该音量值对应的语音数据码流进行解码。

本发明实施例还提供一种语音信号发送方法，包括：

S401 , 获取语音数据码流及其对应的音量值；

S402 , 将所述包括语音数据码流及其对应的音量值的数据包发送给接收端。

其中，所述获取语音数据码流及其对应的音量值具体包括：发送端对需要传输的音频信号进行抽样、编码形成语音数据码流；从音频信号中获取语音数据码流对应的音量值。

所述方法还可以包括：发送端将所述音量值与所述语音数据码流一起按照预定格式进行封装，得到数据包；将封装后的数据包发送给接收端。

其中，所述按照预定格式进行封装，具体包括：

将预定格式数据包包头进行扩展，将所述音量值携带在所述数据包的扩展包头；或

将所述音量值与所述语音数据码流按照对应关系封装到数据包中。

所述语音数据码流及其对应的音量值釆用电路交换方式传输，还包括：按照语音数据码流与其音量值对应关系在传输语音数据流的时隙中传送音量值。

参照图 5 , 本发明实施例还提供一种语音信号发送装置，包括：

音量获取单元 510, 用于获取音频信号对应的音量值；编码单元 520, 用于对所述音频信号进行抽样、编码形成语音数据码流；发送单元 540, 用于发送包括所述音量值及语音数据码流的数据包给接收端。

进一步地还包括，封装单元 530, 将所述音量值与所述语音数据码流一起按照预定格式进行封装，得到数据包；

发送单元 540将所述封装后的数据包发送给接收端。

可选的，另一种语音信号发送装置可以包括：获取单元，用于获取语音数据码流及其对应的音量值；发送单元，用于发送包括所述音量值及语音数据码流的数据包给接收端：其中，所述获取单元包括：音量获取单元和编码单元。所述编码单元，用于对需要传输的音频信号进行抽样、编码形成语音数据码流；所述音量获取单元，用于从音频信号中获取所述语音数据码流对应的音量值。

所述发送装置还可以包括：封装单元，将所述音量值与所述语音数据码流一起按照预定格式进行封装，得到包括所述语音数据码流及其对应的音量值的数据包。

本发明实施例提供的技术方案可以应用到所有涉及到语音通讯系统，包括多点通讯或点对点通讯，可以应用到下一代 NGN通信网、 IP多媒体系统（ IMS , IP Multimedia Subsystem ) 以及即时通讯等系统，并且不受限于网络传输方式以及设备类型。通过该技术可以较快获取到对端发送过来的音量值，而进行相应的应用，实现不同程度的节省资源，如对方的音量值低于预定值，则本端进行播放或混音处理时可以直接不进行解码其音频码流，直接釆用舒适噪音等进行替代，或者可以其他新的应用业务，如静音期间插音广告等语音服务。

综上所述，本发明实施例提供的技术方案，将音量值实时传递给接收码流的设备，可在解码之前获知接收语音码流对应的音量值，在判断该音量值是否满足要求之后，确定是否对所述语音码流进行解码，从而避免或减少解码资源的浪费，有效解决了当前会议电视系统中对接收到的所有语音码流进行解码才能获取到音量值的大量浪费资源的问题，支撑在该方案下的节能但不损伤任何服务质量的一种应用方式。也就是说，对于接收端，本发明在判断该音量值是否满足要求之后，确定是否对所述语音码流进行解码，从而避免或减少解码资源的浪费。对于发送端，将获取到的语音数据码流及其对应的音量值通过数据包的形式发送给接收端，以便于接收只对满足要求的语音码流进行解码，从而避免或减少解码资源的浪费。

另夕卜，根据本发明提供的语音码流和音量值的同步封装以及传送方案，有效解决了一些协议或厂家分散传输语音码流和音量值导致的数据准确性低以及难实现关联，计算量大以及影响系统性能和指标以及语音时延大等问题。

本发明易于在会议电视现有协议基础上实现，并且降低互通兼容的成本。显然，本领域的技术人员应该明白，上述的本发明的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个单元或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

权利要求

1、一种语音信号的处理方法，其特征在于，包括：

接收包括语音数据码流及其对应的音量值的数据包；

2、如权利要求 1所述的方法，其特征在于，所述音量值满足业务策略具体为：所述音量值大于预设的业务策略所需要的音量值。

3、如权利要求 1所述的方法，其特征在于，所述音量值位于所述数据包的扩展包头中。

4、如权利要求 1所述的方法，其特征在于，所述方法还包括：

接收发送端通过电路交换方式传输所述包括语音数据码流及其对应的音量值的数据包，所述音量值按照语音数据码流与其音量值对应关系在传输语音数据流的时隙中传送。

5、如权利要求 1至 4任一项所述的方法，其特征在于，所述数据包中包含的音量值的数量根据抽样频率和 /或音量变化情况确定。

6、一种语音信号处理装置，其特征在于，包括：接收单元、判断单元和解码单元，其中，

所述接收单元，用于接收包括语音数据码流及其对应的音量值的数据包；所述判断单元，用于判断所述音量值的大小，并在所述音量值满足业务策略时，发送解码指令给所述解码单元；

所述解码单元，用于根据所述判断单元发送的解码指令对所述音量值对应的语音数据码流进行解码。

7、一种语音信号的发送方法，其特征在于，包括：

获取语音数据码流及其对应的音量值；

将包括所述语音数据码流及其对应的音量值的数据包发送给接收端。

8、如权利要求 7所述的方法，其特征在于，所述获取语音数据码流及其对应的音量值包括：

对需要传输的音频信号进行抽样、编码形成语音数据码流；

从音频信号中获取语音数据码流对应的音量值。

9、如权利要求 7或 8所述的方法，其特征在于，所述方法还包括：将所述音量值与所述语音数据码流一起按照预定格式进行封装，得到包括所述语音数据码流及其对应的音量值的数据包。

10、如权利要求 9所述的方法，其特征在于，所述按照预定格式进行封装，具体包括：

将预定格式数据包包头进行扩展，将所述音量值携带在所述数据包的扩展包头。

11、如权利要求 9所述的方法，其特征在于，所述按照预定格式进行封装，具体包括：

12、如权利要求 7所述的方法，其特征在于，所述将包括所述语音数据码流及其对应的音量值的数据包发送给接收端包括：

通过电路交换方式向接收端传输所述包括语音数据码流及其对应的音量值的数据包，其中，所述音量值按照语音数据码流与其音量值对应关系在传输语音数据流的时隙中传送。

13、一种语音信号发送装置，其特征在于，包括：

获取单元，用于获取语音数据码流及其对应的音量值；

发送单元，用于发送包括所述音量值及语音数据码流的数据包给接收端。

14、如权利要求 13所述的装置，其特征在于，所述获取单元包括：编码单元，用于对需要传输的音频信号进行抽样、编码形成语音数据码流；音量获取单元，用于从音频信号中获取所述语音数据码流对应的音量值。

15、如权利要求 13或 14所述的装置，其特征在于，还包括：

封装单元，将所述音量值与所述语音数据码流一起按照预定格式进行封装，得到包括所述语音数据码流及其对应的音量值的数据包。