WO2014071766A1

WO2014071766A1 - 音频多编码传输方法及相应装置

Info

Publication number: WO2014071766A1
Application number: PCT/CN2013/082472
Authority: WO
Inventors: 包乐辉
Original assignee: 中兴通讯股份有限公司
Priority date: 2012-11-07
Filing date: 2013-08-28
Publication date: 2014-05-15
Also published as: US20150279375A1; JP6270862B2; EP2919230A1; EP2919230A4; CN103812824A; CA2890631A1; JP2016500852A

Abstract

音频多编码的传输方法及相关装置，其中所述方法包括：编码端根据输入的多编码参数信息、信息数据以及音频数据生成编码标识；根据输入的信息数据和/或音频数据生成增强数据；或者直接将信息数据作为增强数据；将输入到编码端的音频数据进行编码后生成音频编码数据；根据编码标识、增强数据以及音频编码数据生成带有增强数据的多编码语音帧，并打包发送至音频多编码的解码端；解码端接收编码端发来的多编码语音帧并进行解析，解析后得到编码标识、编码后的增强数据发送给以及音频数据；根据编码标识对编码后的增强数据进行解码；对编码后的音频数据进行解码；本发明实施例扩展了音频编解码方法，提高了通过IP网络传输媒体的服务质量。

Description

音频多编码传输方法及相应装置

技术领域

本发明涉及通信技术领域，尤其涉及一种音频多编码传输方法及相应装置。

背景技术

随着 Internet的普及，越来越多的媒体 (如视频、音频）通过 IP网络传送， VoIP ( Voice over Internet Protocol )就是基于 IP分组网络多媒体的一个典型业务，它利用 IP网或互联网进行话音传输，该技术的主要特点为将模拟声音信号经过压缩编码和打包分组之后，以数据包的形式在 IP网络上传输。

实时语音传输一般用 UDP协议来传输语音数据分组以提高传输的实时性， UDP协议的机制是 best effort方式传输 IP数据包，不保证将数据分组正确传送到目的地，数据分组在网络中传输时会由于网络抖动、网络拥塞等原因造成分组丟失、时延，数据分组丟失直接降低了话音质量，并且丟失的分组还会影响后续正确接收的语音数据的解码，语音通话会出现延时大甚至中断等现象，严重影响用户体验。对于 IP分组丟失，现有的技术是釆用前向纠错（FEC, Forward Error Correction )对丟失的语音包进行恢复，然而 FEC 技术增加了对带宽的需求，丟失的语音包需要其他语音包做运算来恢复，也增大了延时。

IP网络由于自身的局限性，相对于传输文本信息，在传输语音等实时通信媒体时无法提供很高的质量保证。因此，如何对现有语音编解码能力进行扩展，提高高实时媒体的业务质量，保证语音通话用户体验是一个有待解决的问题。

发明内容

鉴于上述的分析，本发明旨在提供一种音频多编码传输方法及相应装置, 用以解决现有技术中由于 IP 网络由于自身的局限性所带来的传输语音等实时通信媒体时无法提供质量保证的问题。

本发明的目的主要是通过以下技术方案实现的：

本发明提供了一种音频多编码的编码端，包括：

编码控制模块，设置为：根据输入的多编码参数信息、信息数据以及音频数据生成编码标识并发送给多编码器，并将信息数据以及音频数据发送给信息编码模块或者直接将信息数据作为增强数据发送给多编码器；

信息编码模块，设置为：包含多个信息编码器，所述信息编码器设置为：根据输入的信息数据和 /或音频数据生成增强数据并发送给多编码器；

音频编码器，设置为：将输入的音频数据进行编码后生成音频编码数据并发送给多编码器；

多编码器，设置为：根据接收到的编码标识、增强数据以及音频编码数据生成带有增强数据的多编码语音帧，并打包发送至音频多编码的解码端。

优选地，所述编码控制模块设置为：根据输入的多编码参数信息以及信息数据的类型制定编码策略，并在接收到音频数据时，根据制定的编码策略生成编码标识；其中，所述编码策略包括：

信息编码器相关参数的配置以及多编码器相关参数的配置。

优选地，所述编码标识用于帮助信息编码器以及多编码器解码，包括：数据信息编码有关信息、音频数据编码信息、增强数据编码信息。

优选地，所述信息数据包括解码端反馈信息、辅助信息、增强信息或者增值信息中一个或多个。

优选地，所述多编码语音帧包括：多编码帧头和多编码数据，其中，多编码帧头用以确定帧头长、音频数据长度以及信息数据长度；多编码数据包括：音频数据和增强数据。

本发明还提供了一种音频多编码的解码端，包括：多编码解析器，设置为：接收编码端发来的多编码语音帧并进行解析，将解析后得到的编码标识、编码后的增强数据发送给信息解码模块，将解析得到的编码后的音频数据发送给音频解码器；

信息解码模块，设置为：包括多个信息解码器，所述信息解码器设置为：根据编码标识对编码后的增强数据进行解码，并将解码后得到的信息数据发送出去；

音频解码器，设置为：对编码后的音频数据进行解码，将解码后得到的音频数据发送出去。

本发明还提供了一种音频多编码的编码方法，包括：

编码端根据输入的多编码参数信息、信息数据以及音频数据生成编码标识；

根据输入的信息数据和 /或音频数据生成增强数据；或者直接将信息数据作为增强数据；

将输入到编码端的音频数据进行编码后生成音频编码数据；

根据编码标识、增强数据以及音频编码数据生成带有增强数据的多编码语音帧，并打包发送至音频多编码的解码端。

仂选地，生成编码标识包括：

根据输入的多编码参数信息以及信息数据的类型制定编码策略，并在接收到音频数据时，根据制定的编码策略生成编码标识；其中，所述编码策略包括：

信息编码器相关参数的配置以及多编码器相关参数的配置。

优选地，所述编码标识包括：数据信息编码有关信息、音频数据编码信息、增强数据编码信息。

优选地，所述信息数据包括解码端反馈信息、辅助信息、增强信息或者增值信息中一个或多个。本发明还提供了一种音频多编码的解码方法，包括：

解码端接收编码端发来的多编码语音帧并进行解析，解析后得到编码标识、编码后的增强数据发送给以及音频数据；

根据编码标识对编码后的增强数据进行解码，将解码后得到信息数据发送出去；

对编码后的音频数据进行解码，将解码后得到的音频数据发送出去。本发明实施例有益效果如下：

本发明实施例扩展了音频编解码方法，提高了通过 IP网络传输媒体的服务质量和用户体验。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图概述

图 1为本发明实施例所述编码端的结构示意图；

图 2本发明实施例中，多编码语音帧的组成结构示意图；

图 3为本发明实施例所述解码端的结构示意图；

图 4为本发明实施例所述编码方法的流程示意图；

图 5为本发明实施例所述解码方法的流程示意图。

本发明的较佳实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理。首先结合附图 1对本发明实施例所述编码端进行详细说明。

如图 1所示，图 1为本发明实施例所述编码端的结构示意图，具体包括：编码控制模块，用于根据输入的多编码参数信息、信息数据以及音频数据生成编码标识并发送给多编码器，并将信息数据以及音频数据发送给信息编码模块或者直接将信息数据作为增强数据发送给多编码器；具体的说就是，编码控制模块根据输入的多编码参数信息以及信息数据的类型制定编码策略，并在接收到音频数据时，根据制定的编码策略生成编码标识；其中，所述编码策略包括：信息编码器相关参数的配置以及多编码器相关参数的配置。

信息编码模块，包含多个信息编码器，所述信息编码器用于根据输入的信息数据和 /或音频数据生成增强数据并发送给多编码器；

音频编码器，用于将输入的音频数据进行编码后生成音频编码数据并发送给多编码器；

多编码器，用于根据接收到的编码标识、增强数据以及音频编码数据生成带有增强数据的多编码语音帧，并打包发送至音频多编码的解码端。

上述编码标识用于帮助信息编码器以及多编码器解码，编码标识可以帮助信息编码器、多编码器编码和解码。例如，编码标识可以包含信息编码有关信息（信息编码器类型，参数），语音段编码信息（语音编码类型、釆样率、语音编码数据长度）、增强数据编码信息（编码方法、增强数据长度）。编码标识长度可以固定或不等长，若不等长，则应有标识长度的字段。

上述增强数据可以直接就是外部输入的关联信息，也可以是对输入的语音数据和关联信息分别或一起做一定处理而生成的。例如，外部输入文本提示信息直接作为增强数据，解析后能引起接收端用户注意，给用户提示。或者，对输入的语音数据进行语音识别处理，形成语音字幕，或同声翻译字幕等，生成增强数据，帮助接收用户理解通话内容。增加数据也可以是对语音数据和关联信息一起做处理而生成，例如对语音数据进行 FEC处理，生成语音数据的冗余数据作为增强数据，在语音数据出现错误时，用增强数据进行恢复，从而保证通话质量。增强数据也可以是通话伴生信息，例如，通话过程中提及某事物的背景资料。同时增强数据还可以是增值信息，例如字幕广告等信息。

对增强信息的生成，要综合考虑。在信道资源紧张的情况下，可以选择不发送增强信息。优先考虑解码端的需求，根据解码的反馈，确认增强信息类型。增强信息的类型在通话过程中可动态变化，例如，在网络状态好时，增强信息可以从 FEC数据换成字幕信息等。

上述信息数据包括解码端反馈信息、辅助信息、增强信息或者增值信息中一个或多个。具体来说就是，上述信息数据包括解码端反馈信息，反馈信息包括丟包率，抖动，码率等信息，当信息数据包括解码端反馈信息时，则编码端应更新语音编码器和信息编码器和相应的编码参数，以满足所述反馈信息，同时生成编码标识；当信息数据还包括记载与语音通话有关联关系的辅助信息（辅助信息包括对语音帧数据的统计信息，对语音帧数据的文本描述，或对解码端的一些提示信息，还可以是帮助解码端理解通话的一些文本表达）时，则信息编码方式应是辅助信息编码器进行编码生成增强数据，同时生成辅助信息编码标识；当信息数据还包括与语音通话有关联关系的增值信息（增值信息包括节目伴生信息，或通话过程中提及的信息的详细描述），则信息编码方式应是增值信息编码器进行编码生成增强数据，同时生成增值信息编码标识；当输入信息数据为增强信息，则信息编码方式应是增强信息编码器进行编码生成增强数据，同时生成增强信息编码标识；并且若输入的信息数据为增值信息，则输入的信息数据也可以不经过信息编码器编码，直接作为增强数据。

上述多编码语音帧的组成结构如图 2所示，具体可以包括：多编码帧头和多编码数据，其中，多编码帧头用以确定帧头长、音频数据长度以及信息数据长度；多编码数据包括：音频数据和增强数据。

如图 3所示，图 3为本发明实施例所述解码端的结构示意图，具体包括：多编码解析器，用于接收编码端发来的多编码语音帧并进行解析，将解析后得到的编码标识、编码后的增强数据发送给信息解码模块，将解析得到的编码后的音频数据发送给音频解码器；

信息解码模块，包括多个信息解码器，所述信息解码器用于根据编码标识对编码后的增强数据进行解码，并将解码后得到的信息数据发送出去；音频解码器，用于对编码后的音频数据进行解码，将解码后得到的音频数据发送出去。

接下来结合附图 4对本发明实施例所述方法进行详细说明。

如图 4所示，图 4为本发明实施例所述编码方法的流程示意图，具体可以包括：

步骤 401 : 将输入的语音数据，按用户指定的语音编码器编码，生成语音编码数据；

步骤 402: 按照用户输入多编码器参数信息，确定信息编码器类型及配置相关参数，生成编码标识。

步骤 403: 对输入的语音数据和关联信息做一定处理，信息编码器生成增强数据。

步骤 404: 将编码标识、增强数据、语音编码数据输入多编码器，多编码器根据编码标识，生成带有增强信息的多编码语音帧；

步骤 405: 将多编码帧打包，并通过相应信道传输至解码端。

如图 5所示，图 5为本发明实施例所述解码方法的流程示意图，具体可以包括：

步骤 501 : 解码端接收编码端发来的多编码语音帧并进行解析，解析后得到编码标识、编码后的增强数据发送给以及音频数据；

步骤 502: 根据编码标识对编码后的增强数据进行解码，将解码后得到信息数据发送出去；同时对编码后的音频数据进行解码，将解码后得到的音频数据发送出去。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

工业实用性

综上所述，本发明实施例提供了一种音频多编码传输方法及相应装置，用户可以输入一些与语音通话有关系的关联信息，根据用户设置的编码策略，经过信息编码器生成增强数据或直接将关联信息作为增强数据，与经过语音编码器编码后的语音编码数据，再次做多编码操作，形成带有增强信息的语音帧。语音帧经过打包，在相应信道传输至解码端。为使帮助解码端更好地理解编码端发送的语音数据，还可以通过多编码器将用户输入的辅助信息与语音数据编码成语音帧发送。在网络出现异常情况下，解码端仍然可以通过解码出的辅助信息来帮助理解编码端发送的语音的意思。本发明扩展了音频编解码方法，提高了通过 IP网络传输媒体的服务质量和用户体验。

Claims

权利要求书

1、一种音频多编码的编码端，包括：

2、根据权利要求 1所述的编码端，其中，所述编码控制模块设置为：根据输入的多编码参数信息以及信息数据的类型制定编码策略，并在接收到音频数据时，根据制定的编码策略生成编码标识；其中，所述编码策略包括：信息编码器相关参数的配置以及多编码器相关参数的配置。

3、根据权利要求 1 所述的编码端，其中，所述编码标识用于帮助信息编码器以及多编码器解码，包括：数据信息编码有关信息、音频数据编码信息、增强数据编码信息。

4、根据权利要求 1 所述的编码端，其中，所述信息数据包括解码端反馈信息、辅助信息、增强信息或者增值信息中一个或多个。

5、根据权利要求 1 所述的编码端，其中，所述多编码语音帧包括：多编码帧头和多编码数据，其中，多编码帧头用以确定帧头长、音频数据长度以及信息数据长度；多编码数据包括：音频数据和增强数据。

6、一种音频多编码的解码端，包括：

多编码解析器，设置为：接收编码端发来的多编码语音帧并进行解析，将解析后得到的编码标识、编码后的增强数据发送给信息解码模块，将解析得到的编码后的音频数据发送给音频解码器；

信息解码模块，设置为：包括多个信息解码器，所述信息解码器设置为：根据编码标识对编码后的增强数据进行解码，并将解码后得到的信息数据发

5 送出去；

7、一种音频多编码的编码方法，包括：

编码端根据输入的多编码参数信息、信息数据以及音频数据生成编码标

10 识；

将输入到编码端的音频数据进行编码后生成音频编码数据；根据编码标识、增强数据以及音频编码数据生成带有增强数据的多编码 15 语音帧，并打包发送至音频多编码的解码端。

8、根据权利要求 7所述的编码方法，其中，生成编码标识包括：根据输入的多编码参数信息以及信息数据的类型制定编码策略，并在接收到音频数据时，根据制定的编码策略生成编码标识；其中，所述编码策略包括:

2200 信信息息编编码码器器相相关关参参数数的的配配置置以以及及多多编编码码器器相相关关参参数数的的配配置置。。

99、、根根据据权权利利要要求求 77或或 88所所述述的的编编码码方方法法，，其其中中，，所所述述编编码码标标识识包包括括：：数数据据信信息息编编码码有有关关信信息息、、音音频频数数据据编编码码信信息息、、增增强强数数据据编编码码信信息息。。

1100、、根根据据权权利利要要求求 77或或 88所所述述的的编编码码端端，，其其中中，，所所述述信信息息数数据据包包括括解解码码端端反反馈馈信信息息、、辅辅助助信信息息、、增增强强信信息息或或者者增增值值信信息息中中一一个个或或多多个个。。

对编码后的音频数据进行解码，将解码后得到的音频数据发送出去。