WO2014071766A1 - 音频多编码传输方法及相应装置 - Google Patents

音频多编码传输方法及相应装置 Download PDF

Info

Publication number
WO2014071766A1
WO2014071766A1 PCT/CN2013/082472 CN2013082472W WO2014071766A1 WO 2014071766 A1 WO2014071766 A1 WO 2014071766A1 CN 2013082472 W CN2013082472 W CN 2013082472W WO 2014071766 A1 WO2014071766 A1 WO 2014071766A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
information
encoding
audio
encoded
Prior art date
Application number
PCT/CN2013/082472
Other languages
English (en)
French (fr)
Inventor
包乐辉
Original Assignee
中兴通讯股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中兴通讯股份有限公司 filed Critical 中兴通讯股份有限公司
Priority to CA2890631A priority Critical patent/CA2890631A1/en
Priority to EP13852385.7A priority patent/EP2919230A4/en
Priority to JP2015540996A priority patent/JP6270862B2/ja
Priority to US14/441,434 priority patent/US20150279375A1/en
Publication of WO2014071766A1 publication Critical patent/WO2014071766A1/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Definitions

  • the present invention relates to the field of communications technologies, and in particular, to an audio multi-code transmission method and corresponding device.
  • VoIP Voice IP over Internet Protocol
  • IP network multimedia uses IP network or Internet for voice transmission.
  • the main feature of this technology is that the analog sound signal is compressed and encoded and packetized, and then transmitted in the form of data packets on the IP network.
  • Real-time voice transmission generally uses UDP protocol to transmit voice data packets to improve the real-time transmission.
  • the mechanism of UDP protocol is to transmit IP data packets in the best effort mode. It does not guarantee that data packets are correctly transmitted to the destination.
  • data packets are transmitted in the network. Packet loss and delay due to network jitter, network congestion, etc., data packet loss directly reduces the voice quality, and the lost packet also affects the decoding of the subsequently correctly received voice data, and the voice call may be delayed or even interrupted. Such phenomena, seriously affecting the user experience.
  • FEC Forward Error Correction
  • the existing technology uses Forward Error Correction (FEC) to recover lost voice packets.
  • FEC Forward Error Correction
  • FEC Forward Error Correction
  • IP networks cannot provide high quality assurance when transmitting real-time communication media such as voice, as opposed to transmitting text information. Therefore, how to extend the existing voice codec capability, improve the service quality of high-real-time media, and ensure the voice call user experience is a problem to be solved.
  • the present invention aims to provide an audio multi-code transmission method and corresponding device, It solves the problem that the prior art cannot provide quality assurance when transmitting real-time communication media such as voice due to its own limitations due to its own limitations.
  • the invention provides an encoding end of audio multi-coding, comprising:
  • the encoding control module is configured to: generate an encoding identifier according to the input multi-coding parameter information, information data, and audio data, and send the encoding identifier to the multi-encoder, and send the information data and the audio data to the information encoding module or directly use the information data as the enhanced data. Send to multiple encoders;
  • the information encoding module is configured to: include a plurality of information encoders, the information encoder is configured to: generate enhanced data according to the input information data and/or audio data and send the data to the multi-encoder;
  • the audio encoder is configured to: encode the input audio data to generate audio encoded data and send the encoded data to the multi-encoder;
  • the multi-encoder is configured to: generate a multi-coded speech frame with enhanced data according to the received coded identifier, enhanced data, and audio coded data, and package and send to the decoder end of the audio multi-code.
  • the encoding control module is configured to: formulate an encoding policy according to the input multi-coding parameter information and the type of the information data, and generate an encoding identifier according to the formulated encoding policy when receiving the audio data; wherein the encoding strategy Includes:
  • the coding identifier is used to assist the information encoder and the multi-encoder decoding, and includes: data information coding related information, audio data coding information, and enhanced data coding information.
  • the information data includes one or more of decoding end feedback information, auxiliary information, enhanced information or value added information.
  • the multi-coded speech frame comprises: a multi-coded frame header and a multi-coded data frame, wherein the multi-coded frame header is used to determine a frame header length, an audio data length, and an information data length; the multi-coded data includes: audio data and enhancement data.
  • the invention also provides a decoding end of audio multi-coding, comprising:
  • the multi-code parser is configured to: receive and parse the multi-coded speech frame sent by the encoding end, and send the parsed encoded identifier and the encoded enhanced data to the information decoding module, and the parsed encoded audio data is parsed. Sent to the audio decoder;
  • the information decoding module is configured to: include a plurality of information decoders, wherein the information decoder is configured to: decode the encoded enhanced data according to the encoding identifier, and send the decoded information data;
  • the audio decoder is configured to: decode the encoded audio data, and send the decoded audio data.
  • the invention also provides an encoding method of audio multi-coding, comprising:
  • the encoding end generates an encoding identifier according to the input multi-coding parameter information, the information data, and the audio data;
  • a multi-coded speech frame with enhanced data is generated based on the coded identification, the enhanced data, and the audio coded data, and packaged and sent to the decoding end of the audio multi-code.
  • the generated code identifier includes:
  • the coding strategy is determined according to the input multi-coding parameter information and the type of the information data, and when the audio data is received, the coding identifier is generated according to the established coding strategy; wherein the coding strategy includes:
  • the coding identifier comprises: data information coding related information, audio data coding information, and enhanced data coding information.
  • the information data includes one or more of decoding end feedback information, auxiliary information, enhanced information or value added information.
  • the invention also provides a decoding method of audio multi-coding, comprising:
  • the decoding end receives the multi-coded speech frame sent by the encoding end and parses it, and obtains the encoded identifier, the encoded enhanced data and the audio data after parsing;
  • the encoded audio data is decoded, and the decoded audio data is transmitted.
  • the beneficial effects of the embodiments of the present invention are as follows:
  • the embodiment of the invention expands the audio encoding and decoding method, and improves the service quality and user experience of transmitting media through the IP network.
  • FIG. 1 is a schematic structural diagram of an encoding end according to an embodiment of the present invention.
  • FIG. 2 is a schematic structural diagram of a multi-coded speech frame in an embodiment of the present invention.
  • FIG. 3 is a schematic structural diagram of a decoding end according to an embodiment of the present invention.
  • FIG. 4 is a schematic flowchart of an encoding method according to an embodiment of the present invention.
  • FIG. 5 is a schematic flowchart diagram of a decoding method according to an embodiment of the present invention.
  • FIG. 1 is a schematic structural diagram of an encoding end according to an embodiment of the present disclosure, which specifically includes: And an encoding control module, configured to generate an encoding identifier according to the input multi-coding parameter information, information data, and audio data, and send the encoding identifier to the multi-encoder, and send the information data and the audio data to the information encoding module or directly send the information data as the enhanced data.
  • an encoding control module configured to generate an encoding identifier according to the input multi-coding parameter information, information data, and audio data, and send the encoding identifier to the multi-encoder, and send the information data and the audio data to the information encoding module or directly send the information data as the enhanced data.
  • the encoding control module formulates an encoding strategy according to the input multi-encoding parameter information and the type of the information data, and generates an encoding identifier according to the formulated encoding strategy when receiving the audio data;
  • the coding strategy includes: configuration of information encoder related parameters and configuration of multi-encoder related parameters.
  • An information encoding module comprising: a plurality of information encoders, wherein the information encoder is configured to generate enhanced data according to the input information data and/or audio data and send the enhanced data to the multi-encoder;
  • An audio encoder configured to encode the input audio data to generate audio encoded data and send the encoded data to the multi-encoder
  • the multi-encoder is configured to generate a multi-coded speech frame with enhanced data according to the received coded identifier, enhanced data, and audio-encoded data, and packaged and sent to the decoding end of the audio multi-code.
  • the above coded identifier is used to assist the information encoder and multi-encoder decoding, and the coded identifier can help the information encoder, multi-encoder coding and decoding.
  • the coding identifier may include information about the information coding (information encoder type, parameters), speech segment coding information (voice coding type, sampling rate, speech coding data length), enhanced data coding information (encoding method, enhanced data length) .
  • the length of the coded identifier can be fixed or unequal. If it is not equal, there should be a field of the identified length.
  • the above enhanced data may be directly related information of external input, or may be generated by performing certain processing on the input voice data and associated information separately or together.
  • the external input text prompt information is directly used as the enhanced data, which can cause the user of the receiving end to pay attention and prompt the user.
  • the input voice data is subjected to voice recognition processing, voice subtitles are formed, or subtitles are translated simultaneously, and enhanced data is generated to help the receiving user understand the content of the call.
  • the addition of data may also be generated by processing the voice data and the associated information together, for example, performing FEC processing on the voice data, generating redundant data of the voice data as enhanced data, and recovering the enhanced data when the voice data is in error. Guarantee the quality of the call.
  • Enhanced data can also be call associated information, for example, call The background information about something is mentioned in the process.
  • the enhanced data can also be value-added information, such as subtitle advertisements.
  • enhanced information For the generation of enhanced information, it should be considered comprehensively. In the case of tight channel resources, you can choose not to send enhanced information. Priority is given to the requirements of the decoder, and the type of enhanced information is confirmed based on the feedback of the decoding.
  • the type of enhanced information can be dynamically changed during a call. For example, when the network status is good, the enhanced information can be changed from FEC data to subtitle information.
  • the above information data includes one or more of decoding side feedback information, auxiliary information, enhancement information or value-added information.
  • the foregoing information data includes feedback information of the decoding end, and the feedback information includes information such as packet loss rate, jitter, and code rate.
  • the encoding end should update the speech encoder and the information encoder.
  • the information data further includes auxiliary information that is associated with the voice call (the auxiliary information includes statistical information on the voice frame data, and the voice frame data
  • the information encoding method should be the auxiliary information encoder to encode and generate enhanced data, and generate the auxiliary information encoding identifier
  • the information data also includes value-added information associated with the voice call (the value-added information includes program associated information, or a detailed description of the information mentioned during the call), and the information encoding method should be a value-added information encoder to encode and generate enhanced data.
  • the information encoding manner is that the enhanced information encoder performs encoding to generate enhanced data, and generates an enhanced information encoding identifier; and if the input information data is value-added information, the input information data is also It can be directly used as enhanced data without being encoded by the information encoder.
  • the composition of the multi-coded speech frame is as shown in FIG. 2, and specifically includes: a multi-coded frame header and a multi-coded data, wherein the multi-coded frame header is used to determine a frame header length, an audio data length, and an information data length;
  • the data includes: audio data and enhanced data.
  • FIG. 3 is a schematic structural diagram of a decoding end according to an embodiment of the present disclosure, which specifically includes:
  • the multi-code parser is configured to receive and parse the multi-coded speech frame sent by the encoding end, and send the parsed encoded identifier and the encoded enhanced data to the information decoding module, and send the parsed encoded audio data.
  • the audio decoder is configured to receive and parse the multi-coded speech frame sent by the encoding end, and send the parsed encoded identifier and the encoded enhanced data to the information decoding module, and send the parsed encoded audio data.
  • the information decoding module includes a plurality of information decoders, and the information decoder is configured to decode the encoded enhanced data according to the encoding identifier, and send the decoded information data; the audio decoder is configured to encode the encoded data. The audio data is decoded, and the decoded audio data is transmitted.
  • FIG. 4 is a schematic flowchart of an encoding method according to an embodiment of the present invention, which may specifically include:
  • Step 401 Encode the input voice data according to a voice coder specified by the user to generate voice coded data.
  • Step 402 According to the user input multi-encoder parameter information, determine the information encoder type and configuration related parameters, and generate a code identifier.
  • Step 403 Perform certain processing on the input voice data and associated information, and the information encoder generates enhanced data.
  • Step 404 Input the coded identifier, the enhanced data, and the voice coded data into the multi-encoder, and the multi-coder generates the multi-coded speech frame with the enhanced information according to the coded identifier.
  • Step 405 Packet the multi-coded frame and transmit it to the decoder through the corresponding channel.
  • FIG. 5 is a schematic flowchart of a decoding method according to an embodiment of the present disclosure, which may specifically include:
  • Step 501 The decoding end receives the multi-coded speech frame sent by the encoding end and parses it, and obtains the encoded identifier, the encoded enhanced data, and the audio data after parsing;
  • Step 502 Decode the encoded enhanced data according to the coding identifier, and send the decoded information data after decoding; and simultaneously decode the encoded audio data, and obtain the decoded sound.
  • the frequency data is sent out.
  • the embodiment of the present invention provides an audio multi-code transmission method and a corresponding device, where a user can input some related information related to a voice call, and generate an enhanced data through an information encoder according to an encoding strategy set by a user.
  • the associated information is directly used as the enhanced data, and the voice encoded data encoded by the vocoder is subjected to multiple encoding operations to form a speech frame with enhanced information.
  • the voice frames are packed and transmitted to the decoder on the corresponding channel.
  • the auxiliary information and the voice data input by the user can also be encoded into a voice frame transmission by the multi-encoder.
  • the decoder can still help to understand the meaning of the voice sent by the encoder through the decoded auxiliary information.
  • the invention expands the audio codec method and improves the service quality and user experience of transmitting media through the IP network.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

音频多编码的传输方法及相关装置,其中所述方法包括:编码端根据输入的多编码参数信息、信息数据以及音频数据生成编码标识;根据输入的信息数据和/或音频数据生成增强数据;或者直接将信息数据作为增强数据;将输入到编码端的音频数据进行编码后生成音频编码数据;根据编码标识、增强数据以及音频编码数据生成带有增强数据的多编码语音帧,并打包发送至音频多编码的解码端;解码端接收编码端发来的多编码语音帧并进行解析,解析后得到编码标识、编码后的增强数据发送给以及音频数据;根据编码标识对编码后的增强数据进行解码;对编码后的音频数据进行解码;本发明实施例扩展了音频编解码方法,提高了通过IP网络传输媒体的服务质量。

Description

音频多编码传输方法及相应装置
技术领域
本发明涉及通信技术领域, 尤其涉及一种音频多编码传输方法及相应装 置。
背景技术
随着 Internet的普及, 越来越多的媒体 (如视频、 音频)通过 IP网络传 送, VoIP ( Voice over Internet Protocol )就是基于 IP分组网络多媒体的一个 典型业务, 它利用 IP网或互联网进行话音传输, 该技术的主要特点为将模拟 声音信号经过压缩编码和打包分组之后, 以数据包的形式在 IP网络上传输。
实时语音传输一般用 UDP协议来传输语音数据分组以提高传输的实时 性, UDP协议的机制是 best effort方式传输 IP数据包, 不保证将数据分组正 确传送到目的地, 数据分组在网络中传输时会由于网络抖动、 网络拥塞等原 因造成分组丟失、 时延, 数据分组丟失直接降低了话音质量, 并且丟失的分 组还会影响后续正确接收的语音数据的解码, 语音通话会出现延时大甚至中 断等现象, 严重影响用户体验。 对于 IP分组丟失, 现有的技术是釆用前向纠 错(FEC, Forward Error Correction )对丟失的语音包进行恢复, 然而 FEC 技术增加了对带宽的需求, 丟失的语音包需要其他语音包做运算来恢复, 也 增大了延时。
IP网络由于自身的局限性, 相对于传输文本信息, 在传输语音等实时通 信媒体时无法提供很高的质量保证。 因此, 如何对现有语音编解码能力进行 扩展, 提高高实时媒体的业务质量, 保证语音通话用户体验是一个有待解决 的问题。
发明内容
鉴于上述的分析, 本发明旨在提供一种音频多编码传输方法及相应装置, 用以解决现有技术中由于 IP 网络由于自身的局限性所带来的传输语音等实 时通信媒体时无法提供质量保证的问题。
本发明的目的主要是通过以下技术方案实现的:
本发明提供了一种音频多编码的编码端, 包括:
编码控制模块, 设置为: 根据输入的多编码参数信息、 信息数据以及音 频数据生成编码标识并发送给多编码器, 并将信息数据以及音频数据发送给 信息编码模块或者直接将信息数据作为增强数据发送给多编码器;
信息编码模块,设置为: 包含多个信息编码器,所述信息编码器设置为: 根据输入的信息数据和 /或音频数据生成增强数据并发送给多编码器;
音频编码器, 设置为: 将输入的音频数据进行编码后生成音频编码数据 并发送给多编码器;
多编码器, 设置为: 根据接收到的编码标识、 增强数据以及音频编码数 据生成带有增强数据的多编码语音帧, 并打包发送至音频多编码的解码端。
优选地, 所述编码控制模块设置为: 根据输入的多编码参数信息以及信 息数据的类型制定编码策略, 并在接收到音频数据时, 根据制定的编码策略 生成编码标识; 其中, 所述编码策略包括:
信息编码器相关参数的配置以及多编码器相关参数的配置。
优选地, 所述编码标识用于帮助信息编码器以及多编码器解码, 包括: 数据信息编码有关信息、 音频数据编码信息、 增强数据编码信息。
优选地, 所述信息数据包括解码端反馈信息、 辅助信息、 增强信息或者 增值信息中一个或多个。
优选地, 所述多编码语音帧包括: 多编码帧头和多编码数据, 其中, 多 编码帧头用以确定帧头长、 音频数据长度以及信息数据长度; 多编码数据包 括: 音频数据和增强数据。
本发明还提供了一种音频多编码的解码端, 包括: 多编码解析器, 设置为: 接收编码端发来的多编码语音帧并进行解析, 将解析后得到的编码标识、 编码后的增强数据发送给信息解码模块, 将解析 得到的编码后的音频数据发送给音频解码器;
信息解码模块,设置为: 包括多个信息解码器,所述信息解码器设置为: 根据编码标识对编码后的增强数据进行解码, 并将解码后得到的信息数据发 送出去;
音频解码器, 设置为: 对编码后的音频数据进行解码, 将解码后得到的 音频数据发送出去。
本发明还提供了一种音频多编码的编码方法, 包括:
编码端根据输入的多编码参数信息、 信息数据以及音频数据生成编码标 识;
根据输入的信息数据和 /或音频数据生成增强数据;或者直接将信息数据 作为增强数据;
将输入到编码端的音频数据进行编码后生成音频编码数据;
根据编码标识、 增强数据以及音频编码数据生成带有增强数据的多编码 语音帧, 并打包发送至音频多编码的解码端。
仂选地, 生成编码标识包括:
根据输入的多编码参数信息以及信息数据的类型制定编码策略, 并在接 收到音频数据时, 根据制定的编码策略生成编码标识; 其中, 所述编码策略 包括:
信息编码器相关参数的配置以及多编码器相关参数的配置。
优选地, 所述编码标识包括: 数据信息编码有关信息、 音频数据编码信 息、 增强数据编码信息。
优选地, 所述信息数据包括解码端反馈信息、 辅助信息、 增强信息或者 增值信息中一个或多个。 本发明还提供了一种音频多编码的解码方法, 包括:
解码端接收编码端发来的多编码语音帧并进行解析, 解析后得到编码标 识、 编码后的增强数据发送给以及音频数据;
根据编码标识对编码后的增强数据进行解码, 将解码后得到信息数据发 送出去;
对编码后的音频数据进行解码, 将解码后得到的音频数据发送出去。 本发明实施例有益效果如下:
本发明实施例扩展了音频编解码方法,提高了通过 IP网络传输媒体的服 务质量和用户体验。
本发明的其他特征和优点将在随后的说明书中阐述, 并且, 部分的从说 明书中变得显而易见, 或者通过实施本发明而了解。 本发明的目的和其他优 点可通过在所写的说明书、 权利要求书、 以及附图中所特别指出的结构来实 现和获得。
附图概述
图 1为本发明实施例所述编码端的结构示意图;
图 2本发明实施例中, 多编码语音帧的组成结构示意图;
图 3为本发明实施例所述解码端的结构示意图;
图 4为本发明实施例所述编码方法的流程示意图;
图 5为本发明实施例所述解码方法的流程示意图。
本发明的较佳实施方式
下面结合附图来具体描述本发明的优选实施例, 其中, 附图构成本申请 一部分, 并与本发明的实施例一起用于阐释本发明的原理。 首先结合附图 1对本发明实施例所述编码端进行详细说明。
如图 1所示,图 1为本发明实施例所述编码端的结构示意图,具体包括: 编码控制模块, 用于根据输入的多编码参数信息、 信息数据以及音频数 据生成编码标识并发送给多编码器, 并将信息数据以及音频数据发送给信息 编码模块或者直接将信息数据作为增强数据发送给多编码器;具体的说就是, 编码控制模块根据输入的多编码参数信息以及信息数据的类型制定编码策略, 并在接收到音频数据时, 根据制定的编码策略生成编码标识; 其中, 所述编 码策略包括: 信息编码器相关参数的配置以及多编码器相关参数的配置。
信息编码模块, 包含多个信息编码器, 所述信息编码器用于根据输入的 信息数据和 /或音频数据生成增强数据并发送给多编码器;
音频编码器, 用于将输入的音频数据进行编码后生成音频编码数据并发 送给多编码器;
多编码器, 用于根据接收到的编码标识、 增强数据以及音频编码数据生 成带有增强数据的多编码语音帧, 并打包发送至音频多编码的解码端。
上述编码标识用于帮助信息编码器以及多编码器解码, 编码标识可以帮 助信息编码器、 多编码器编码和解码。 例如, 编码标识可以包含信息编码有 关信息 (信息编码器类型, 参数) , 语音段编码信息 (语音编码类型、 釆样 率、语音编码数据长度)、增强数据编码信息(编码方法、增强数据长度)。 编码标识长度可以固定或不等长, 若不等长, 则应有标识长度的字段。
上述增强数据可以直接就是外部输入的关联信息, 也可以是对输入的语 音数据和关联信息分别或一起做一定处理而生成的。 例如, 外部输入文本提 示信息直接作为增强数据, 解析后能引起接收端用户注意, 给用户提示。 或 者, 对输入的语音数据进行语音识别处理, 形成语音字幕, 或同声翻译字幕 等, 生成增强数据, 帮助接收用户理解通话内容。 增加数据也可以是对语音 数据和关联信息一起做处理而生成, 例如对语音数据进行 FEC处理, 生成语 音数据的冗余数据作为增强数据, 在语音数据出现错误时, 用增强数据进行 恢复, 从而保证通话质量。 增强数据也可以是通话伴生信息, 例如, 通话过 程中提及某事物的背景资料。 同时增强数据还可以是增值信息, 例如字幕广 告等信息。
对增强信息的生成, 要综合考虑。 在信道资源紧张的情况下, 可以选择 不发送增强信息。 优先考虑解码端的需求, 根据解码的反馈, 确认增强信息 类型。 增强信息的类型在通话过程中可动态变化, 例如, 在网络状态好时, 增强信息可以从 FEC数据换成字幕信息等。
上述信息数据包括解码端反馈信息、辅助信息、增强信息或者增值信息中 一个或多个。 具体来说就是, 上述信息数据包括解码端反馈信息, 反馈信息 包括丟包率, 抖动, 码率等信息, 当信息数据包括解码端反馈信息时, 则编 码端应更新语音编码器和信息编码器和相应的编码参数, 以满足所述反馈信 息, 同时生成编码标识; 当信息数据还包括记载与语音通话有关联关系的辅 助信息(辅助信息包括对语音帧数据的统计信息,对语音帧数据的文本描述, 或对解码端的一些提示信息,还可以是帮助解码端理解通话的一些文本表达) 时, 则信息编码方式应是辅助信息编码器进行编码生成增强数据, 同时生成 辅助信息编码标识;当信息数据还包括与语音通话有关联关系的增值信息(增 值信息包括节目伴生信息, 或通话过程中提及的信息的详细描述) , 则信息 编码方式应是增值信息编码器进行编码生成增强数据, 同时生成增值信息编 码标识; 当输入信息数据为增强信息, 则信息编码方式应是增强信息编码器 进行编码生成增强数据, 同时生成增强信息编码标识; 并且若输入的信息数 据为增值信息, 则输入的信息数据也可以不经过信息编码器编码, 直接作为 增强数据。
上述多编码语音帧的组成结构如图 2所示, 具体可以包括: 多编码帧头 和多编码数据, 其中, 多编码帧头用以确定帧头长、 音频数据长度以及信息 数据长度; 多编码数据包括: 音频数据和增强数据。
如图 3所示,图 3为本发明实施例所述解码端的结构示意图,具体包括: 多编码解析器, 用于接收编码端发来的多编码语音帧并进行解析, 将解 析后得到的编码标识、 编码后的增强数据发送给信息解码模块, 将解析得到 的编码后的音频数据发送给音频解码器;
信息解码模块, 包括多个信息解码器, 所述信息解码器用于根据编码标 识对编码后的增强数据进行解码, 并将解码后得到的信息数据发送出去; 音频解码器, 用于对编码后的音频数据进行解码, 将解码后得到的音频 数据发送出去。
接下来结合附图 4对本发明实施例所述方法进行详细说明。
如图 4所示, 图 4为本发明实施例所述编码方法的流程示意图, 具体可 以包括:
步骤 401 : 将输入的语音数据, 按用户指定的语音编码器编码, 生成语 音编码数据;
步骤 402: 按照用户输入多编码器参数信息, 确定信息编码器类型及配 置相关参数, 生成编码标识。
步骤 403: 对输入的语音数据和关联信息做一定处理, 信息编码器生成 增强数据。
步骤 404: 将编码标识、 增强数据、 语音编码数据输入多编码器, 多编 码器根据编码标识, 生成带有增强信息的多编码语音帧;
步骤 405: 将多编码帧打包, 并通过相应信道传输至解码端。
如图 5所示, 图 5为本发明实施例所述解码方法的流程示意图, 具体可 以包括:
步骤 501 : 解码端接收编码端发来的多编码语音帧并进行解析, 解析后 得到编码标识、 编码后的增强数据发送给以及音频数据;
步骤 502: 根据编码标识对编码后的增强数据进行解码, 将解码后得到 信息数据发送出去; 同时对编码后的音频数据进行解码, 将解码后得到的音 频数据发送出去。
以上所述, 仅为本发明较佳的具体实施方式, 但本发明的保护范围并不 局限于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内, 可 轻易想到的变化或替换, 都应涵盖在本发明的保护范围之内。 因此, 本发明 的保护范围应该以权利要求书的保护范围为准。
工业实用性
综上所述,本发明实施例提供了一种音频多编码传输方法及相应装置,用 户可以输入一些与语音通话有关系的关联信息, 根据用户设置的编码策略, 经过信息编码器生成增强数据或直接将关联信息作为增强数据, 与经过语音 编码器编码后的语音编码数据, 再次做多编码操作, 形成带有增强信息的语 音帧。 语音帧经过打包, 在相应信道传输至解码端。 为使帮助解码端更好地 理解编码端发送的语音数据, 还可以通过多编码器将用户输入的辅助信息与 语音数据编码成语音帧发送。 在网络出现异常情况下, 解码端仍然可以通过 解码出的辅助信息来帮助理解编码端发送的语音的意思。 本发明扩展了音频 编解码方法, 提高了通过 IP网络传输媒体的服务质量和用户体验。

Claims

权 利 要 求 书
1、 一种音频多编码的编码端, 包括:
编码控制模块, 设置为: 根据输入的多编码参数信息、 信息数据以及音 频数据生成编码标识并发送给多编码器, 并将信息数据以及音频数据发送给 信息编码模块或者直接将信息数据作为增强数据发送给多编码器;
信息编码模块,设置为: 包含多个信息编码器,所述信息编码器设置为: 根据输入的信息数据和 /或音频数据生成增强数据并发送给多编码器;
音频编码器, 设置为: 将输入的音频数据进行编码后生成音频编码数据 并发送给多编码器;
多编码器, 设置为: 根据接收到的编码标识、 增强数据以及音频编码数 据生成带有增强数据的多编码语音帧, 并打包发送至音频多编码的解码端。
2、 根据权利要求 1所述的编码端, 其中, 所述编码控制模块设置为: 根 据输入的多编码参数信息以及信息数据的类型制定编码策略, 并在接收到音 频数据时, 根据制定的编码策略生成编码标识; 其中, 所述编码策略包括: 信息编码器相关参数的配置以及多编码器相关参数的配置。
3、 根据权利要求 1 所述的编码端, 其中, 所述编码标识用于帮助信息 编码器以及多编码器解码, 包括: 数据信息编码有关信息、 音频数据编码信 息、 增强数据编码信息。
4、 根据权利要求 1 所述的编码端, 其中, 所述信息数据包括解码端反 馈信息、 辅助信息、 增强信息或者增值信息中一个或多个。
5、 根据权利要求 1 所述的编码端, 其中, 所述多编码语音帧包括: 多 编码帧头和多编码数据, 其中, 多编码帧头用以确定帧头长、 音频数据长度 以及信息数据长度; 多编码数据包括: 音频数据和增强数据。
6、 一种音频多编码的解码端, 包括:
多编码解析器, 设置为: 接收编码端发来的多编码语音帧并进行解析, 将解析后得到的编码标识、 编码后的增强数据发送给信息解码模块, 将解析 得到的编码后的音频数据发送给音频解码器;
信息解码模块,设置为: 包括多个信息解码器,所述信息解码器设置为: 根据编码标识对编码后的增强数据进行解码, 并将解码后得到的信息数据发
5 送出去;
音频解码器, 设置为: 对编码后的音频数据进行解码, 将解码后得到的 音频数据发送出去。
7、 一种音频多编码的编码方法, 包括:
编码端根据输入的多编码参数信息、 信息数据以及音频数据生成编码标
10 识;
根据输入的信息数据和 /或音频数据生成增强数据;或者直接将信息数据 作为增强数据;
将输入到编码端的音频数据进行编码后生成音频编码数据; 根据编码标识、 增强数据以及音频编码数据生成带有增强数据的多编码 15 语音帧, 并打包发送至音频多编码的解码端。
8、 根据权利要求 7所述的编码方法, 其中, 生成编码标识包括: 根据输入的多编码参数信息以及信息数据的类型制定编码策略, 并在接 收到音频数据时, 根据制定的编码策略生成编码标识; 其中, 所述编码策略 包括:
2200 信信息息编编码码器器相相关关参参数数的的配配置置以以及及多多编编码码器器相相关关参参数数的的配配置置。。
99、、 根根据据权权利利要要求求 77或或 88所所述述的的编编码码方方法法,, 其其中中,, 所所述述编编码码标标识识包包括括:: 数数据据信信息息编编码码有有关关信信息息、、 音音频频数数据据编编码码信信息息、、 增增强强数数据据编编码码信信息息。。
1100、、 根根据据权权利利要要求求 77或或 88所所述述的的编编码码端端,, 其其中中,, 所所述述信信息息数数据据包包括括解解码码 端端反反馈馈信信息息、、 辅辅助助信信息息、、 增增强强信信息息或或者者增增值值信信息息中中一一个个或或多多个个。。
Figure imgf000012_0001
解码端接收编码端发来的多编码语音帧并进行解析, 解析后得到编码标 识、 编码后的增强数据发送给以及音频数据;
根据编码标识对编码后的增强数据进行解码, 将解码后得到信息数据发 送出去;
对编码后的音频数据进行解码, 将解码后得到的音频数据发送出去。
PCT/CN2013/082472 2012-11-07 2013-08-28 音频多编码传输方法及相应装置 WO2014071766A1 (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CA2890631A CA2890631A1 (en) 2012-11-07 2013-08-28 Audio multi-code transmission method and corresponding apparatus
EP13852385.7A EP2919230A4 (en) 2012-11-07 2013-08-28 AUDIO MULTICODE TRANSMISSION PROCEDURE AND APPROPRIATE DEVICE
JP2015540996A JP6270862B2 (ja) 2012-11-07 2013-08-28 オーディオ多重符号化伝送方法及び対応装置
US14/441,434 US20150279375A1 (en) 2012-11-07 2013-08-28 Audio Multi-Code Transmission Method And Corresponding Apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201210440924.4A CN103812824A (zh) 2012-11-07 2012-11-07 音频多编码传输方法及相应装置
CN201210440924.4 2012-11-07

Publications (1)

Publication Number Publication Date
WO2014071766A1 true WO2014071766A1 (zh) 2014-05-15

Family

ID=50684018

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2013/082472 WO2014071766A1 (zh) 2012-11-07 2013-08-28 音频多编码传输方法及相应装置

Country Status (6)

Country Link
US (1) US20150279375A1 (zh)
EP (1) EP2919230A4 (zh)
JP (1) JP6270862B2 (zh)
CN (1) CN103812824A (zh)
CA (1) CA2890631A1 (zh)
WO (1) WO2014071766A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114244472A (zh) * 2021-12-13 2022-03-25 上海交通大学宁波人工智能研究院 一种工业自动化喷泉码数据传输装置及方法
CN114301884A (zh) * 2021-08-27 2022-04-08 腾讯科技(深圳)有限公司 音频数据的发送方法、接收方法、装置、终端及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105635804B (zh) * 2014-11-04 2019-08-16 深圳Tcl新技术有限公司 一种无线音频传输方法及系统
CN110366752B (zh) * 2019-05-21 2023-10-10 深圳市汇顶科技股份有限公司 一种语音分频传输方法、源端、播放端、源端电路和播放端电路

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1922655A (zh) * 2004-07-06 2007-02-28 松下电器产业株式会社 音频信号编码装置、音频信号解码装置、方法及程序
CN101010724A (zh) * 2004-08-27 2007-08-01 松下电器产业株式会社 音频编码器
CN101617360A (zh) * 2006-09-29 2009-12-30 韩国电子通信研究院 用于编码和解码具有各种声道的多对象音频信号的设备和方法
CN102142924A (zh) * 2010-02-03 2011-08-03 中兴通讯股份有限公司 一种多用途语音频编码传输方法和装置
US8010374B2 (en) * 2007-06-22 2011-08-30 Panasonic Corporation Audio coding apparatus and audio decoding apparatus
WO2012070370A1 (ja) * 2010-11-22 2012-05-31 株式会社エヌ・ティ・ティ・ドコモ 音声符号化装置、方法およびプログラム、並びに、音声復号装置、方法およびプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07312739A (ja) * 1994-05-16 1995-11-28 N T T Data Tsushin Kk 復号化システム及び方法
JP2003169329A (ja) * 1996-08-07 2003-06-13 Matsushita Electric Ind Co Ltd 画像音声符号化復号化装置
JPH10178349A (ja) * 1996-12-19 1998-06-30 Matsushita Electric Ind Co Ltd オーディオ信号の符号化方法および復号方法
JPH11284588A (ja) * 1998-03-27 1999-10-15 Yamaha Corp 通信装置、通信方法及びプログラムを記録した媒体
JP3327240B2 (ja) * 1999-02-10 2002-09-24 日本電気株式会社 画像・音声符号化装置
US7117152B1 (en) * 2000-06-23 2006-10-03 Cisco Technology, Inc. System and method for speech recognition assisted voice communications
GB0103245D0 (en) * 2001-02-09 2001-03-28 Radioscape Ltd Method of inserting additional data into a compressed signal
JP2003058194A (ja) * 2001-08-16 2003-02-28 Sony Corp 符号化装置、伝送装置、記録装置、復号化装置、再生装置、付加情報付加装置、記録媒体、符号化方法、伝送方法、記録方法、復号化方法、再生方法および付加情報付加方法
JP2004214755A (ja) * 2002-12-27 2004-07-29 Hitachi Ltd 動的符号化レート変更方法及びその装置
JP4091506B2 (ja) * 2003-09-02 2008-05-28 日本電信電話株式会社 2段音声画像符号化方法、その装置及びプログラム及びこのプログラムを記録した記録媒体
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
JP4386044B2 (ja) * 2006-02-23 2009-12-16 ソニー株式会社 端末装置、および、配信センタ装置
US20100040135A1 (en) * 2006-09-29 2010-02-18 Lg Electronics Inc. Apparatus for processing mix signal and method thereof
US8195457B1 (en) * 2007-01-05 2012-06-05 Cousins Intellectual Properties, Llc System and method for automatically sending text of spoken messages in voice conversations with voice over IP software
WO2008117524A1 (ja) * 2007-03-26 2008-10-02 Panasonic Corporation デジタル放送送信装置、デジタル放送受信装置およびデジタル放送送受信システム
US8352252B2 (en) * 2009-06-04 2013-01-08 Qualcomm Incorporated Systems and methods for preventing the loss of information within a speech frame
US9026434B2 (en) * 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1922655A (zh) * 2004-07-06 2007-02-28 松下电器产业株式会社 音频信号编码装置、音频信号解码装置、方法及程序
CN101010724A (zh) * 2004-08-27 2007-08-01 松下电器产业株式会社 音频编码器
CN101617360A (zh) * 2006-09-29 2009-12-30 韩国电子通信研究院 用于编码和解码具有各种声道的多对象音频信号的设备和方法
US8010374B2 (en) * 2007-06-22 2011-08-30 Panasonic Corporation Audio coding apparatus and audio decoding apparatus
CN102142924A (zh) * 2010-02-03 2011-08-03 中兴通讯股份有限公司 一种多用途语音频编码传输方法和装置
WO2012070370A1 (ja) * 2010-11-22 2012-05-31 株式会社エヌ・ティ・ティ・ドコモ 音声符号化装置、方法およびプログラム、並びに、音声復号装置、方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2919230A4 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114301884A (zh) * 2021-08-27 2022-04-08 腾讯科技(深圳)有限公司 音频数据的发送方法、接收方法、装置、终端及存储介质
CN114301884B (zh) * 2021-08-27 2023-12-05 腾讯科技(深圳)有限公司 音频数据的发送方法、接收方法、装置、终端及存储介质
CN114244472A (zh) * 2021-12-13 2022-03-25 上海交通大学宁波人工智能研究院 一种工业自动化喷泉码数据传输装置及方法
CN114244472B (zh) * 2021-12-13 2023-12-01 上海交通大学宁波人工智能研究院 一种工业自动化喷泉码数据传输装置及方法

Also Published As

Publication number Publication date
US20150279375A1 (en) 2015-10-01
JP6270862B2 (ja) 2018-01-31
EP2919230A1 (en) 2015-09-16
EP2919230A4 (en) 2015-12-23
CN103812824A (zh) 2014-05-21
CA2890631A1 (en) 2014-05-15
JP2016500852A (ja) 2016-01-14

Similar Documents

Publication Publication Date Title
US8239901B2 (en) Buffer control method, relay apparatus, and communication system
TWI363531B (en) Data communication system, data transmitting apparatus, data transmitting method, and method for determining packet size and redundancy
US20050254508A1 (en) Cooperation between packetized data bit-rate adaptation and data packet re-transmission
TWI401918B (zh) 傳送指示接收器緩衝架構之緩衝參數信號的通訊方法
JPWO2005099243A1 (ja) 音声通信方法及び装置
JP2020502832A (ja) データストリーミングの前方誤り訂正
JP2012517130A (ja) 通信システムにおけるデータ送信方法
US9392082B2 (en) Communication interface and method for robust header compression of data flows
CN108696491B (zh) 音频数据的发送处理方法与装置、接收处理方法与装置
WO2014071766A1 (zh) 音频多编码传输方法及相应装置
CN106416154B (zh) 用于在广播和通信系统中发送和接收分组的方法和装置
US8438016B2 (en) Silence-based adaptive real-time voice and video transmission methods and system
JP2012165429A (ja) メディア送受信方法、メディア送信方法、メディア受信方法、メディア送受信装置、メディア送信装置、メディア受信装置、ゲートウェイ装置、及びメディアサーバ
JP6380935B2 (ja) 送信装置、受信装置、送信方法および受信方法
US20070198878A1 (en) Two-way communication method, apparatus, system, and program
EP3038369B1 (en) In-band quality data
WO2013183235A1 (ja) 送信装置、受信装置、送信方法および受信方法
WO2013029468A1 (zh) 会议电视终端动态丢包补偿的方法及会议电视终端
CN103188403A (zh) 语音网关在线监听方法
WO2002017588A1 (fr) Procede de codage de la parole a basse vitesse sur la base d'un protocole reseau
JP2004120479A (ja) Lan通信方法及びこの方法を実行するためのlan通信システム
JP4947049B2 (ja) 符号化ストリーム送信装置
KR20070081604A (ko) 멀티미디어 패킷 데이터의 디패킷화 방법
WO2012058913A1 (zh) 一种实现可视电话的方法及装置
WO2013086671A1 (zh) Rtp媒体数据的处理方法及设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13852385

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2890631

Country of ref document: CA

Ref document number: 2015540996

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 14441434

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2013852385

Country of ref document: EP