WO2010083737A1 - 一种语音信号的处理方法、语音信号的发送方法及装置 - Google Patents

一种语音信号的处理方法、语音信号的发送方法及装置 Download PDF

Info

Publication number
WO2010083737A1
WO2010083737A1 PCT/CN2010/070076 CN2010070076W WO2010083737A1 WO 2010083737 A1 WO2010083737 A1 WO 2010083737A1 CN 2010070076 W CN2010070076 W CN 2010070076W WO 2010083737 A1 WO2010083737 A1 WO 2010083737A1
Authority
WO
WIPO (PCT)
Prior art keywords
volume value
voice data
voice
stream
code stream
Prior art date
Application number
PCT/CN2010/070076
Other languages
English (en)
French (fr)
Inventor
罗桂英
Original Assignee
华为终端有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为终端有限公司 filed Critical 华为终端有限公司
Publication of WO2010083737A1 publication Critical patent/WO2010083737A1/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals

Definitions

  • the conference television system is a kind of service for real-time communication of video and audio data transmission. It can be provided in IP network, circuit-switched network and updated 3G network to realize point-to-point communication between terminals and point-to-multipoint participation of multiple terminals. communication.
  • the mainstream communication protocol framework is H323 under IP network and H320 protocol framework of circuit switching network. Other networks can realize data format conversion and transmission through gateway. Voice transmission is a must, other videos, data is optional. With the maturity of technology and the expansion of applications, high-definition video and audio, as well as large-capacity networking is the current development trend.
  • the encoding and decoding of the audio is involved. Due to the actual service application, especially in the multi-point conference, not all the venues need to be sent to all the joining terminals at the same time, but according to the business strategy (such as , select the 4 participants with the highest volume value to mix and send to all the venues; currently all major conference TV or conference phone manufacturers need to decode the audio to obtain the volume (energy); there are also some protocols It involves the transmission of the volume, but the audio stream and the volume value are transmitted separately.
  • the receiving unit is configured to include a data packet of a voice data stream to receive an audio signal and a corresponding volume value thereof;
  • the determining unit is configured to determine a size of the volume value, and send a decoding instruction to the decoding unit when the volume value satisfies a service policy;
  • a data packet including the voice data stream and its corresponding volume value is transmitted to the receiving end.
  • the embodiment of the invention further provides a voice signal sending device, including:
  • An acquiring unit configured to acquire a voice data code stream and a corresponding volume value thereof
  • FIG. 1 is a schematic structural diagram of a voice signal processing apparatus according to an embodiment of the present invention.
  • FIG. 3 is a schematic diagram of a fixed RTP protocol packet header according to an embodiment of the present invention
  • FIG. 4 is a schematic diagram of a format of a RTP protocol packet extension header according to an embodiment of the present invention
  • the embodiment of the present invention is described by taking voice transmission in a conference television system as an example, but is not limited thereto, and other voice transmissions are similar.
  • the voice transmitting end in the conference television system mainly refers to the terminal device (which may also be an MCU and a voice gateway device), and can encode the voice code stream.
  • the encoding unit 110 is configured to sample and encode the audio signal to be transmitted to form a voice data code stream
  • the volume obtaining unit 120 is configured to acquire a volume value corresponding to the voice data stream
  • the encapsulating unit 130 is configured to package the volume value together with the voice data code stream according to a predetermined format to obtain a data packet;
  • the sending unit 140 is configured to send the encapsulated data packet to the receiving end.
  • the volume acquisition unit synchronously records the volume value of the code stream, and may save the data in the encoded buffer by using a data table method or The file mode is saved for subsequent operations; the two sets of data (actual voice stream data and corresponding voice volume values) can be directly transmitted to the package unit, and packaged by the package unit to form a data packet. The encapsulated data packet is then transmitted by the transmitting unit to the receiving end.
  • the processing device for the voice signal of the voice receiving end in the conference television system includes: a receiving unit 210, configured to receive a data packet including a voice data code stream and a corresponding volume value thereof, the volume value is not later than And the voice data code stream arrives at the receiving end;
  • the decoding unit 230 is configured to decode the voice data code stream; specifically, the terminal device, the MCU, the gateway device, and the like in the conference television system; and the voice corresponding to the volume value according to the decoding instruction sent by the determining unit 220 The data stream is decoded.
  • the receiving unit 210 receives the data packet, and then splits the data packet to distinguish the actual audio stream data and the volume value data corresponding thereto.
  • the determining unit 220 directly determines whether the extracted voice volume value needs to be decoded according to whether the volume value decision needs to be decoded, and determines whether decoding is needed. If necessary, the decoding unit 230 is started to perform decoding, otherwise the decoding is not started.
  • a method for processing a voice signal includes the following steps:
  • the method for obtaining the volume value corresponding to the voice data stream includes the following:
  • the volume value time range is one calculation unit for every four time units, and the maximum value algorithm in the calculation unit can divide the time of four scales by a fixed interval (can be 4 equal parts or other equal parts) Read the volume value once and then take the maximum of all the volume values as the volume value in this time unit.
  • the area is calculated by the integration method of the area (volume value curve and the horizontal axis, the vertical axis) in the unit, and then according to the above average
  • the value or the maximum value is used to calculate the volume value, and the weight ratio calculation is performed by the area and the obtained volume value to obtain the final volume value, which can better reflect the variation range according to the volume. Value method.
  • IP packet switching network IP-based transmission system such as H323/SIP: The field of the RTP header is extended directly in the RTP protocol in the audio stream transmission, and is used to indicate the volume value of the voice stream that is synchronously transmitted.
  • the RTP protocol packet fixed header is shown in Figure 3.
  • the RTP extension header format as shown in Figure 4, has an extension header Header extension (X): 1 bit, where X is the volume value. If this field is set to 1, the RTP fixed header must be followed by at least one extended header. Set the following X position to 1 and place it after the fixed header (including the CSRC list, if any) before the media data (including the media header and media data).
  • the extension header length is not fixed, but the first 16 bits represent the type, followed by 16 bites indicating the length (including the length of the self and the previous type).
  • the volume value and the voice data code stream are encapsulated into a data packet according to a correspondence relationship.
  • the volume value can also be defined in the voice stream, and the following expression can be used to encapsulate the audio stream and the volume value, and the identifier field is used to identify whether the data following is the volume value or the stream value.
  • the identifier segment must be at least 1 bit or more.
  • the video conferencing system uses circuit-switched lines such as E1/ISDN, such as the video conferencing system according to the H.320 standard (the H.320 standard defines a circuit-switched video conferencing system, standards can be developed on the transmission network platform).
  • Video conferencing application transmitting a volume value for indicating a synchronously transmitted voice stream in a transmission channel based on the H.320 system;
  • H.320 has dedicated independent audio time slots (channels). Currently, other non-audio time slots are not scalable, because each time slot of H.320 transmits some type of data independently.
  • the transmission volume value is increased in the time slot for transmitting the voice data stream, that is, the volume value is transmitted before each time the audio stream data is transmitted, and the corresponding-corresponding.
  • G.711A is data with a length of 20ms per package. It can transmit multiple volume values before transmitting the audio stream. It can also transmit only one volume value before multiple audio streams.
  • the receiving end receives a data packet including a voice data stream and its corresponding volume value; generally, the volume value is not later than the voice data stream reaches the receiving end;
  • the received volume value is compared with the volume value required by the predetermined business policy, and subsequent operations are performed based on the comparison result.
  • volume value is greater than a volume value required by the service policy, decoding the voice data stream corresponding to the volume value.
  • the embodiment of the invention further provides a voice signal sending method, including:
  • the acquiring the voice data stream and the corresponding volume value specifically includes: the transmitting end samples and encodes the audio signal to be transmitted to form a voice data stream; and obtains a volume value corresponding to the voice data stream from the audio signal.
  • the method may further include: the transmitting end encapsulates the volume value together with the voice data code stream according to a predetermined format to obtain a data packet; and sends the encapsulated data packet to the receiving end.
  • the volume value and the voice data code stream are encapsulated into a data packet according to a correspondence relationship.
  • the voice data stream and its corresponding volume value are transmitted in a circuit switched manner, and further comprising: transmitting a volume value in a time slot in which the voice data stream is transmitted according to a correspondence between the voice data stream and the volume value thereof.
  • an embodiment of the present invention further provides a voice signal sending apparatus, including:
  • the volume obtaining unit 510 is configured to acquire a volume value corresponding to the audio signal;
  • the encoding unit 520 is configured to sample and encode the audio signal to form a voice data code stream, and send unit 540, configured to send a data packet including the volume value and the voice data code stream to the receiving end.
  • another voice signal sending apparatus may include: an acquiring unit, configured to acquire a voice data code stream and a corresponding volume value thereof; and a sending unit, configured to send the data packet including the volume value and the voice data code stream To the receiving end: wherein the obtaining unit comprises: a volume acquiring unit and an encoding unit.
  • the coding unit is configured to sample and encode the audio signal to be transmitted to form a voice data code stream
  • the volume acquisition unit is configured to acquire a volume value corresponding to the voice data code stream from the audio signal.
  • the transmitting device may further include: a packaging unit that encapsulates the volume value together with the voice data stream in a predetermined format to obtain a data packet including the voice data stream and its corresponding volume value.
  • the technical solution provided by the embodiments of the present invention can be applied to all voice communication systems, including multi-point communication or point-to-point communication, and can be applied to next-generation NGN communication networks, IP multimedia systems (IMS, IP Multimedia Subsystem), and instant messaging systems. And is not limited to network transmission methods and device types.
  • IMS IP multimedia systems
  • IMS IP Multimedia Subsystem
  • the volume value sent by the opposite end can be quickly obtained, and the corresponding application can be implemented to achieve different levels of resource saving. If the volume value of the other party is lower than a predetermined value, the local end can perform playback or mixing processing. Directly not decoding its audio stream, directly using comfort noise, etc., or other new application services, such as voice services such as plug-in advertising during silent periods.
  • the technical solution provided by the embodiment of the present invention transmits the volume value to the device that receives the code stream in real time, and can obtain the volume value corresponding to the received voice stream before decoding, and after determining whether the volume value satisfies the requirement, Determining whether to decode the voice code stream, thereby avoiding or reducing waste of decoding resources, and effectively solving the problem that a large amount of wasted resources are obtained by decoding all received voice code streams in the current conference television system to obtain volume values.
  • the present invention determines whether to decode the voice code stream, thereby avoiding or reducing waste of decoding resources.
  • the obtained voice data stream and its corresponding volume value are passed through the data.
  • the form of the packet is sent to the receiving end, so that the receiving only decodes the voice code stream that satisfies the requirement, thereby avoiding or reducing the waste of decoding resources.
  • the accuracy of data caused by some protocols or manufacturers dispersed transmission voice code stream and volume value is low, and the calculation is difficult. Large and affecting system performance and metrics, as well as voice delays.

Description

一种语音信号的处理方法、 语音信号的发送方法及装置
本申请要求于 2009 年 1 月 23 日提交中国专利局、 申请号为 200910008450.4、 发明名称为"一种语音信号传输处理方法及装置 "的中国专利 申请的优先权, 其全部内容通过引用结合在本申请中。
技术领域
本发明涉及通信技术领域, 具体涉及语音信号的处理方法、语音信号的发 送方法及装置。
背景技术
会议电视系统是一种实时通讯的视音频数据传送的一种业务, 可在 IP网 络、 电路交换网络以及更新的 3G网络中提供, 实现终端之间点对点通讯、 多 个终端参加的点对多点通讯。主流通讯协议框架则是 IP网络下的 H323 , 以及电 路交换网络的 H320协议框架, 其他网络则可以通过网关实现数据格式的转换 和传输。 其中语音传送是必须的, 其他视频, 数据是可选的。 随着技术的成熟 以及应用的扩大, 高清晰的视音频, 以及大容量的组网是当前的发展趋势。
在会议电视系统中涉及到对音频进行编解码, 由于实际业务应用, 特别是 在多点会议中并不是所有会场的声音都需要在相同的时刻发送给所有入会终 端, 而是根据业务策略 (如, 选取音量值最大的 4参与方)进行混音后再发送 给所有会场; 当前各个主流会议电视或者会议电话厂家, 在对音频处理上需要 在解码后才能获取到音量(能量); 也有一些协议涉及到音量的传输, 但音频 码流以及音量值是分别传送的。
现有技术中的一种技术方案如下:
当前各个主流会议电视或者会议电话厂家,在对音频处理上需要通过解码 后才能获取到各会场音量值(能量), 然后根据这种方法获取到的音量值大小 来为业务所使用,根据策略选取部分会场进行混音或者编码, 这样将导致在特 定场景应用中造成很大的资源浪费,如多点控制单元( MCU, Multipoint Control Unit )的多点会议中实际参与混音的终端只支持到几个(由于语音效果的限制, 超过一定数量的会场(如 5方)进行同时发言时, 就失去了交流的清晰性。 因 此,在实际应用场景也是支持到几方终端同时发言, 所有会场说话的场景基本 没有), 而解码后才能获取各会场的语音码流的音量值大小, 而对音量值不满 足要求的语音码流则消耗了解码设备的资源, 特别是对于大性能的 MCU在实 现中就会造成很大的解码资源浪费。
现有技术中的另一种技术方案如下: 也有一些协议涉及到音量的传输,但 音频码流以及音量值是分别传送的。由于音量传输和语音数据流是分别独立传 送的, 其传输目的地址可以不是相同的地址, 必然存在码流传送和音量值大小 不同步的情况, 导致实际应用存在较大的技术难度, 关联关系的建立会占用很 大系统资源以及影响系统的处理性能,同时传输的不同步会导致一定的延时等 待, 影响实时通讯系统的性能, 导致主观效果感受体验不好的结果; 另外, 如 果传送的音量值与语音码流传送的目的地址不一致, 如语音码流传送给 MP, 音量值传送给 MC, 即 MP和 MC分别为独立实体的形态下则接收到码流的 MP不能同步获得音量值的大小, 从而最终导致 MP还是要全部解码语音码流 才能获得音量值的情况, 浪费了解码资源。
发明内容
有鉴于此, 本发明实施例提供一种语音信号的处理方法、语音信号的发送 方法及装置, 可避免或减少解码资源的浪费, 从而提高系统性能。
本发明实施例提供的一种语音信号的处理方法, 包括:
接收包括语音数据码流及其对应的音量值的数据包;
判断所述音量值的大小, 并在所述音量值满足业务策略时,对该音量值对 应的语音数据码流进行解码。
本发明实施例提供的一种语音信号处理装置, 包括: 接收单元、 判断单元 和解码单元, 其中,
所述接收单元,用于包括语音数据码流接收音频信号及其对应的音量值的 数据包;
所述判断单元, 用于判断所述音量值的大小, 并在所述音量值满足业务策 略时, 发送解码指令给所述解码单元;
所述解码单元, 用于对音频信号进行解码; 根据所述判断单元发送的解码 指令对所述音量值对应的音频信号进行解码。
本发明实施例提供的另一种语音信号的发送方法, 包括:
获取语音数据码流及其对应的音量值; 将包括所述语音数据码流及其对应的音量值的数据包发送给接收端。 本发明实施例还提供一种语音信号发送装置, 包括:
获取单元, 用于获取语音数据码流及其对应的音量值;
发送单元, 用于发送包括所述音量值及语音数据码流的数据包给接收端。 综上所述, 本发明实施例提供的技术方案,将音量值实时传递给接收码流 的设备, 可在解码之前获知接收语音码流对应的音量值, 在判断该音量值是否 满足要求之后,确定是否对所述语音码流进行解码,从而避免或减少解码资源 的浪费,有效解决了当前会议电视系统中对接收到的所有语音码流进行解码才 能获取到音量值的大量浪费资源的问题,支撑在该方案下的节能但不损伤任何 服务质量的一种应用方式。
附图说明
图 1为本发明实施例中的语音信号处理装置架构示意图;
图 2为本发明实施例中提供的语音信号的处理方法流程图;
图 3为本发明实施例中釆用的 RTP协议数据包固定头部示意图; 图 4为本发明实施例 RTP协议数据包扩展头格式示意图;
图 5为本发明实施例还提供一种语音信号发送装置。
具体实施方式
鉴于现有技术中接收端设备进行解码后才能获知接收到的语音码流的音 量值大小,但对音量值不满足要求的语音码流消耗了解码设备的资源, 本发明 的实施例提供一种语音信号传输处理方法, 实现音量值与语音码流同步传送, 可在解码之前获知接收语音码流对应的音量值,在判断该音量值是否满足要求 之后, 确定是否对所述语音码流进行解码, 从而避免或减少解码资源的浪费, 提高系统的性能, 进一步提供一种比较完整的方案支撑业务使用。
下面通过具体实施例对本发明进行详细描述。
本发明实施例以会议电视系统中的语音传输为例进行描述, 但并不限于 此, 其他的语音传输与此类似。
在会议电视系统中的语音发送端主要是指终端设备(也可以是 MCU以及 语音网关等设备) , 可进行语音码流的编码。
参照图 1 , 本发明实施例提供的设置在语音发送端的一种语音信号的处理 装置, 包括:
编码单元 110, 用于对需要传输的音频信号进行抽样、 编码形成语音数据 码流;
音量获取单元 120, 用于获取语音数据码流对应的音量值;
封装单元 130, 用于将所述音量值与所述语音数据码流一起按照预定格式 进行封装, 得到数据包;
发送单元 140, 用于将所述封装后的数据包发送给接收端。
本实施例中, 在编码单元进行语音编码(码流生成)过程中音量获取单元 同步记录下该码流的音量值大小 ,可以通过数据表方式保存在编码后的緩冲区 中或者把数据以文件方式保存下来,供后续操作使用; 也可以直接将这两组数 据(实际语音码流数据以及对应的语音音量值)同时传递给封装单元, 由封装 单元进行封装处理, 形成数据包。 然后由发送单元将所述封装后的数据包发送 给接收端。
在会议电视系统中语音接收端的语音信号的处理装置,如图 2所示,包括: 接收单元 210, 用于接收包括语音数据码流及其对应的音量值的数据包, 所述音量值不迟于所述语音数据码流到达接收端;
判断单元 220, 用于判断所述音量值的大小, 若所述音量值满足业务策略 时, 则发送解码指令给解码单元 230;
解码单元 230, 用于对语音数据码流进行解码; 具体可以是在会议电视系 统中的终端设备、 MCU、 网关设备等; 根据所述判断单元 220发送的解码指 令对所述音量值对应的语音数据码流进行解码。
接收单元 210接收到的数据包, 然后进行拆分数据包, 区别出实际的音频 码流数据和与之对应的音量值数据。 判断单元 220对于需要根据音量值大小决 策是否需要进行解码的则直接对提取出来的语音音量值大小进行判断过滤,决 策是否需要解码, 需要则启动解码单元 230进行解码, 否则不启动解码。
由于能够从传送过来的数据直接获取到语音数据的音量值,解码设备支持 对音量值的判断过滤后决策是否进行解码, 因此可以节约解码设备的解码资 源。 这样, 对于支持超大容量的终端 /网关 /MCU等接入的应用场景下, 可以大 大节省解码资源配置, 为客户提供最低的成本, 但不影响任何服务质量。 也就 是说, 对于接收端, 本发明在判断该音量值是否满足要求之后, 确定是否对所 述语音码流进行解码, 从而避免或减少解码资源的浪费。 对于发送端, 将获取 到的语音数据码流及其对应的音量值通过数据包的形式发送给接收端,以便于 接收只对满足要求的语音码流进行解码, 从而避免或减少解码资源的浪费。
参照图 3本发明实施例提供的一种语音信号的处理方法, 包括如下步骤:
S301 , 发送端获取语音数据码流及其对应的音量值;
其中, 获取语音数据码流对应的音量值的方法包括如下几种:
( 1 )平均取值方法
假设音量值时间取值范围为每 4个时间单位为一个计算单元, 该计算单元 内的平均值算法则可以把 4个固定的间隔(可以是 4等分或者其他等分)读取一 次音量值, 然后所有音量值的加和 /取值的次数 =音量值。
( 2 )最大值取值方法
假设音量值时间取值范围为每 4个时间单位为一个计算单元, 该计算单元 内的最大值算法则可以把 4个刻度的时间分别按照固定的间隔(可以是 4等分或 者其他等分)读取一次音量值, 然后取所有音量值中的最大值作为本时间单元 内的音量值。
( 3 )音量面积积分加权取值方法
假设音量值时间取值范围为每 4个时间单位为一个计算单元,则通过该单 元内的面积(音量值曲线与横轴, 纵轴组成的面积)积分方法计算出面积, 然 后再根据上述平均取值或最大值等方法来计算出音量值,通过面积和取得的音 量值进行不同比例的加权计算,得出最终的音量值, 则能更好体现根据音量的 变化范围进行一种比较好的取值方法。
S302 , 将包括所述语音数据码流及其对应的音量值的数据包发送给接收 端;
所述方法还可以包括:
将所述音量值与所述语音数据码流一起按照预定格式进行封装得到数据 包; 并将封装后的数据包发送给接收端。
所述按照预定格式进行封装, 具体包括:
将预定格式数据包包头进行扩展,将所述音量值携带在所述数据包的扩展 包头;
( IP包交换网络) H323/SIP等基于 IP传送的系统: 直接在音频码流传输 中的 RTP协议中扩展 RTP包头的字段, 用于表示同步发送的语音码流的音量 值。
RTP协议数据包固定头部如图 3所示, RTP扩展头格式, 如图 4所示, 其 中的扩展头 Header extension (X): 1 bit, 其中 X为音量值。 如果该字段置 1 , RTP固定头后面必须跟至少一个扩展头部。将下面的 X位置设为 1 , 并放置在 固定头部之后 (包括 CSRC列表, 如果有的话), 媒体数据(包含媒体头和媒 体数据)之前。 扩展头长度不固定, 但是前 16 bits表示类型, 接着 16 bites表 示长度(包含自身和前面的类型长度)。
或者, 将所述音量值与所述语音数据码流按照对应关系封装到数据包中。 另外,也可釆用在语音码流中定义音量值, 可以釆用下面的表达形式进行 音频码流和音量值的封装,釆用标识字段进行标识后面跟随的数据是音量值还 是码流值,标识段至少要 1个 bit以上,可以用多个 bit位填特殊的数据表明该 段为标识段, 然后其中 lbit的 0/1值分别表示后续的数据是音量值或者是码流 数据; 音量值的表示数据则釆用 32bit表示; 后续的音频码流数据则按照现有 的格式进行封装, 根据音频协议的不同, 音频码流数据长度也不同, 因此, 在 此不进行具体音频码流数据的长度标识, 其实现方式与现有的一样即可。
当电视会议系统中釆用 E1/ISDN等电路交换专线, 如按照 H.320标准的电 视会议系统(H.320标准对基于电路交换的电视会议系统进行了定义, 能在传 输网络平台上开展标准的电视会议应用) , 在基于 H.320系统的传输通道中传 输用于表示同步发送的语音码流的音量值;
H.320是有专门的独立音频时隙 (通道), 目前其他非音频时隙已经没有 可以扩展的, 因为 H.320每个时隙都是独立传送某种类型的数据, 如果把音量 以本发明实施例中釆用在传输语音数据流的时隙中增加传送音量值,即在每次 传输音频码流数据前先进行音量值的传送, 实现——对应。
由于音频协议不同, 音频码流数据长度也不同, 因此本实施例中不进行具 体音频码流数据的长度标识, 具体釆用与以前一样的实现方式即可。 音量值数据段的定义建议釆用 32位以上, 其中 32位用于表示音量值, 其他 位用于标识该段数据为音量值表示数据。
另外, 根据实际每次封装音频码流的数据量(即一个时间段内的数据, 如
G.711A是每次封装 20ms时间长度的数据), 可以在传输音频码流前传输多个 音量值; 也可以多个音频码流数据前只传输一个音量值。
5303 ,接收端接收包括语音数据码流及其对应的音量值的数据包; 通常所 述音量值不迟于所述语音数据码流到达接收端;
5304, 判断所述音量值的大小;
将接收到的音量值与预定的业务策略所需要的音量值进行比较,根据比较 结果进行后续操作。
5305 ,若所述音量值大于业务策略所需要的音量值时,则对该音量值对应 的语音数据码流进行解码。
本发明实施例还提供一种语音信号发送方法, 包括:
S401 , 获取语音数据码流及其对应的音量值;
S402 , 将所述包括语音数据码流及其对应的音量值的数据包发送给接收 端。
其中, 所述获取语音数据码流及其对应的音量值具体包括: 发送端对需要 传输的音频信号进行抽样、编码形成语音数据码流; 从音频信号中获取语音数 据码流对应的音量值。
所述方法还可以包括:发送端将所述音量值与所述语音数据码流一起按照 预定格式进行封装, 得到数据包; 将封装后的数据包发送给接收端。
其中, 所述按照预定格式进行封装, 具体包括:
将预定格式数据包包头进行扩展, 将所述音量值携带在所述数据包的扩展 包头; 或
将所述音量值与所述语音数据码流按照对应关系封装到数据包中。
所述语音数据码流及其对应的音量值釆用电路交换方式传输,还包括: 按 照语音数据码流与其音量值对应关系在传输语音数据流的时隙中传送音量值。
参照图 5 , 本发明实施例还提供一种语音信号发送装置, 包括:
音量获取单元 510, 用于获取音频信号对应的音量值; 编码单元 520, 用于对所述音频信号进行抽样、 编码形成语音数据码流; 发送单元 540, 用于发送包括所述音量值及语音数据码流的数据包给接收 端。
进一步地还包括, 封装单元 530, 将所述音量值与所述语音数据码流一起 按照预定格式进行封装, 得到数据包;
发送单元 540将所述封装后的数据包发送给接收端。
可选的, 另一种语音信号发送装置可以包括: 获取单元, 用于获取语音 数据码流及其对应的音量值; 发送单元, 用于发送包括所述音量值及语音数据 码流的数据包给接收端:其中,所述获取单元包括:音量获取单元和编码单元。 所述编码单元,用于对需要传输的音频信号进行抽样、编码形成语音数据码流; 所述音量获取单元, 用于从音频信号中获取所述语音数据码流对应的音量值。
所述发送装置还可以包括: 封装单元, 将所述音量值与所述语音数据码流 一起按照预定格式进行封装,得到包括所述语音数据码流及其对应的音量值的 数据包。
本发明实施例提供的技术方案可以应用到所有涉及到语音通讯系统,包括 多点通讯或点对点通讯,可以应用到下一代 NGN通信网、 IP多媒体系统( IMS , IP Multimedia Subsystem ) 以及即时通讯等系统, 并且不受限于网络传输方式 以及设备类型。通过该技术可以较快获取到对端发送过来的音量值, 而进行相 应的应用, 实现不同程度的节省资源, 如对方的音量值低于预定值, 则本端进 行播放或混音处理时可以直接不进行解码其音频码流,直接釆用舒适噪音等进 行替代, 或者可以其他新的应用业务, 如静音期间插音广告等语音服务。
综上所述, 本发明实施例提供的技术方案,将音量值实时传递给接收码流 的设备, 可在解码之前获知接收语音码流对应的音量值, 在判断该音量值是否 满足要求之后,确定是否对所述语音码流进行解码,从而避免或减少解码资源 的浪费,有效解决了当前会议电视系统中对接收到的所有语音码流进行解码才 能获取到音量值的大量浪费资源的问题,支撑在该方案下的节能但不损伤任何 服务质量的一种应用方式。 也就是说, 对于接收端, 本发明在判断该音量值是 否满足要求之后, 确定是否对所述语音码流进行解码,从而避免或减少解码资 源的浪费。对于发送端,将获取到的语音数据码流及其对应的音量值通过数据 包的形式发送给接收端, 以便于接收只对满足要求的语音码流进行解码,从而 避免或减少解码资源的浪费。
另夕卜,根据本发明提供的语音码流和音量值的同步封装以及传送方案,有 效解决了一些协议或厂家分散传输语音码流和音量值导致的数据准确性低以 及难实现关联, 计算量大以及影响系统性能和指标以及语音时延大等问题。
本发明易于在会议电视现有协议基础上实现, 并且降低互通兼容的成本。 显然, 本领域的技术人员应该明白, 上述的本发明的各单元或各步骤可 以用通用的计算装置来实现, 它们可以集中在单个的计算装置上,或者分布在 多个计算装置所组成的网络上, 可选地, 它们可以用计算装置可执行的程序代 码来实现, 从而, 可以将它们存储在存储装置中由计算装置来执行, 或者将它 们分别制作成各个集成电路模块,或者将它们中的多个单元或步骤制作成单个 集成电路模块来实现。 这样, 本发明不限制于任何特定的硬件和软件结合。 以上所述仅为本发明的较佳实施例而已, 并非用于限定本发明的保护范围。凡 在本发明的精神和原则之内所作的任何修改、 等同替换、 改进等, 均包含在本 发明的保护范围内。

Claims

权 利 要 求
1、 一种语音信号的处理方法, 其特征在于, 包括:
接收包括语音数据码流及其对应的音量值的数据包;
判断所述音量值的大小, 并在所述音量值满足业务策略时,对该音量值对 应的语音数据码流进行解码。
2、 如权利要求 1所述的方法, 其特征在于, 所述音量值满足业务策略具 体为: 所述音量值大于预设的业务策略所需要的音量值。
3、 如权利要求 1所述的方法, 其特征在于, 所述音量值位于所述数据包 的扩展包头中。
4、 如权利要求 1所述的方法, 其特征在于, 所述方法还包括:
接收发送端通过电路交换方式传输所述包括语音数据码流及其对应的音 量值的数据包,所述音量值按照语音数据码流与其音量值对应关系在传输语音 数据流的时隙中传送。
5、 如权利要求 1至 4任一项所述的方法, 其特征在于, 所述数据包中包 含的音量值的数量根据抽样频率和 /或音量变化情况确定。
6、 一种语音信号处理装置, 其特征在于, 包括: 接收单元、 判断单元和 解码单元, 其中,
所述接收单元, 用于接收包括语音数据码流及其对应的音量值的数据包; 所述判断单元, 用于判断所述音量值的大小, 并在所述音量值满足业务策 略时, 发送解码指令给所述解码单元;
所述解码单元,用于根据所述判断单元发送的解码指令对所述音量值对应 的语音数据码流进行解码。
7、 一种语音信号的发送方法, 其特征在于, 包括:
获取语音数据码流及其对应的音量值;
将包括所述语音数据码流及其对应的音量值的数据包发送给接收端。
8、 如权利要求 7所述的方法, 其特征在于, 所述获取语音数据码流及其 对应的音量值包括:
对需要传输的音频信号进行抽样、 编码形成语音数据码流;
从音频信号中获取语音数据码流对应的音量值。
9、 如权利要求 7或 8所述的方法, 其特征在于, 所述方法还包括: 将所述音量值与所述语音数据码流一起按照预定格式进行封装,得到包括 所述语音数据码流及其对应的音量值的数据包。
10、如权利要求 9所述的方法,其特征在于,所述按照预定格式进行封装, 具体包括:
将预定格式数据包包头进行扩展, 将所述音量值携带在所述数据包的扩展 包头。
11、如权利要求 9所述的方法,其特征在于,所述按照预定格式进行封装, 具体包括:
将所述音量值与所述语音数据码流按照对应关系封装到数据包中。
12、 如权利要求 7所述的方法, 其特征在于, 所述将包括所述语音数据码 流及其对应的音量值的数据包发送给接收端包括:
通过电路交换方式向接收端传输所述包括语音数据码流及其对应的音量 值的数据包, 其中, 所述音量值按照语音数据码流与其音量值对应关系在传输 语音数据流的时隙中传送。
13、 一种语音信号发送装置, 其特征在于, 包括:
获取单元, 用于获取语音数据码流及其对应的音量值;
发送单元, 用于发送包括所述音量值及语音数据码流的数据包给接收端。
14、 如权利要求 13所述的装置, 其特征在于, 所述获取单元包括: 编码单元,用于对需要传输的音频信号进行抽样、编码形成语音数据码流; 音量获取单元, 用于从音频信号中获取所述语音数据码流对应的音量值。
15、 如权利要求 13或 14所述的装置, 其特征在于, 还包括:
封装单元, 将所述音量值与所述语音数据码流一起按照预定格式进行封 装, 得到包括所述语音数据码流及其对应的音量值的数据包。
PCT/CN2010/070076 2009-01-23 2010-01-08 一种语音信号的处理方法、语音信号的发送方法及装置 WO2010083737A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200910008450.4 2009-01-23
CNA2009100084504A CN101489091A (zh) 2009-01-23 2009-01-23 一种语音信号传输处理方法及装置

Publications (1)

Publication Number Publication Date
WO2010083737A1 true WO2010083737A1 (zh) 2010-07-29

Family

ID=40891738

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2010/070076 WO2010083737A1 (zh) 2009-01-23 2010-01-08 一种语音信号的处理方法、语音信号的发送方法及装置

Country Status (2)

Country Link
CN (1) CN101489091A (zh)
WO (1) WO2010083737A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015149613A1 (en) * 2014-04-04 2015-10-08 Beijing Zhigu Rui Tuo Tech Co., Ltd Volume control methods and devices, and multimedia playback control methods and devices

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101489091A (zh) * 2009-01-23 2009-07-22 深圳华为通信技术有限公司 一种语音信号传输处理方法及装置
CN106973253B (zh) * 2016-01-13 2020-04-14 华为技术有限公司 一种调整媒体流传输的方法及装置
CN108401066B (zh) * 2017-02-08 2022-01-25 北京奇虎科技有限公司 在智能终端中进行语音控制的方法、装置和智能终端
CN109087656B (zh) * 2017-06-14 2020-11-17 广东亿迅科技有限公司 一种基于mcu的多媒体会议混音方法及装置
CN107276777B (zh) * 2017-07-27 2020-05-29 苏州科达科技股份有限公司 会议系统的音频处理方法及装置
JP6929811B2 (ja) * 2018-03-13 2021-09-01 Tvs Regza株式会社 音声対話端末、および音声対話端末制御方法
CN112260982B (zh) * 2019-07-22 2022-03-11 华为技术有限公司 音频处理方法及设备
CN110995915A (zh) * 2019-11-19 2020-04-10 维沃移动通信有限公司 音频数据保存、播放的方法及装置
WO2021185318A1 (zh) * 2020-03-20 2021-09-23 海信视像科技股份有限公司 多媒体设备及投屏播放方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1885711A (zh) * 2005-06-24 2006-12-27 腾讯科技(深圳)有限公司 一种音量控制方法和系统
CN101040524A (zh) * 2004-08-24 2007-09-19 高通股份有限公司 用于在无线系统中优化音频及视频数据传输的系统及方法
CN101489091A (zh) * 2009-01-23 2009-07-22 深圳华为通信技术有限公司 一种语音信号传输处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101040524A (zh) * 2004-08-24 2007-09-19 高通股份有限公司 用于在无线系统中优化音频及视频数据传输的系统及方法
CN1885711A (zh) * 2005-06-24 2006-12-27 腾讯科技(深圳)有限公司 一种音量控制方法和系统
CN101489091A (zh) * 2009-01-23 2009-07-22 深圳华为通信技术有限公司 一种语音信号传输处理方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015149613A1 (en) * 2014-04-04 2015-10-08 Beijing Zhigu Rui Tuo Tech Co., Ltd Volume control methods and devices, and multimedia playback control methods and devices
US10312874B2 (en) 2014-04-04 2019-06-04 Beijing Zhigu Rui Tuo Tech Co., Ltd Volume control methods and devices, and multimedia playback control methods and devices

Also Published As

Publication number Publication date
CN101489091A (zh) 2009-07-22

Similar Documents

Publication Publication Date Title
WO2010083737A1 (zh) 一种语音信号的处理方法、语音信号的发送方法及装置
WO2019128204A1 (zh) 会议实现方法、装置、设备和系统、计算机可读存储介质
US8531994B2 (en) Audio processing method, system, and control server
JP5356360B2 (ja) 無線通信システムにおけるオーディオおよびビデオデータの同期
CN101889422B (zh) 用于使终端的输出同步的方法及系统
US10068581B2 (en) Method and arrangement for providing a backwards compatible payload format
WO2012167638A1 (zh) 媒体数据控制方法及装置
WO2013113281A1 (zh) 传输多媒体数据的方法、装置及系统
CN106921843A (zh) 数据传输方法及装置
WO2012068940A1 (zh) 通过ip网络监控终端的方法及mcu
WO2021073155A1 (zh) 视频会议方法、装置、设备及存储介质
CN111131743A (zh) 基于浏览器的视频通话方法、装置、电子设备及存储介质
CN111614927A (zh) 视频会话建立法、装置、电子设备及存储介质
US7616650B2 (en) Video flow control and non-standard capability exchange for an H.320 call leg
US20090201940A1 (en) Method, system and gateway for negotiating the capability of data signal detector
CN110611639A (zh) 流媒体会议的音频数据处理方法和装置
WO2021017807A1 (zh) 通话连接建立方法和第一终端、服务器及存储介质
CN102231734A (zh) 实现从文本到语音tts的音频转码方法、装置及系统
WO2010130193A1 (zh) 音频媒体发包控制装置、方法及音频媒体服务器
TWI403197B (zh) In the wireless broadband network transmission of multimedia streaming user platform, communication systems and methods
CN103188403A (zh) 语音网关在线监听方法
CN112887497B (zh) 通信方法、装置和计算机存储介质
CN110087020B (zh) 一种iOS设备进行视联网会议的实现方法及系统
EP4358591A1 (en) Data transmission method and related device
CN109150917B (zh) 基于sip协议的视频合成控制方法和系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10733210

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10733210

Country of ref document: EP

Kind code of ref document: A1