WO2015007075A1 - 一种声道间电平差处理方法及装置 - Google Patents

一种声道间电平差处理方法及装置 Download PDF

Info

Publication number
WO2015007075A1
WO2015007075A1 PCT/CN2014/070131 CN2014070131W WO2015007075A1 WO 2015007075 A1 WO2015007075 A1 WO 2015007075A1 CN 2014070131 W CN2014070131 W CN 2014070131W WO 2015007075 A1 WO2015007075 A1 WO 2015007075A1
Authority
WO
WIPO (PCT)
Prior art keywords
frame
icld
subframe
subband
sub
Prior art date
Application number
PCT/CN2014/070131
Other languages
English (en)
French (fr)
Inventor
张兴涛
苗磊
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Priority to JP2016520245A priority Critical patent/JP6106336B2/ja
Priority to KR1020157032153A priority patent/KR101730362B1/ko
Priority to EP14826895.6A priority patent/EP2977984B1/en
Priority to BR112015030201A priority patent/BR112015030201A2/pt
Publication of WO2015007075A1 publication Critical patent/WO2015007075A1/zh
Priority to US14/931,975 priority patent/US10002615B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Definitions

  • the input stereo audio signal is first parsed to obtain an Inter-Channe l Leve l Difference (ICLD) value in each sub-band of the frame carrying the stereo audio signal. Then, the obtained ICLD value is compared with the ICLD value obtained in the previous frames.
  • the stereo audio signal carried by the frame is a transient Transient, otherwise the frame
  • the stereo audio signal carried is the normal Norma 1.
  • the Trans ient is divided into 2 frames for transmission, that is, the ICLDs of the odd subbands and the even subbands are respectively transmitted.
  • the transmission is divided into 4 frames, that is, the ICLD of 1/4 subband is transmitted per frame.
  • ref inement processing is further performed on Norma l.
  • Embodiments of the present invention provide a method and apparatus for processing an inter-channel level difference, which can ensure a decoded stereo audio quality in a case where a signal changes rapidly or is lost, and implements a stereo audio signal. Low bit rate transmission.
  • an embodiment of the present invention provides a method for processing an inter-channel level difference, including: receiving a stereo audio signal, and parsing the stereo audio signal frame by frame to obtain each sub-frame of the stereo audio signal.
  • the ICLD weight value of each subband in the any frame is calculated by the first weighting method.
  • the second weighting manner is used to calculate the ICLD weight value of each subband in the any frame.
  • the determining, by using the first weighting manner, the ICLD weight value of each subband in the any frame includes:
  • the calculating according to the number of subframes included in any one of the frames, calculating a number of the bth subband in the i th subframe A weighting factor, including:
  • the determining, by using the second weighting manner, the ICLD weight value of each subband in the any frame includes:
  • calculating, according to the calculated sum of absolute values of ICLDs of each subframe in the any frame of the stereo audio signal, The second weighting factor of the bth subband in the ith subframe includes:
  • Fac 2 (i,b) sum(i) / Vsum(j)
  • the calculating, according to the ICLD of the b-th sub-band in the i-th subframe of the any frame, The second weighting factor of the bth subband in the subframe includes:
  • an embodiment of the present invention provides an inter-channel level difference processing apparatus, including: a receiving unit, configured to receive a stereo audio signal;
  • a parsing unit configured to parse the stereo audio signal frame by frame according to the stereo audio information received by the receiving unit, to obtain inter-channel power of each sub-band of each sub-frame in each frame of the stereo audio signal Adjusting the ICLD, the frame includes at least two subframes;
  • a calculating unit configured to calculate, according to an ICLD of each sub-band of each subframe in each frame of the stereo audio signal obtained by the parsing unit, calculate an ICLD of each subframe in any frame of the stereo audio signal The sum of absolute values;
  • a first weighting processing unit configured to calculate the any frame by using a first weighting manner when an absolute value of a difference between a sum of absolute values of ICLDs of any two of the frames is less than a preset threshold ICLD weighting value for each subband in the middle;
  • a second weighting processing unit configured to calculate the any frame by using a second weighting manner when an absolute value of a difference between a sum of absolute values of ICLDs of any two of the frames is not less than a preset threshold The ICLD weighting value for each subband in the middle.
  • the first weighting processing unit includes:
  • a first calculating module configured to calculate, according to the number of subframes included in the any frame, a first weighting factor of a b-th sub-band in the i-th subframe, where i represents any one of the frames included in any one of the frames Subframe, 0 ⁇ i ⁇ L, the L is the number of subframes included in the any frame, and L > 2, the b represents any one of the i-th subframes, 0 ⁇ b K , K represents the number of subbands included in any one subframe, K > 12;
  • a second calculating module configured to calculate the b-th sub-band in the any frame according to the first weighting factor and an ICLD of the b-th sub-band in the i-th subframe of any one of the frames The ICLD weighted value.
  • the first computing module is configured to:
  • the second weighting processing unit includes:
  • a third calculating module configured to calculate a second weighting factor of the bth subband in the i-th subframe according to the sum of absolute values of ICLDs of each subframe in the any frame of the stereo audio signal
  • i represents any one of the subframes included in any one of the frames, 0 ⁇ i L
  • the L is the number of subframes included in the any frame, and L > 2,
  • b represents the Any one of the i-th sub-frames, 0 ⁇ b ⁇ K
  • the ⁇ indicates the number of sub-bands included in any one of the sub-frames, ⁇ > 12;
  • the fourth calculation module is configured to use any one of the frames Calculating a second weighting factor of the bth subband in the ith subframe in the ICLD of the bth subband in the i th subframe;
  • a fifth calculating module configured to calculate the b-th sub-band in the any frame according to the second weighting factor and an ICLD of the b-th sub-band in the i-th subframe of any one of the frames The ICLD weighted value.
  • the third computing module is configured to:
  • Fac 2 (i,b) sum(i) / Vsum(j)
  • the fourth calculation module is used for:
  • the fifth calculating module is configured to:
  • Embodiments of the present invention provide a method for processing an inter-channel level difference by receiving a stereo audio signal and parsing the stereo audio signal frame by frame to obtain each sub-frame of each frame of the stereo audio signal.
  • Inter-channel level difference ICLD of the band the frame includes at least two sub-frames; the stereo audio is calculated according to the ICLD of each sub-band of each sub-frame in each frame of the obtained stereo audio signal.
  • the sum of the absolute values of the ICLD of each subframe in any frame of the signal when the absolute value of the difference between the sum of the absolute values of the ICLDs of any two of the frames is less than the preset threshold, Calculating an ICLD weighting value of each subband in any one of the frames in a weighting manner; when the absolute value of the difference between the sum of the absolute values of the ICLDs of any two of the frames is not less than a preset threshold,
  • the second weighting method calculates an ICLD weighting value for each subband in the any frame.
  • FIG. 1 is a flowchart of a method for processing an inter-channel level difference according to an embodiment of the present invention
  • FIG. 1 is a flowchart of a method for processing an inter-channel level difference according to another embodiment of the present invention
  • 3 is a flowchart of a method for processing an inter-channel level difference according to another embodiment of the present invention
  • FIG. 4 is a flowchart of another method for processing an inter-channel level difference according to another embodiment of the present invention
  • FIG. 5 is a block diagram of an inter-channel level difference processing apparatus according to an embodiment of the present invention
  • FIG. 6 is a block diagram of another inter-channel level difference processing apparatus according to an embodiment of the present invention
  • An embodiment of the present invention provides a method for processing a level difference between channels, which is applied to an encoding end of a stereo audio. As shown in FIG. 1, the method includes:
  • Step 101 Receive a stereo audio signal, and parse the stereo audio signal frame by frame to obtain a An inter-channel level difference ICLD of each sub-band of each sub-frame in each frame of the stereo audio signal, wherein each frame includes at least two sub-frames.
  • a stereo audio signal can be made up of many frames.
  • each frame can be further divided into a plurality of subframes, and each subframe can be divided into a plurality of sub-bands.
  • the number of subframes included in each frame is an even number, and each frame may include at least two subframes, for example, one subframe includes two subframes, or one frame. It includes 4 subframes, or 6 subframes in one frame, and so on. At least 12 sub-bands are included in each subframe.
  • ICLD is used to distinguish the horizontal direction of the stereo source and describes the difference in intensity between the channels, which will affect the frequency content of the entire spectrum. Further optionally, ICLD is the power ratio of the two input channel signals, for example, the ICLD value of the bth subband is:
  • Level(b) 101og 10 , where XL(P) and X R (P) are the frequency domain coefficients of the left and right channels, respectively.
  • P is the frequency point value
  • the calculation range of level (b) is A ⁇ p Ab , , A b respectively represents the frequency point value corresponding to different frequencies
  • b represents any one of the sub-subframes, 0 ⁇ b K
  • the K represents the number of sub-bands included in any one subframe, K > 12.
  • the ⁇ indicates that in order to approximate the auditory characteristics of the human ear, the spectral coefficients having the same frequency resolution can be divided into ⁇ non-overlapping sub-bands according to the critical band theory.
  • Step 102 Calculate a sum of absolute values of ICLDs of each subframe in any frame of the stereo audio signal according to the obtained ICLD of each sub-band of each subframe in each frame of the stereo audio signal.
  • Step 103 When the absolute value of the difference between the sum of the absolute values of the ICLDs of any two of the frames is less than a preset threshold, calculate, by using the first weighting method, each subband of any one of the frames. ICLD weighted value.
  • the preset threshold is a threshold obtained based on actual experience.
  • the step includes: calculating, according to the number of subframes included in any frame, a first weighting factor of a b-th sub-band in the i-th subframe;
  • the first weighting factor of the b-th sub-band in the i-th subframe is calculated according to the number of the subframes included in the any one of the frames, including:
  • Step 104 When the absolute value of the difference between the sum of the absolute values of the ICLDs of any two of the frames is not less than a preset threshold, calculate a second weighting manner for each subband of the any frame. ICLD weighted value.
  • the second weighting manner is used to calculate each of the subframes.
  • the absolute value of the difference between the sum of the absolute values of the ICLDs of any two subframes included in any frame is not less than the preset threshold. It can be understood that: the absolute values of all the differences are greater than or equal to the preset threshold. , or department The absolute value of the difference is less than the preset threshold, and the absolute value of the remaining difference is greater than or equal to the preset threshold.
  • the step includes: obtaining, according to the calculated absolute value of the ICLD of each subframe in the any frame of the stereo audio signal, or according to the bth in the i-th subframe in any one of the frames
  • the ICLD of the subbands calculates a second weighting factor of the bth subband in the i-th subframe, where i represents any one of the subframes included in any one of the frames, 0 ⁇ i L, the L is The number of subframes included in any frame, and L > 2, where b represents any one of the i-th subframes, 0 ⁇ b K, and the K represents a sub-band included in any one of the subframes Quantity, K >12;
  • Fac 2 (i,b) sum(i) / Vsum(j)
  • one subframe may be divided into K subbands, for example, subband 1, subband 2, ... subband K, where 1, 2, ... K is the index number of the subband.
  • L is rounded down
  • II is rounded up.
  • the obtained ICLD weighting value is quantized.
  • the quantization process is performed by comparing the preset codebook with the ICLD weighting value to obtain a value in the preset codebook that is closest to the ICLD weighting value. For example, if the ICLD weighting value is 1. 4 and the default codebook includes 0 and 2 values, the value obtained by quantizing the ICLD weighting value is 2.
  • the bit transmission is reduced, and when the quantization process is performed, the difference between the current ICLD weight value and the previous ICLD weight value may be calculated, and the calculated difference is obtained.
  • the values are quantized. For example, one sub-frame is divided into 15 sub-bands, and the ICLD weighting value of the first sub-band is directly quantized.
  • the ICLD weighting value of the first sub-band is quantized, the ICLD weighting value of the second sub-band is first calculated.
  • the difference between the ICLD weights of the first subband, and then the calculated difference is quantized to obtain the ICLD weight of the second subband.
  • the quantized result of the value can be used to calculate the quantized result of the ICLD weighting value of the other sub-bands in turn according to the method of calculating the quantized result of the ICLD weighting value of the second sub-band.
  • An embodiment of the present invention provides a method for processing an inter-channel level difference, by calculating any frame of the stereo audio signal according to an ICLD of each sub-band of each subframe in each frame of the obtained stereo audio signal.
  • the frame length carrying stereo audio is long, when processing stereo audio of 10 ms, if Norma l is processed in 4 frames, it is equivalent to performing ICLD update every 40 ms (4*10 ms), resulting in signal change.
  • the quality of the decoded stereo audio cannot be guaranteed in the case of rapid or packet loss.
  • the ICLD is transmitted frame by frame, the low bit rate transmission of the stereo audio signal cannot be achieved.
  • the present invention The I CLD of the subframe of the frame is weighted so that the decoded stereo audio quality can be guaranteed in the case of rapid signal change or packet loss, and low bit rate transmission of the stereo audio signal can be realized.
  • Embodiments of the present invention provide a method for processing a level difference between channels.
  • a frame includes two subframes for detailed description.
  • a frame includes a first subframe and a second subframe.
  • the method includes:
  • Step 201 Receive a stereo audio signal, and parse the stereo audio signal frame by frame to obtain an inter-channel level difference I CLD of each sub-band of each sub-frame in each frame of the stereo audio signal.
  • two subframes are included in each frame. That is, the stereo audio signal is received, and the stereo audio signal is parsed frame by frame, and the inter-channel level difference ICLD of each sub-band of the first sub-frame and the second sub-frame in each frame of the stereo audio signal can be obtained.
  • the specific processing manner of parsing the stereo audio signal on a frame-by-frame basis to obtain the ICLD of each sub-band in each sub-frame can be referred to the description in step 101 in FIG. 1, and is not described here.
  • Step 202 According to the obtained sub-bands of each subframe in each frame of the stereo audio signal The ICLD calculates a sum of absolute values of inter-channel level differences ICLD of the first sub-frame and the second sub-frame in any one of the stereo audio signals.
  • Step 203 Determine whether the absolute value of the difference between the sum of the absolute values of the ICLDs of the first subframe and the absolute value of the ICLD of the second subframe is at a preset threshold.
  • the absolute value of the difference between the sum of the absolute values of the ICLDs of the first subframe and the absolute values of the ICLDs of the second subframe is determined according to I sum (1)-sum (2) I ⁇ TH Both are less than the preset threshold.
  • TH is the preset threshold, and the preset threshold can be set according to actual experience.
  • Step 204 When the absolute value of the difference between the sum of the absolute values of the ICLD of the first subframe and the absolute value of the ICLD of the second subframe is less than a preset threshold, the first weighting method is used to calculate The ICLD weighting value for each subband in any of the frames.
  • the ICLD weighting of each subband in the any frame may be calculated by using the first weighting manner. value.
  • the step includes: calculating, according to the number of subframes included in the any frame, a first weighting factor of the b-th sub-band in the i-th subframe, where the i indicates any one included in the any frame.
  • the first weighting factor of the b-th sub-band in the i-th subframe is calculated according to the number of subframes included in any one of the frames, including:
  • L is 2
  • the first weighting factor of the first subframe or the second subframe in any frame is fac ⁇ iW ⁇ / I ⁇ OJ.
  • Step 205 When the absolute value of the difference between the sum of the absolute values of the ICLDs of any two of the frames is not less than a preset threshold, calculate a second weighting manner for each subband of the any frame. ICLD weighted value.
  • the second weighting manner may be used to calculate each of the subframes. I CLD weighted value with band.
  • the second weighting manner is used to calculate the ICLD weighting value of each subband in the any frame, which can be calculated in the following three manners: mode one, integer frame weighting processing; mode two, based on the current subband Subband weighting processing; Mode 3, based on sub-subband weighting processing of adjacent M subbands.
  • the step when performing weighting processing by using mode 1, the step includes:
  • Fac 2 (i,b) sum(i) / Vsum(j)
  • the step includes:
  • the first subframe or the second subframe of the second subframe is calculated according to the ICLD of the first subframe included in any frame of the calculated stereo audio or the second subframe of the second subframe.
  • fac 2 (b)
  • the level (b) represents an ICLD weighting value of the b-th sub-band in the any frame, 0 ⁇ b K, the K Representing the number of subbands included in any one subframe, ⁇ >12
  • the fac 2 (i, b) is the second weighting factor of the bth subband in the i th subframe, 0 ⁇ i L
  • the l eve l(i,b) represents the ICLD of the bth subband of the i-th subframe.
  • the step includes:
  • the first subframe or the second subframe of the second subframe is calculated according to the ICLD of the first subframe included in any frame of the calculated stereo audio or the second subframe of the second subframe.
  • the second weighting factor of the subbands including:
  • one subframe may be divided into ⁇ subbands, for example, subband 1, subband 2, ... subband K, where 1, 2, ... K is the index number of the subband.
  • Fac 2 (b)
  • Step 206 Perform quantization processing on the obtained ICLD weighting value.
  • the quantization process is performed by comparing the preset codebook with the ICLD weight value to obtain a value in the preset codebook that is closest to the ICLD weighting value. For example, if the ICLD weighting value is 1. 4 and the default codebook includes 0 and 2 values, the value obtained by quantizing the ICLD weighting value is 2.
  • the bit transmission is reduced, and when the quantization process is performed, the current ICLD weight value and the previous ICLD weight value may be calculated.
  • the difference is quantized by the calculated difference. For example, one sub-frame is divided into 15 sub-bands, and the ICLD weighting value of the first sub-band is directly quantized. When the ICLD weighting value of the first sub-band is quantized, the ICLD weighting value of the second sub-band is first calculated.
  • the difference between the ICLD weighting values of the first sub-band, and then the calculated difference is quantized to obtain the quantized result of the ICLD weighting value of the second sub-band, which can be quantized according to the calculation of the ICLD weighting value of the second sub-band.
  • the resulting method sequentially calculates the quantized results of the ICLD weighting values of the other sub-bands.
  • Step 301 Receive a stereo audio signal, and parse the stereo audio signal frame by frame to obtain each frame of the stereo audio signal.
  • the four subframes are included in each frame.
  • the specific processing manner of parsing the stereo audio signal on a frame-by-frame basis and obtaining the ICLD of each sub-band in each sub-frame can be referred to the description in step 101 in FIG. 1, and is not described here.
  • Step 302 Calculate a sum of absolute values of ICLDs of each subframe in any frame of the stereo audio signal according to the obtained ICLD of each sub-band of each subframe in each frame of the stereo audio signal.
  • the ⁇ represents the number of subbands included in any one of the subframes, ⁇ > 12, and the i represents any one of the subframes included in any frame, in this embodiment, Q ⁇ i 4.
  • Step 303 Determine whether an absolute value of a difference between a sum of absolute values of ICLDs of any two of the frames is less than a preset threshold.
  • the absolute value of the difference between the sum of the absolute values of the ICLDs of the i-th subframe and the j-th subframe in any one frame is determined according to I s ⁇ (i) -sum (j) I ⁇ TH Preset threshold.
  • TH is the preset threshold, and the preset threshold can be set according to actual experience.
  • Step 304 When the absolute value of the difference between the sum of the absolute values of the ICLDs of any two subframes in any one of the frames is less than a preset threshold, the first weighting manner is used to calculate each subband of the any frame. ICLD weighted value.
  • I sum (i) -sum (j) I ⁇ TH indicating that the i-th subframe is close to the ICLD of the j-th subframe
  • the I of each sub-band in the any frame may be calculated by using the first weighting manner.
  • CLD weighted value When the absolute value of the difference between the sum of the absolute values of the ICLDs of any two subframes in any one of the frames is less than a preset threshold, the first weighting manner is used to calculate each subband of the any frame.
  • ICLD weighted value When I sum (i) -sum (j) I ⁇ TH, indicating that the i-th subframe is close to the ICLD of the j-th subframe
  • this step includes:
  • the first weighting factor of the b-th sub-band in the i-th subframe is calculated according to the number of subframes included in any one of the frames, including:
  • the ICLD weight of the b-th subband of any frame is: w .
  • the second weighting manner may be used to calculate each sub-band of the any frame.
  • ICLD weighted value the absolute value of the difference between the sum of the absolute values of the ICLDs of any two subframes included in any frame is not less than the preset threshold. It can be understood that: the absolute values of all the differences are greater than or equal to the preset threshold. , or the absolute value of the partial difference is less than the preset threshold, and the absolute value of the remaining difference is greater than or equal to the preset threshold.
  • I ⁇ TH the ICLD weighting value of any one of the sub-bands can be calculated by the second weighting method.
  • the second weighting manner is used to calculate the ICLD weighting value of each subband in the any frame, which can be calculated in the following three manners: mode one, integer frame weighting processing; mode two, based on the current subband Subband weighting processing; Mode 3, based on sub-subband weighting processing of adjacent M subbands.
  • the step when performing weighting processing by using mode 1, the step includes:
  • calculating a second weighting factor of the b-th sub-band in the ith subframe according to the sum of absolute values of ICLDs of each subframe in the any frame of the stereo audio signal including:
  • Fac 2 (i,b) sum(i) / Vsum(j)
  • Fac 2 (i, b) sum(i) I ⁇ sum(j)
  • the step includes:
  • this step includes:
  • the second weighting factor of the b-th sub-band in the i-th subframe is calculated according to the ICLD of the b-th sub-band in the i-th subframe of the any one of the frames, including:
  • one subframe can be divided into K subbands, such as subband 1, subband 2, and subband K.
  • 1, 2, ... K is the index number of the subband.
  • the second weighting factor of the b-th sub-band in the i-th subframe is calculated based on the ICLD of the adjacent one sub-band:
  • the second weighting factor of the b-th sub-band in the i-th subframe is calculated based on the ICLD of the adjacent three sub-bands:
  • Step 306 Perform quantization processing on the obtained ICLD weighting value.
  • the quantization process is performed by comparing the preset codebook with the ICLD weight value to obtain a value in a preset codebook that is closest to the ICLD weighting value. For example, if the ICLD weighting value is 1.4, and the preset codebook includes 0 and 2 values, the value obtained by quantizing the ICLD weighting value is 2.
  • the bit transmission is reduced, and when the quantization process is performed, the difference between the current ICLD weight value and the previous ICLD weight value may be calculated, and the calculated difference is performed.
  • Quantitative processing For example, one sub-frame is divided into 15 sub-bands, and the ICLD weighting value of the first sub-band is directly quantized. When the ICLD weighting value of the second sub-band is quantized, the ICLD weighting value of the second sub-band is first calculated.
  • the difference between the ICLD weighting values of the first sub-band, and then the calculated difference is quantized to obtain the quantized result of the ICLD weighting value of the second sub-band, which can be quantized according to the calculation of the ICLD weighting value of the second sub-band.
  • the resulting method sequentially calculates the quantized results of the ICLD weighting values of the other sub-bands.
  • the segmentation signal-to-noise ratio obtained by the prior art is obtained when there is no packet loss during stereo audio signal transmission (
  • the SSNR obtained is 3.73 dB.
  • the SSNR is 3.73 dB.
  • the SSNR obtained by the prior art is 3.59 dB
  • the obtained SSNR is 3.72 dB
  • the test result is no packet loss when there is a packet loss during the transmission of the stereo audio signal. The test results obtained are similar.
  • the embodiment of the invention provides a method for processing the inter-channel level difference, which performs weighting processing on the ICLD of any one subframe based on the inter-subframe correlation, and quantizes the ICLD weighting value, so that the coding bit can be effectively reduced.
  • the rate and in the case of rapid signal changes and packet loss, can guarantee the quality of the decoded stereo audio, and achieve the desired effect.
  • An embodiment of the present invention provides a method for processing an inter-channel level difference.
  • an input quantized stereo audio bit stream is received, and the bit stream is parsed to obtain K (K > 12).
  • the ICLDs of the subbands sequentially use the ICLD values of the respective subbands as the ICLDs of the respective subbands of the current sub-frames, thereby obtaining the decoded stereo audio signal.
  • the ICLD of subband 1 obtained after parsing the received bit stream is A
  • the ICLD of subband 2 is B
  • the ICLD of the subband 3 is C or the like.
  • the ICLD of the subband 1 of each subframe is A
  • the ICLD of the subband 2 is B
  • the ICLD of the subband 3 is C or the like.
  • An inter-channel level difference processing method provided by an embodiment of the present invention, after decoding the received quantized stereo audio bit stream, can obtain higher quality stereo audio, and achieve low stereo audio signal Bit rate transmission.
  • the embodiment of the present invention provides an inter-channel level difference processing device, which may be an encoding end for processing stereo audio. As shown in FIG. 5, the device includes: a receiving unit 501, an analyzing unit 502, and a calculating unit 503, a weighting processing unit 504, a second weighting processing unit 505;
  • a receiving unit 501 configured to receive a stereo audio signal
  • the parsing unit 502 is configured to parse the stereo audio signal frame by frame according to the stereo audio information received by the receiving unit 501, and obtain a channel of each sub-band of each sub-frame in each frame of the stereo audio signal.
  • Inter-level difference ICLD wherein each frame includes at least two subframes;
  • a stereo audio signal can be made up of many frames.
  • each frame can be further divided into a plurality of subframes, and each subframe can be divided into a plurality of sub-bands.
  • the number of subframes included in each frame is an even number, and each frame may include at least two subframes, for example, one subframe includes two subframes, or one frame. It includes 4 subframes, or 6 subframes in one frame, and so on. At least 12 sub-bands are included in each subframe.
  • ICLD is used to distinguish the horizontal direction of the stereo source and describes the difference in intensity between the channels, which will affect the frequency content of the entire spectrum.
  • the calculating unit 503 is configured to calculate, according to the ICLD of each sub-band of each subframe in each frame of the stereo audio signal obtained by the parsing unit 502, calculate each subframe in any frame of the stereo audio signal.
  • a first weighting processing unit 504 configured to calculate any one of the first weighting manners when an absolute value of a difference between a sum of absolute values of ICLDs of any two of the frames is less than a preset threshold ICLD weighting value for each subband in the frame;
  • a second weighting processing unit 505 configured to calculate, according to a second weighting manner, when the absolute value of the difference between the sum of the absolute values of the ICLDs of any two of the frames is not less than a preset threshold Every frame The ICLD weighting value of the subbands.
  • the absolute value of the difference between the sum of the absolute values of the ICLDs of any two subframes included in any frame is not less than the preset threshold. It can be understood that: the absolute values of all the differences are greater than or equal to the preset threshold. , or the absolute value of the partial difference is less than the preset threshold, and the absolute value of the remaining difference is greater than or equal to the preset threshold.
  • the calculation unit 503 calculates, according to the ICLD of each sub-band of each subframe in each frame of the stereo audio signal obtained by the parsing unit, each sub-frame of the stereo audio signal.
  • the first weighting processing unit 504 adopts the first Before the weighted manner calculates the ICLD weighting value of each subband in any one of the frames, or when the absolute value of the difference between the sum of the absolute values of the ICLDs of any two of the frames is not less than a preset threshold
  • the second weighting processing unit 505 calculates the ICLD weighting value of each subband in the any frame by using the second weighting manner, the difference between the absolute values of the ICLDs of any two subframes in the any frame may be determined. Whether the absolute value is less than the preset threshold.
  • the first weighting processing unit 504 includes: a first calculating module 5041 and a second calculating module 5042.
  • a first calculating module 5041 configured to calculate, according to the number of subframes included in the any frame, a first weighting factor of a b-th sub-band in the i-th subframe, where the i indicates any one of the frames included in the any one of the frames One subframe, 0 ⁇ i L, the L is the number of subframes included in the any frame, and L > 2, the b represents any one of the i-th subframes, 0 ⁇ b K , K represents the number of subbands included in any one subframe, K > 12;
  • the first calculating module 5041 is configured to:
  • a second calculating module 5042 configured to calculate, according to the first weighting factor and an ICLD of the bth subband in the i th subframe of any one of the frames, the bth sub The ICLD weighted value of the band.
  • the second weighting processing unit 505 includes: a third calculating module 5051, a fourth calculating module 5052, and a fifth calculating module 5053.
  • a third calculating module 5051 configured to calculate, according to the calculated sum of absolute values of ICLDs of each subframe in the any frame of the stereo audio signal, a second weighting of the b-th sub-band in the i-th subframe a factor, where i represents any one of the subframes included in any one of the frames, 0 ⁇ i L, the L is the number of subframes included in the any frame, and L>2, where b represents Any one of the i-th sub-frames, 0 ⁇ b ⁇ K, the K represents the number of sub-bands included in any one of the sub-frames, K>12; or, the fourth calculation module 5052 is configured to An ICLD of a b-th sub-band in an i-th subframe of a frame, and calculating a second weighting factor of the b-th sub-band in the i-th subframe;
  • a fifth calculating module 5053 configured to calculate, according to the second weighting factor and an ICLD of the bth subband in the i th subframe of any one of the frames, the bth subunit in any one of the frames The ICLD weighted value of the band.
  • the third calculating module 5051 is configured to:
  • Fac 2 (i,b) sum(i) / Vsum(j)
  • the sub-subband weighting processing manner is performed according to the IC sub-bands of the adjacent M sub-bands, and when the second adding factor weight of the b-th sub-band in the i-th subframe is calculated, the fourth calculating module 5052 uses In:
  • one subframe can be divided into K subbands, for example, subband 1, subband 2, ... subband K, where 1, 2, ... K is the index number of the subband.
  • the segmentation signal-to-noise ratio (SSNR) obtained by the prior art is 3.63 dB
  • the present invention is used when there is no packet loss during the transmission of the stereo audio signal.
  • the SSNR obtained was 3.73 dB after the method provided in the example. It should be noted that the larger the SSNR value, the closer the codec processing audio is to the original audio, that is, the better the effect. ldB ⁇ Thus, the method provided by the embodiment of the present invention is higher than the prior art.
  • the SSNR obtained by the prior art is 3.59 dB
  • the obtained SSNR is 3.72 dB
  • the test result is no packet loss when there is a packet loss during the transmission of the stereo audio signal. The test results obtained are similar.
  • An embodiment of the present invention provides an inter-channel level difference processing apparatus, which performs weighting processing on an ICLD of any one subframe by using inter-subframe correlation, and performs quantization processing on an ICLD weighting value, so that coding bits can be effectively reduced.
  • the rate and in the case of rapid signal changes and packet loss, can guarantee the quality of the decoded stereo audio, and achieve the desired effect.
  • the embodiment of the present invention provides an inter-channel level difference processing device, which may be an encoding end for processing stereo audio.
  • the device includes: a receiver 701, a memory 702, and a processor 703. 701, configured to receive a stereo audio signal;
  • a memory 702 configured to store information including a program
  • the processor 703 is connected to the receiver 701 and the memory 702, and is configured to control the execution of the program, and specifically includes: parsing the stereo audio signal frame by frame according to the received stereo audio information, to obtain the stereo audio signal.
  • the ICLD of each subband of each subframe calculating the sum of the absolute values of the ICLD of each subframe in any frame of the stereo audio signal; and the absolute value of the ICLD of any two subframes in any one of the frames
  • the ICLD weight value of each subband in the any frame is calculated by using the first weighting manner; when the absolute of the ICLD of any two subframes in any one of the frames When the absolute value of the difference of the sum of the values is not less than the preset threshold, the ICLD weight value of each subband in the any frame is
  • the absolute value of the difference between the sum of the absolute values of the ICLDs of any two subframes in any frame is not less than the preset threshold. It can be understood that: the absolute values of all the differences are greater than or equal to the preset threshold, or The absolute value of the partial difference is less than the preset threshold, and the absolute value of the remaining difference is greater than or equal to the preset threshold.
  • the stereo audio signal can be composed of many frames. In this step, each frame can be divided into multiple subframes, and each subframe can be divided into multiple sub-bands.
  • each frame may include at least two subframes, for example, one subframe includes two subframes, or one frame. It includes 4 subframes, or 6 subframes in one frame, and so on. At least 12 sub-bands are included in each subframe.
  • ICLD is used to distinguish the horizontal direction of the stereo source and describes the difference in intensity between the channels, which will affect the frequency content of the entire spectrum.
  • the processor 703 is further configured to calculate a sum of absolute values of ICLDs of each subframe in any frame of the stereo audio signal, and in any two of the subframes When the absolute value of the difference between the absolute values of the ICLDs is less than the preset threshold, the first weighting method is used to calculate the ICLD weight value of each subband in the any frame, or in any of the frames.
  • the second weighting manner is used to calculate the ICLD weighting value of each subband in the any frame, and is used to determine the Whether the absolute value of the difference between the sum of the absolute values of the ICLDs of any two subframes in any frame is less than a preset threshold.
  • the processor 703 calculates the ICLD weight value of each sub-band in the any frame by using the first weighting manner
  • the processor calculates the i-th sub-frame according to the number of sub-frames included in any one of the frames.
  • a first weighting factor of the bth subband in the frame the i indicating any one of the subframes included in the any frame, 0 ⁇ i ⁇ L, the L is the number of subframes included in the any frame
  • the b represents any one of the i-th subframes, 0 ⁇ b K
  • the K represents the number of sub-bands included in any one of the subframes, K > 12
  • calculating by the first weighting factor and the ICLD of the b-th sub-band in the i-th subframe of the any frame, an ICLD weighting value of the b-th sub-band in the any frame.
  • the processor 703 calculates the ICLD weight value of each subband in the any frame by using the second weighting manner
  • the processor 703 is configured to use each of the frames according to the calculated stereo audio signal.
  • Calculating a second weighting factor of the b-th sub-band in the i-th subframe where the i represents any one of the sub-frames included in the any one of the frames, 0 ⁇ i L, L is the number of subframes included in any of the frames, and L > 2
  • the b represents any one of the i-th subframes, 0 ⁇ b ⁇ K
  • the K represents any one of the subframes
  • the processor 703 calculates, according to the sum of the absolute values of the ICLDs of each subframe in the any frame of the stereo audio signal, the second sub-band of the i-th subframe. For the second weighting factor,
  • Fac 2 (i,b) sum(i) / Vsum(j)
  • the processor 703 calculates, according to the ICLD of the b-th sub-band in the i-th subframe of the any frame, the second weighting factor of the b-th sub-band in the i-th subframe, to:
  • one subframe may be divided into K subbands, for example, subband 1, subband 2, ... subband K, where 1, 2, ... K is the index number of the subband.
  • the processor 703 calculates, according to the second weighting factor and the ICLD of the b-th sub-band in the i-th subframe of any one of the frames, the number of the any one of the frames When the ICLD weights of b subbands are used,
  • the segmentation signal-to-noise ratio obtained by the prior art is obtained when there is no packet loss during stereo audio signal transmission (
  • the SSNR obtained is 3.73 dB.
  • the SSNR is 3.73 dB.
  • the larger the SSNR value The closer the audio is decoded to the original audio, the better the effect. ldB ⁇
  • the method provided by the embodiment of the present invention is higher than the prior art.
  • the SSNR obtained by the prior art is 3.59 dB
  • the obtained SSNR is 3.72 dB
  • the test result is no packet loss when there is a packet loss during the transmission of the stereo audio signal.
  • the test results obtained are similar.
  • the embodiment of the present invention provides an inter-channel level difference processing apparatus, which performs weighting processing on an ICLD of any one subframe according to correlation between subframes, and performs quantization processing on the ICLD weighting value, so as to effectively reduce
  • the encoding bit rate, and in the case of rapid signal changes and packet loss, can guarantee the decoding of stereo audio quality, and achieve the desired effect.
  • the device embodiments described above are merely illustrative, wherein the units described as separate components may or may not be physically separated, and the components displayed as the cells may or may not be physical. Units can be located in one place, or they can be distributed to multiple network units. Some or all of the modules may be selected according to actual needs to achieve the objectives of the embodiments of the present invention. Those of ordinary skill in the art can understand and implement without any creative effort.
  • the present invention can be implemented by means of software plus necessary general hardware, and of course, dedicated hardware, dedicated CPU, dedicated memory, dedicated memory, Special components are used to achieve this, but in many cases the former is a better implementation.
  • the technical solution of the present invention which is essential or contributes to the prior art, may be embodied in the form of a software product stored in a readable storage medium, such as a floppy disk of a computer.
  • U disk mobile hard disk, read-only memory (ROM, Read-Only Memory), random access memory (RAM, Random Acces s Memory), disk or optical disk, etc., including a number of instructions to make a computer device (can It is a personal computer, a server, or a network device, etc.) that performs the methods described in various embodiments of the present invention.
  • a computer device can It is a personal computer, a server, or a network device, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种声道间电平差处理方法及装置,涉及立体音频技术领域,适用于进行声道间电平差处理时采用,可以在信号变化迅速或者丢包情况下保证解码后的立体声音频质量,并且实现立体声音频信号的低比特率传输。通过接收立体声音频信号,并逐帧解析所述立体声音频信号,获得所述立体声音频信号的每一帧中每个子帧的各个子带的ICLD(101);计算所述立体声音频信号的任一帧中每个子帧的ICLD的绝对值之和(102);当所述任一帧中任两个子帧的ICLD的绝对值之和的差的绝对值都小于预设阈值时,采用第一加权方式计算所述任一帧中每个子带的ICLD加权值(103);否则,采用第二加权方式计算所述任一帧中每个子带的ICLD加权值(104)。

Description

一种声道间电平差处理方法及装置
本申请要求于 2013 年 7 月 16 日提交中国专利局、 申请号为 201310298100.2 , 发明名称为 "一种声道间电平差处理方法及装置" 的中 国专利申请优先权, 上述专利的全部内容通过引用结合在本申请中。 技术领域 本发明涉及立体音频技术领域, 尤其涉及一种声道间电平差处理方法及 装置。
背景技术 随着生活质量的提高, 人们对高质量音频的需求不断增大。 相对于单声道 音频, 立体声音频能够提高信息的清晰度和可懂度, 因而备受人们青睐。
现有技术对立体声音频进行处理时, 首先对输入的立体声音频信号进行解 析,获得携带立体声音频信号的帧中各子带声道间电平差( Inter-Channe l Leve l Difference , ICLD )值, 然后将获得的 ICLD值与前几帧获得的 ICLD值进行比 较, 当 ICLD值与前几帧获得的 ICLD值变化较大时, 则该帧携带的立体声音频 信号为暂态 Trans ient , 否则该帧携带的立体声音频信号为常态 Norma 1。 对 Trans ient分为 2帧进行传输, 即分别传输奇数子带与偶数子带的 ICLD。 对于 Norma l分为 4帧进行传输, 即每帧传输 1/4子带的 ICLD。 其中, 为了保证比特 数目的一致, 进一步对 Norma l进行 ref inement处理。
然而, 采用现有技术对立体声音频进行处理时, 由于携带立体声音频的帧 长较长, 当处理 10ms的立体声音频时, 如果 Norma l分 4帧进行处理, 相当于 每 40ms (4*10ms)进行 ICLD更新,则导致在信号变化迅速或者丟包情况下无法保 证解码后的立体声音频质量, 另外, 如果逐帧传输 ICLD, 将无法实现立体声音 频信号的低比特率传输。
发明内容 本发明的实施例提供一种声道间电平差处理方法及装置, 可以在信号变化 迅速或者丟包情况下保证解码后的立体声音频质量, 并且实现立体声音频信号 的低比特率传输。
第一方面, 本发明实施例提供一种声道间电平差处理方法, 包括: 接收立体声音频信号, 并逐帧解析所述立体声音频信号, 获得所述立体声 音频信号的每一帧中每个子帧的各个子带的声道间电平差 ICLD, 所述每一帧中 包括至少两个子帧;
根据获得的所述立体声音频信号的每一帧中每个子帧的各个子带的 ICLD, 计算所述立体声音频信号的任一帧中每个子帧的 ICLD的绝对值之和;
当所述任一帧中任两个子帧的 ICLD的绝对值之和的差的绝对值都小于预设 阔值时, 采用第一加权方式计算所述任一帧中每个子带的 ICLD加权值;
当所述任一帧中任两个子帧的 ICLD的绝对值之和的差的绝对值不小于预设 阔值时, 采用第二加权方式计算所述任一帧中每个子带的 ICLD加权值。
在第一种可能的实现方式中, 结合第一方面, 所述采用第一加权方式计算 所述任一帧中每个子带的 ICLD加权值, 包括:
根据所述任一帧中包括的子帧数量, 计算第 i个子帧中第 b个子带的第一 加权因子, 所述 i表示所述任一帧中包括的任一个子帧, 0 < i L, 所述 L为所 述任一帧中包括的子帧数量, 并且 L > 2 , 所述 b表示所述第 i个子帧中任一个 子带, 0 < b K, 所述 K表示任一个子帧中包括的子带数量, K > 12;
根据所述第一加权因子以及所述任一帧中所述第 i个子帧中所述第 b个子 带的 ICLD, 计算所述任一帧中所述第 b个子带的 ICLD加权值。
在第二种可能的实现方式中, 结合第一方面中第一种可能的实现方式, 所 述根据所述任一帧中包括的子帧数量, 计算第 i个子帧中第 b个子带的第一加 权因子, 包括:
根据 faCl(i,b) = l / L计算第 i个子帧中的第 b个子带的第一加权因子, 其中, 所述 faCl(i,b)表示第 i个子帧中的第 b个子带的所述第一加权因子。 在第三种可能的实现方式中, 结合第一方面中第二种可能的实现方式, 所 述根据所述第一加权因子以及所述任一帧中所述第 i个子帧中所述第 b个子带 的 ICLD, 计算所述任一帧中所述第 b个子带的 ICLD加权值, 包括: level(b)=yfaCl(i, b)*level(i, b)
根据 i=i 计算所述任一帧中所述第 b个子带的 ICLD加 权值, 其中, 所述 level(b)表示所述任一帧中第 b 个子带的 ICLD 加权值, 所述 level(i,b)表示第 i个子帧的第 b个子带的 ICLD。
在第四种可能的实现方式中, 结合第一方面, 所述采用第二加权方式计算 所述任一帧中每个子带的 ICLD加权值, 包括:
根据计算的所述立体声音频信号的所述任一帧中每个子帧的 ICLD的绝对值 之和, 或者根据所述任一帧中的第 i个子帧中第 b个子带的 ICLD, 计算所述第 i个子帧中第 b个子带的第二加权因子,所述 i表示所述任一帧中包括的任一个 子帧, 0 < i L, 所述 L为所述任一帧中包括的子帧数量, 并且 L > 2 , 所述 b表 示所述第 i个子帧中任一个子带, 0 < b K, 所述 K表示任一个子帧中包括的子 带数量, K > 12;
根据所述第二加权因子以及所述任一帧中所述第 i个子帧中所述第 b个子 带的 ICLD, 计算所述任一帧中所述第 b个子带的 ICLD加权值。
在第五种可能的实现方式中, 结合第一方面中第四种可能的实现方式, 根 据计算的所述立体声音频信号的所述任一帧中每个子帧的 ICLD的绝对值之和, 计算所述第 i个子帧中第 b个子带的第二加权因子, 包括:
L
fac2 (i,b) = sum(i) / Vsum(j)
根据 计算所述第 i个子帧中所述第 b个子带的第二 加权因子, 其中, 所述 fac2(i,b)为第 i个子帧中第 b个子带的第二加权因子, 所 述 sum(i)表示所述第 i个子帧中每个子带的 ICLD的绝对值之和, 所述 sum(j)表示 所述第 j个子帧中每个子带的 ICLD的绝对值之和, 所述 j为所述任一帧中包括 任一个子帧, 0 < j L。
在第六种可能的实现方式中, 结合第一方面中第五种可能的实现方式, 所 述根据所述任一帧中的第 i个子帧中第 b个子带的 ICLD, 计算所述第 i个子帧 中第 b个子带的第二加权因子, 包括: fac2(i,b) = |level(i,b)| / V |level(j,b)|
根据 计算所述第 i个子帧中所述第 b个子带的 第二加权因子, 其中, 所述 level(i,b)表示第 i个子帧的第 b个子带的 ICLD, 所述 leVel(j,b)表示第 j个子帧的第 b个子带的 ICLD。
在第七种可能的实现方式中, 结合第一方面中第六种可能的实现方式, 所 述根据所述任一帧中的第 i个子帧中第 b个子带的 ICLD, 计算所述第 i个子帧 中第 b个子带的第二加权因子, 包括:
根据
Figure imgf000006_0001
计算所述第 个子帧中所述第 b个子带的第二加权因子, 其中, 所述 M表示相邻的子带的数 量, 所述 z表示相邻子带和当前子带的索引号的差值。
在第八种可能的实现方式中, 结合第一方面中第四种可能的实现方式, 或 者第五种可能的实现方式, 或者第六中可能的实现方式, 或者第七种可能的实 现方式, 所述根据所述第二加权因子以及所述任一帧中所述第 i 个子帧中所述 第 b个子带的 ICLD, 计算所述任一帧中所述第 b个子带的 ICLD加权值, 包括: level(b)=yfac2(i, b)*level(i, b)
根据 i=i 计算所述任一帧中所述第 b个子带的 ICLD加 权值, 其中, 所述 level(b)表示所述任一帧中第 b 个子带的 ICLD 加权值, 所述 fac2(i,b)为所述第 i个子帧中所述第 b个子带的第二加权因子,所述 level(i, b)表示 第 i个子帧的第 b个子带的 ICLD。
第二方面, 本发明实施例提供一种声道间电平差处理装置, 包括: 接收单元, 用于接收立体声音频信号;
解析单元, 用于根据所述接收单元接收的所述立体声音频信息, 逐帧解析 所述立体声音频信号, 获得所述立体声音频信号的每一帧中每个子帧的各个子 带的声道间电平差 ICLD, 所述每一帧中包括至少两个子帧; 计算单元, 用于根据所述解析单元解析获得的所述立体声音频信号的每一 帧中每个子帧的各个子带的 ICLD, 计算所述立体声音频信号的任一帧中每个子 帧的 ICLD的绝对值之和;
第一加权处理单元, 用于当所述任一帧中任两个子帧的 ICLD的绝对值之和 的差的绝对值都小于预设阔值时, 采用第一加权方式计算所述任一帧中每个子 带的 ICLD加权值;
第二加权处理单元, 用于当所述任一帧中任两个子帧的 ICLD的绝对值之和 的差的绝对值不小于预设阔值时, 采用第二加权方式计算所述任一帧中每个子 带的 ICLD加权值。
在第一种可能的实现方式中, 结合第二方面, 所述第一加权处理单元, 包 括:
第一计算模块, 用于根据所述任一帧中包括的子帧数量, 计算第 i 个子帧 中第 b个子带的第一加权因子, 所述 i表示所述任一帧中包括的任一个子帧, 0 < i < L, 所述 L为所述任一帧中包括的子帧数量, 并且 L > 2 , 所述 b表示所述 第 i个子帧中任一个子带,0 < b K, 所述 K表示任一个子帧中包括的子带数量, K > 12;
第二计算模块, 用于根据所述第一加权因子以及所述任一帧中所述第 i 个 子帧中所述第 b个子带的 ICLD,计算所述任一帧中所述第 b个子带的 ICLD加权 值。
在第二种可能的实现方式中, 结合第二方面中第一种可能的实现方式, 所 述第一计算模块, 用于:
根据 faCl(i,b) = l/ L计算第 i个子帧中的第 b个子带的第一加权因子, 其中, 所述 faCl(i,b)表示第 i个子帧中的第 b个子带的所述第一加权因子。
在第三种可能的实现方式中, 结合第二方面中第二种可能的实现方式, 所 述第二计算模块, 用于: level(b)=yfaCl(i, b)*level(i, b)
根据 w 计算所述任一帧中所述第 b个子带的 ICLD加 权值, 其中, 所述 level(b)表示所述任一帧中第 b 个子带的 ICLD 加权值, 所述 leVel(i,b)表示第 i个子帧的第 b个子带的 ICLD。
在第四种可能的实现方式中, 结合第二方面, 所述第二加权处理单元, 包 括:
第三计算模块, 用于根据计算的所述立体声音频信号的所述任一帧中每个 子帧的 ICLD的绝对值之和,计算所述第 i个子帧中第 b个子带的第二加权因子, 所述 i表示所述任一帧中包括的任一个子帧, 0 < i L, 所述 L为所述任一帧中 包括的子帧数量, 并且 L > 2 , 所述 b表示所述第 i个子帧中任一个子带, 0 < b < K, 所述 Κ表示任一个子帧中包括的子带数量, Κ > 12; 或者, 第四计算模块, 用于根据所述任一帧中的第 i个子帧中第 b个子带的 ICLD, 计算所述第 i个子 帧中第 b个子带的第二加权因子;
第五计算模块, 用于根据所述第二加权因子以及所述任一帧中所述第 i 个 子帧中所述第 b个子带的 ICLD,计算所述任一帧中所述第 b个子带的 ICLD加权 值。
在第五种可能的实现方式中, 结合第二方面中第四种可能的实现方式, 所 述第三计算模块, 用于:
L
fac2 (i,b) = sum(i) / Vsum(j)
根据 计算所述第 i个子帧中所述第 b个子带的第二 加权因子, 其中, 所述 fac2(i,b)为第 i个子帧中第 b个子带的第二加权因子, 所 述 sum(i)表示所述第 i个子帧中每个子带的 ICLD的绝对值之和, 所述 sum(j)表示 所述第 j个子帧中每个子带的 ICLD的绝对值之和, 所述 j为所述任一帧中包括 任一个子帧, 0 < j L。
在第六种可能的实现方式中, 结合第二方面中第五种可能的实现方式, 所 述第四计算模块, 用于: fac2(i,b) = |level(i,b)| /V |level(j,b)|
根据 计算所述第 i个子帧中所述第 b个子带的 第二加权因子, 其中, 所述 level(i,b)表示第 i个子帧的第 b个子带的 ICLD, 所述 leVelG,b)表示第 j个子帧的第 b个子带的 ICLD。
在第七种可能的实现方式中, 结合第二方面中第六种可能的实现方式, 所 述第四计算模块, 用于:
根据
Figure imgf000009_0001
计算所述第 i 个子帧中所述第 b个子带的第二加权因子, 其中, 所述 M表示相邻的子带的数 量, 所述 z表示相邻子带和当前子带的索引号的差值。
在第八种可能的实现方式中, 结合第二方面中第四种可能的实现方式, 或 者第五种可能的实现方式, 或者第六中可能的实现方式, 或者第七种可能的实 现方式, 所述第五计算模块, 用于:
level(b)=y fac2(i, b) *level(i, b)
根据 i=i 计算所述任一帧中所述第 b个子带的 ICLD加 权值, 其中, 所述 level(b)表示所述任一帧中第 b个子带的 ICLD加权值, 所 述 fac2(i,b)为所述第 i个子帧中所述第 b个子带的第二加权因子, 所述 level(i,b)表 示第 i个子帧的第 b个子带的 ICLD。
本发明实施例提供一种声道间电平差处理方法, 通过计接收立体声音频信 号, 并逐帧解析所述立体声音频信号, 获得所述立体声音频信号的每一帧中每 个子帧的各个子带的声道间电平差 ICLD, 所述每一帧中包括至少两个子帧; 根 据获得的所述立体声音频信号的每一帧中每个子帧的各个子带的 ICLD, 计算所 述立体声音频信号的任一帧中每个子帧的 ICLD的绝对值之和; 当所述任一帧中 任两个子帧的 ICLD的绝对值之和的差的绝对值都小于预设阔值时, 采用第一加 权方式计算所述任一帧中每个子带的 ICLD加权值; 当所述任一帧中任两个子帧 的 ICLD的绝对值之和的差的绝对值不小于预设阔值时, 采用第二加权方式计算 所述任一帧中每个子带的 ICLD加权值。 与现有技术中由于携带立体声音频的帧 长较长, 当处理 10ms的立体声音频时, 如果 Norma l分 4帧进行处理, 相当于 每 40ms (4*10ms)进行 ICLD更新,则导致在信号变化迅速或者丟包情况下无法保 证解码后的立体声音频质量, 另外, 如果逐帧传输 ICLD, 将无法实现立体声音 频信号的低比特率传输相比,本发明通过子帧间的相关性,对任一个子帧的 ICLD 看出, 在信号变化迅速或者丟包情况下保证解码后的立体声音频质量, 并且实 现立体声音频信号的低比特率传输。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案, 下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍, 显而易见地, 下面描述 中的附图仅仅是本发明的一些实施例, 对于本领域普通技术人员来讲, 在不付 出创造性劳动性的前提下, 还可以根据这些附图获得其他的附图。
图 1为本发明一个实施例提供的一种声道间电平差处理方法的流程图; 图 1为本发明另一个实施例提供的一种声道间电平差处理方法的流程图; 图 3为本发明另一个实施例提供的一种声道间电平差处理方法的流程图; 图 4为本发明另一个实施例提供的另一种声道间电平差处理方法的流程图; 图 5为本发明一个实施例提供的一种声道间电平差处理装置的框图; 图 6为本发明一个实施例提供的另一种声道间电平差处理装置的框图; 图 7为本发明另一个实施例提供的另一种声道间电平差处理装置的框图。 具体实施方式
下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清 楚、 完整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是 全部的实施例。 基于本发明中的实施例, 本领域普通技术人员在没有作出创造 性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
本发明实施例提供一种声道间电平差处理方法, 该方法应用于处理立体声 音频的编码端, 如图 1所示, 该方法包括:
步骤 101 , 接收立体声音频信号, 并逐帧解析所述立体声音频信号, 获得所 述立体声音频信号的每一帧中每个子帧的各个子带的声道间电平差 ICLD, 所述 每一帧中包括至少两个子帧。
立体声音频信号可以由许多帧构成。 在本步骤中, 每一帧进一步可以分为 多个子帧, 每一个子帧可以分为多个子带。 其中, 需要说明的是, 在实际应用 中, 每一帧中包括的子帧数量为偶数个, 并且每一帧中可以包括至少两个子帧, 例如, 一帧中包括 2个子帧, 或者一帧中包括 4个子帧, 或者一帧中包括 6个 子帧等等。 每一个子帧中包括至少 12个子带。
ICLD用于分辨立体声源的水平方向角度, 描述了声道间的强度差别, 该参 数将影响整个频谱的频率成分。 进一步可选的, ICLD为两个输入声道信号的功 率比, 例如, 第 b个子带的 ICLD值为:
level(b) = 101og10
Figure imgf000011_0001
, 其中, XL(P)、 XR(P)分别为左右声道的频域系数,
P 为频点值, level (b)的计算范围为 A^^ p Ab , , Ab分别表示不同频率对 应的频点值, b表示所述第 i个子帧中任一个子带, 0 < b K, 所述 K表示任一 个子帧中包括的子带数量, K > 12。 需要说明的是, 所述 Κ表示为了近似模拟人 耳的听觉特性,可把具有相同频率分辨率的频谱系数根据临界频带理论划分为 Κ 个不相重叠的子带。
步骤 102 ,根据获得的所述立体声音频信号的每一帧中每个子帧的各个子带 的 ICLD, 计算所述立体声音频信号的任一帧中每个子帧的 ICLD的绝对值之和。
K
sum(i)=V level(b)
可选的, 根据 ^ 计算立体声音频信号的任一帧中每个子帧的 ICLD的绝对值之和, 其中, 所述 i表示任一帧中包括的任一个子帧, 0 < i L, 所述 L为所述任一帧中包括的子帧数量, 并且 L > 2。
步骤 103, 当所述任一帧中任两个子帧的 ICLD的绝对值之和的差的绝对值 都小于预设阔值时, 采用第一加权方式计算所述任一帧中每个子带的 ICLD加权 值。 可选的, 预设阔值为根据实际经验获得的阔值。
当 I s丽(i) - s丽(j) I < TH时, 则判定所述任两个子帧的 ICLD相接近, 则采 用第一加权方式计算所述任一帧中每个子带的 ICLD加权值。其中, sum (i)、8画(」) 分别表示所述第 i个子帧、 第 j个子帧的 ICLD的绝对值之和, 所述 j表示所述 任一帧中包括的任一个子帧, 0 < j L,所述 L为所述任一帧中包括的子帧数量, 并且 L > 2。
可选的, 本步骤包括: 根据所述任一帧中包括的子帧数量, 计算第 i 个子 帧中第 b个子带的第一加权因子;
根据所述第一加权因子以及所述任一帧中所述第 i个子帧中所述第 b个子 带的 ICLD, 计算所述任一帧中所述第 b个子带的 ICLD加权值。
进一步可选的, 所述根据所述任一帧中包括的子帧数量, 计算第 i 个子帧 中第 b个子带的第一加权因子, 包括:
根据 faCl(i,b) = l/ L计算第 i个子帧中的第 b个子带的第一加权因子, 其中, 所述 faCl(i,b)表示第 i个子帧中的第 b个子带的所述第一加权因子。
进一步可选的, 所述根据所述第一加权因子以及所述任一帧中所述第 i 个 子帧中所述第 b个子带的 ICLD,计算所述任一帧中所述第 b个子带的 ICLD加权 值, 包括: level(b)=yfaCl(i, b)*level(i, b)
根据 w 计算所述任一帧中所述第 b个子带的 ICLD加 权值, 其中, 所述 level(b)表示所述任一帧中第 b 个子带的 ICLD 加权值, 所述 leVel(i,b)表示第 i个子帧的第 b个子带的 ICLD。
步骤 104 , 当所述任一帧中任两个子帧的 ICLD的绝对值之和的差的绝对值 不小于预设阔值时, 采用第二加权方式计算所述任一帧中每个子带的 ICLD加权 值。
在本步骤中, 当 | s丽(i) _sum (j) I > TH 时, 则判定所述任两个子帧的 ICLD 相差较大,则采用第二加权方式计算所述任一个子帧中每个子带的 ICLD加权值。 需要说明的是, 任一帧中包括的任两个子帧的 ICLD的绝对值之和的差的绝对值 不小于预设阔值可以理解为: 所有的差的绝对值都大于等于预设阔值, 或者部 分差的绝对值小于预设阔值, 并且其余差的绝对值大于等于预设阔值。 可选的, 本步骤包括: 根据计算的所述立体声音频信号的所述任一帧中每 个子帧的 ICLD的绝对值之和, 或者根据所述任一帧中的第 i个子帧中第 b个子 带的 ICLD, 计算所述第 i个子帧中第 b个子带的第二加权因子, 所述 i表示所 述任一帧中包括的任一个子帧, 0 < i L, 所述 L为所述任一帧中包括的子帧数 量, 并且 L > 2 , 所述 b表示所述第 i个子帧中任一个子带, 0 < b K, 所述 K表 示任一个子帧中包括的子带数量, K > 12;
根据所述第二加权因子以及所述任一帧中所述第 i个子帧中所述第 b个子 带的 ICLD, 计算所述任一帧中所述第 b个子带的 ICLD加权值。
进一步可选的, 根据计算的所述立体声音频信号的所述任一帧中每个子帧 的 ICLD的绝对值之和, 计算所述第 i个子帧中第 b个子带的第二加权因子, 包 括:
L
fac2 (i,b) = sum(i) / Vsum(j)
根据 计算所述第 i个子帧中所述第 b个子带的第二 加权因子, 其中, 所述 fac2(i,b)为第 i个子帧中第 b个子带的第二加权因子, 所 述 sum(i)表示所述第 i个子帧中每个子带的 ICLD的绝对值之和, 所述 sum(j)表示 所述第 j个子帧中每个子带的 ICLD的绝对值之和, 所述 j为所述任一帧中包括 任一个子帧, 0 < j L。
进一步可选的,所述根据所述任一帧中的第 i个子帧中第 b个子带的 ICLD, 计算所述第 i个子帧中第 b个子带的第二加权因子, 包括: fac2(i,b) = |level(i,b)| / V |level(j,b)|
根据 计算所述第 i个子帧中所述第 b个子带的 第二加权因子, 其中, 所述 level(i,b)表示第 i个子帧的第 b个子带的 ICLD, 所述 leVel(j,b)表示第 j个子帧的第 b个子带的 ICLD。
进一步可选的,所述根据所述任一帧中的第 i个子帧中第 b个子带的 ICLD, 计算所述第 i个子帧中第 b个子带的第二加权因子, 包括: fac2(i,b)=
根据
Figure imgf000014_0001
计算所述第 个子帧中所述第 b个子带的第二加权因子, 其中, 所述 M表示相邻的子带的数 量, 所述 z表示相邻子带和当前子带的索引号的差值。 需要说明的是, 一个子帧 可以分为 K个子带, 例如子带 1、 子带 2……子带 K , 这里, 1、 2…… K即为子 带的索引号。 " L」" 为向下取整, " I I " 为向上取整。 进一步可选的, 所述根据所述第二加权因子以及所述任一帧中所述第 i 个 子帧中所述第 b个子带的 ICLD,计算所述任一帧中所述第 b个子带的 ICLD加权 值, 包括: level(b)=yfac2(i, b)*level(i, b)
根据 i=i 计算所述任一帧中所述第 b个子带的 ICLD加 权值, 其中, 所述 level(b)表示所述任一帧中第 b 个子带的 ICLD 加权值, 所述 fac2(i,b)为所述第 i个子帧中所述第 b个子带的第二加权因子,所述 level(i,b)表示 第 i个子帧的第 b个子带的 ICLD。
进一步可选的, 在本步骤之后, 对获得的 ICLD加权值进行量化处理。 可选 的, 这里量化处理为根据预设码本与 ICLD加权值进行比较, 获取与 ICLD加权 值最接近的预设码本中的值。 例如, ICLD加权值为 1. 4 , 预设码本中包括 0、 2 等值, 则对 ICLD加权值进行量化处理后获得的值为 2。
进一步可选的, 为了保证立体声音频的解码后的质量的前提下, 减少比特 的传输, 在进行量化处理时, 可以计算当前 ICLD加权值与前一 ICLD加权值的 差值, 将计算得到的差值进行量化处理。 例如, 一个子帧分为 15个子带, 将第 1个子带的 ICLD加权值直接进行量化处理,对第 1个子带的 ICLD加权值进行量 化处理时, 首先计算第 2个子带的 ICLD加权值与第 1个子带的 ICLD加权值的 差值, 然后将计算得到的差值进行量化处理, 从而获得第 2个子带的 ICLD加权 值的量化结果, 可以根据计算第 2个子带的 ICLD加权值的量化结果的方法依次 计算其他子带的 ICLD加权值的量化结果。
本发明实施例提供一种声道间电平差处理方法, 通过根据获得的所述立体 声音频信号的每一帧中每个子帧的各个子带的 ICLD, 计算所述立体声音频信号 的任一帧中每个子帧的 ICLD的绝对值之和; 当所述任一帧中任两个子帧的 ICLD 的绝对值之和的差的绝对值都小于预设阔值时, 采用第一加权方式计算所述任 一帧中每个子带的 ICLD加权值; 当所述任一帧中任两个子帧的 ICLD的绝对值 之和的差的绝对值不小于预设阔值时, 采用第二加权方式计算所述任一帧中每 个子带的 ICLD加权值。 与现有技术中由于携带立体声音频的帧长较长, 当处理 10ms的立体声音频时, 如果 Norma l分 4帧进行处理, 相当于每 40ms (4*10ms) 进行 ICLD更新, 则导致在信号变化迅速或者丟包情况下无法保证解码后的立体 声音频质量, 另外, 如果逐帧传输 ICLD, 将无法实现立体声音频信号的低比特 率传输相比, 本发明通过子帧间的相关性, 对任一帧的子帧的 I CLD进行加权处 理, 使得可以在信号变化迅速或者丟包情况下保证解码后的立体声音频质量, 并且实现立体声音频信号的低比特率传输。 本发明实施例提供一种声道间电平差处理方法。 本实施例中以一帧包括两 个子帧进行详细描述, 例如, 一帧包括第一子帧与第二子帧, 如图 2 所示, 该 方法包括:
步骤 201 , 接收立体声音频信号, 并逐帧解析所述立体声音频信号, 获得所 述立体声音频信号的每一帧中每个子帧的各个子带的声道间电平差 I CLD。
在本实施例中, 每一帧中包括两个子帧。 即接收立体声音频信号, 并逐帧 解析所述立体声音频信号, 可以获得立体声音频信号的每一帧中第一子帧和第 二子帧的各个子带的声道间电平差 ICLD。
可选的, 逐帧解析立体声音频信号, 获取每一帧中每个子帧中的各个子带 的 ICLD的具体处理方式可以参考附图 1中步骤 101中的描述, 在此不再——赘 述。
步骤 202 ,根据获得的所述立体声音频信号的每一帧中每个子帧的各个子带 的 ICLD, 计算所述立体声音频信号的任一帧中第一子帧和第二子帧的声道间电 平差 ICLD的绝对值之和。
K
sum(l)=V level(b)
可选的,根据 ^ 计算立体声音频信号的任一帧中第一个子帧的
ICLD的绝对值之和, 其中, 所述 b表示所述第 1个子帧中任一个子带, 0<b K, 所述 K表示任一个子帧中包括的子带数量, K>12。
可选的, 根据计算 sum (1)的方法计算 sum (2), 在此不再——赘述。
步骤 203, 判断所述第一子帧的 ICLD的绝对值之和与所述第二子帧的 ICLD 的绝对值之和的差的绝对值是否都 、于预设阔值。
可选的, 根据 I sum (1)- sum (2) I < TH判断所述第一子帧的 ICLD的绝对值之 和与第二子帧的 ICLD的绝对值之和的差的绝对值是否都小于预设阔值。 其中, TH为预设阔值, 预设阔值可以根据实际经验进行设定。
步骤 204,当所述第一子帧的 ICLD的绝对值之和与所述第二子帧的 ICLD的 绝对值之和的差的绝对值都小于预设阔值时, 采用第一加权方式计算所述任一 帧中每个子带的 ICLD加权值。
当 |sum(l)_sum(2) I <TH时, 表明第一子帧与第二子帧的 ICLD相接近, 则 可以采用第一加权方式计算所述任一帧中每个子带的 ICLD加权值。
可选的, 本步骤包括: 根据所述任一帧中包括的子帧数量, 计算第 i 个子 帧中第 b个子带的第一加权因子, 所述 i表示所述任一帧中包括的任一个子帧, 0< i <L, 所述 L为所述任一帧中包括的子帧数量, 并且 L>2, 所述 b表示所述 第 i个子帧中任一个子带,0<b K, 所述 K表示任一个子帧中包括的子带数量, K> 12;
根据所述第一加权因子以及所述任一帧中所述第 i个子帧中所述第 b个子 带的 ICLD, 计算所述任一帧中所述第 b个子带的 ICLD加权值。
进一步可选的,根据所述任一帧中包括的子帧数量, 计算第 i个子帧中第 b 个子带的第一加权因子, 包括:
根据 faCl(i,b) = l/L计算第 i个子帧的第 b个子带的第一加权因子, 其中, 所 述 faCl(i,b)表示第 i个子帧中的第 b个子带的所述第一加权因子, 0<1) 1,所述1 表示任一个子帧中包括的子带数量, K > 12 , 所述 i表示所述任一帧中包括的任 一个子帧, 0 < i L, 所述 L为所述任一帧中包括的子帧数量, 并且 L > 2。
在本步骤中, L为 2 , 则任一帧中第一个子帧或者第二个子帧的第一加权因 子为 fac^iW ^/ I^OJ。
进一步可选的, 根据所述第一加权因子以及所述任一帧中所述第 i 个子帧 中所述第 b个子带的 ICLD, 计算所述任一帧中所述第 b个子带的 ICLD加权值, 包括: level(b)=yfaCl(i, b)*level(i, b)
根据 i=i 计算任一帧中第 b个子带的 ICLD加权值,其 中, 所述 level(b)表示所述任一帧中第 b个子带的 ICLD加权值, 0 < b < K,所述 K 表示任一个子帧中包括的子带数量, K > 12 , 所述 i表示所述任一帧中包括的任 一个子帧, 0 < i L, 所述 level(i,b)表示第 i个子帧的第 b个子带的 ICLD。
在本步骤中, L=2 ,任一帧的 ICLD加权值为: level(b)=[level(l, b)+level(2, b)] *0.5。 步骤 205 , 当所述任一帧中任两个子帧的 ICLD的绝对值之和的差的绝对值 不小于预设阔值时, 采用第二加权方式计算所述任一帧中每个子带的 ICLD加权 值。
当 I s丽(1) - s丽(2) I > TH时, 表明第一子帧与第二子帧的 ICLD相差较大, 则可以采用第二加权方式计算所述任一帧中每个子带的 I CLD加权值。
可选的, 采用第二加权方式计算所述任一帧中每个子带的 ICLD加权值, 可 以采用以下三种方式进行计算: 方式一, 整帧加权处理; 方式二, 基于当前子 带的逐子带加权处理; 方式三, 基于相邻 M个子带的逐子带加权处理。
可选的, 采用方式一进行加权处理时, 本步骤包括:
根据计算的所述立体声音频信号的所述任一帧中第一子帧或者第二子帧的 ICLD的绝对值之和,计算第一子帧或者第二子帧中第 b个子带的第二加权因子; 根据所述第二加权因子以及所述任一帧中包括的第一子帧或者第二子帧的 第 b个子带的 ICLD, 计算任一帧中第 b个子带的 ICLD加权值。
可选的, 根据计算的所述立体声音频信号的所述任一帧中第一子帧或者第 二子帧的 ICLD的绝对值之和, 计算第一子帧或者第二子帧中第 b个子带的第二 加权因子, 包括:
L
fac2 (i,b) = sum(i) / Vsum(j)
根据 计算所述第 i个子帧中所述第 b个子带的第二 加权因子, 其中, 所述 fac2(i,b)为第 i个子帧中第 b个子带的第二加权因子, 所 述 sum(i)表示所述第 i个子帧中每个子带的 ICLD的绝对值之和, 所述 sum(j)表示 所述第 j个子帧中每个子带的 ICLD的绝对值之和, 所述 j为所述任一帧中包括 任一个子帧, 0 < j L。
具体的, 在本步骤中, i =1或 2 , fac2 = sum(l) I [sum(l)+sum(2)]。
进一步可选的, 根据所述第二加权因子以及所述任一帧中包括的第一子帧 或者第二子帧的第 b个子带的 ICLD , 计算任一帧中第 b个子带的 ICLD加权值, 包括: level(b)=y fac2(i, b) *level(i, b)
根据 i=i 计算所述任一帧中所述第 b个子带的 ICLD加 权值, 其中, 所述 level(b)表示所述任一帧中第 b 个子带的 ICLD 加权值, 所述 fac2(i,b)为所述第 i个子帧中所述第 b个子带的第二加权因子,所述 level(i,b)表示 第 i个子帧的第 b个子带的 ICLD。
具体的, 在本步骤中, 任一帧的第 b 个子带的 ICLD 加权值为: level(b)=fac2 *level(l, b)+(l-fac2) *level(2, b)。
可选的, 采用方式二进行加权处理时, 本步骤包括:
根据所述计算的立体声音频的任一帧中包括的第一子帧或者第二子帧中的 第 b个子带的 ICLD,计算第一子帧或者第二子帧中第 b个子带的第二加权因子; 根据所述第二加权因子以及所述任一帧中包括的第一子帧或者第二子帧的 第 b个子带的 ICLD, 计算任一帧中第 b个子带的 ICLD加权值。
进一步可选的, 根据所述计算的立体声音频的任一帧中包括的第一子帧或 者第二子帧中的第 b个子带的 ICLD , 计算第一子帧或者第二子帧中第 b个子带 的第二加权因子, 包括: fac2(i,b) = |level(i,b)| / V |level(j,b)|
根据 计算所述第 i个子帧中所述第 b个子带的 第二加权因子, 其中, 所述 level(i,b)表示第 i个子帧的第 b个子带的 ICLD, 所述 leVel(j,b)表示第 j个子帧的第 b个子带的 ICLD。
具体的, 在本步骤中, i=l或 2, fac2(b)=|level(l,b)|/[|level(l,b)|+|level(2,b)|]。 可选的, 根据所述第二加权因子以及所述任一帧中包括的第一子帧或者第 二子帧的第 b个子带的 ICLD, 计算任一帧中第 b个子带的 ICLD加权值, 包括: level(b)=yfac2(i, b)*level(i, b)
根据 w 计算所述任一帧中第 b个子带的 ICLD 加权值, 其中, 所述 level(b)表示所述任一帧中第 b个子带的 ICLD加权值, 0<b K,所述 K表示任一个子帧中包括的子带数量, Κ>12, 所述 fac2(i,b)为第 i个子 帧中第 b个子带的第二加权因子, 0< i L, 所述 level(i,b)表示第 i个子帧的第 b个子带的 ICLD。
具体的, 在本步骤中, L=2, 则任一帧的第 b 个子带的 ICLD 加权值为: level(b)=faq (b)*level(i b)+(l-fap (b))*le^^2,b)。 可选的, 采用方式三进行加权处理时, 本步骤包括:
根据所述计算的立体声音频的任一帧中包括的第一子帧或者第二子帧中的 第 b个子带的 ICLD,计算第一子帧或者第二子帧中第 b个子带的第二加权因子; 根据所述第二加权因子以及所述任一帧中包括的第一子帧或者第二子帧的 第 b个子带的 ICLD, 计算任一帧中第 b个子带的 ICLD加权值。
进一步可选的, 根据所述计算的立体声音频的任一帧中包括的第一子帧或 者第二子帧中的第 b个子带的 ICLD, 计算第一子帧或者第二子帧中第 b个子带 的第二加权因子, 包括:
根据
Figure imgf000019_0001
计算所述第一 子帧或者第二子帧中第 b个子带的第二加权因子, 其中, 所述 M表示所述任一 帧中的任一个子帧中相邻的子带的数量。其中,所述 表示相邻子带与当前子带 的索引号的差值。 需要说明的是, 一个子帧可以分为 κ个子带, 例如子带 1、 子 带 2……子带 K, 这里, 1、 2…… K即为子带的索引号。
具体的, 骤中, 当基于相邻 2子带的 ICLD得到加权因子为:
Figure imgf000020_0001
|level(l, b)| + |level(l, b - 1)| + |level(2, b)| + |level(2, b 在本步骤中, 当基于相邻 3子带的 ICLD得到加权因子为:
|level(l,b)|
b
evel ')| + |level(2,b)|
fac2 (b)= |level(l,b + /)| |level(l,b + /)| + |level(2,b + /)|
Figure imgf000020_0002
需要说明的是, 当需要计算基于相邻 4个或者 5个等其他个数子带的 ICLD 的加权因子时, 可以参照上述基于 M个子带的 ICLD的加权因子的通用计算公式 进行计算, 在此不再——具体举例说明。
可选的, 根据所述第二加权因子以及所述任一帧中包括的第一子帧或者第 二子帧的第 b个子带的 ICLD, 计算第一子帧或者第二子帧中第 b个子带的 ICLD 加权值,与采用方式二计算任一帧中第 b个子带的 ICLD加权值的方法相同, L=2 , 即 任 一 帧 的 中 第 b 个 子 带 的 ICLD 加 权 值 为 : level(b)=fac2(b) * level(l, b)+(l-fac2(b)) * level(2, b)。
步骤 206 , 对获得的 ICLD加权值进行量化处理。
可选的,这里量化处理为根据预设码本与 ICLD加权值进行比较,获取与 ICLD 加权值最接近的预设码本中的值。例如, ICLD加权值为 1. 4 ,预设码本中包括 0、 2等值, 则对 ICLD加权值进行量化处理后获得的值为 2。
进一步可选的, 为了保证立体声音频的解码后的质量的前提下, 减少比特 的传输, 在进行量化处理时, 可以计算当前 ICLD加权值与前一 ICLD加权值的 差值, 将计算得到的差值进行量化处理。 例如, 一个子帧分为 15个子带, 将第 1个子带的 ICLD加权值直接进行量化处理,对第 1个子带的 ICLD加权值进行量 化处理时, 首先计算第 2个子带的 ICLD加权值与第 1个子带的 ICLD加权值的 差值, 然后将计算得到的差值进行量化处理, 从而获得第 2个子带的 ICLD加权 值的量化结果, 可以根据计算第 2个子带的 ICLD加权值的量化结果的方法依次 计算其他子带的 ICLD加权值的量化结果。
下面以一帧包括四个子帧进行详细描述, 如图 3所示, 该方法包括: 步骤 301 , 接收立体声音频信号, 并逐帧解析所述立体声音频信号, 获得所 述立体声音频信号的每一帧中每个子帧的各个子带的声道间电平差 ICLD。
可选的, 所述每一帧中包括四个子帧。 可选的, 逐帧解析立体声音频信号, 获取每一帧中每个子帧中的各个子带的 ICLD的具体处理方式可以参考附图 1中 步骤 101中的描述, 在此不再——赘述。
步骤 302 ,根据获得的所述立体声音频信号的每一帧中每个子帧的各个子带 的 ICLD, 计算所述立体声音频信号的任一帧中每个子帧的 ICLD的绝对值之和。
sum(i)=V level(b)
可选的,根据 ^ 计算立体声音频信号的任一帧中第一个子帧的
ICLD的绝对值之和, 其中, 所述 b表示所述第 1个子帧中任一个子带, 0 < b
K, 所述 Κ表示任一个子帧中包括的子带数量, Κ > 12 , 所述 i表示任一帧中包 括的任一个子帧, 在本实施例中, Q < i 4。
步骤 303 , 判断所述任一帧中任两个子帧的 ICLD的绝对值之和的差的绝对 值是否都小于预设阔值。
可选的,根据 I s丽(i) -sum (j) I < TH判断所述任一帧中第 i个子帧与第 j个 子帧的 ICLD的绝对值之和的差的绝对值是否都小于预设阔值。 其中, TH为预设 阔值, 预设阈值可以根据实际经验进行设定。
步骤 304 , 当所述任一帧中任两个子帧的 ICLD的绝对值之和的差的绝对值 都小于预设阔值时, 采用第一加权方式计算所述任一帧中每个子带的 ICLD加权 值。 当 I sum (i) -sum (j) I < TH时,表明第 i个子帧与第 j个子帧的 ICLD相接近, 则可以采用第一加权方式计算所述任一帧中每个子带的 I CLD加权值。
可选的, 本步骤包括:
根据所述任一帧中包括的子帧数量, 计算第 i个子帧中第 b个子带的第一 加权因子, 所述 i表示所述任一帧中包括的任一个子帧, 0<i L, 所述 L为所 述任一帧中包括的子帧数量, 并且 L>2, 所述 b表示所述第 i个子帧中任一个 子带, 0<b K, 所述 K表示任一个子帧中包括的子带数量, K>12;
根据所述第一加权因子以及所述任一帧中所述第 i个子帧中所述第 b个子 带的 ICLD, 计算所述任一帧中所述第 b个子带的 ICLD加权值。
进一步可选的,根据所述任一帧中包括的子帧数量, 计算第 i个子帧中第 b 个子带的第一加权因子, 包括:
根据 faCl(i,b) = l/L计算第 i个子帧中的第 b个子带的第一加权因子, 其中, 所述 faCl(i,b)表示第 i个子帧中的第 b个子带的所述第一加权因子, 0<b K,所 述 K表示任一个子帧中包括的子带数量, K>12, 所述 i表示所述任一帧中包括 的任一个子帧, 0< i L, 所述 L为所述任一帧中包括的子帧数量, 并且 L>2。
在本步骤中, L=4, 则第一加权因子为 faCl(i,b) = l/L=0.25。
进一步可选的, 根据所述第一加权因子以及所述任一帧中所述第 i 个子帧 中所述第 b个子带的 ICLD, 计算所述任一帧中所述第 b个子带的 ICLD加权值, 包括: level(b)=yfaCl(i, b)*level(i, b)
根据 i=i 计算任一帧中第 b个子带的 ICLD加权值,其 中, 所述 level(b)表示所述任两个子帧中第 b个子带的 ICLD加权值, 0 < b K,所 述 K表示任一个子帧中包括的子带数量, K>12, 所述 i表示所述任一帧中包括 的任一个子帧, 0<i L, 所述 level(i,b)表示第 i个子帧的第 b个子带的 ICLD。
4
level(b)=0.25*yievel(i, b) 在本步骤中,任一帧的第 b个子带的 ICLD加权值为: w 。 步骤 305, 当所述任一帧中任两个子帧的 ICLD的绝对值之和的差的绝对值 不小于预设阔值时, 采用第二加权方式计算所述任一帧中每个子带的 ICLD加权 值。
当 I sum (i) -sum (j) I > TH时, 表明第 i个子帧与第 j个子帧的 ICLD相差较 大, 则可以采用第二加权方式计算所述任一帧中每个子带的 ICLD加权值。 需要 说明的是, 任一帧中包括的任两个子帧的 ICLD的绝对值之和的差的绝对值不小 于预设阔值可以理解为: 所有的差的绝对值都大于等于预设阔值, 或者部分差 的绝对值小于预设阔值, 并且其余差的绝对值大于等于预设阔值。 例如, I sum (1) -sum (2) I > TH , I sum (1) -sum (3) I > TH , I sum (1) -sum (4) I > TH , I sum (2) -sum (3) I > TH, I sum (2) -sum (3) I > TH, I sum (3) -sum (4) I > TH; 或者, I sum (1) -sum (2) I > TH , I sum (1) -sum (3) I > TH , I sum (1) -sum (4) I < TH , I sum (2) -sum (3) I < TH, I sum (2) -sum (3) I < TH, I sum (3) -sum (4) I < TH时, 可以 采用第二加权方式计算所述任一帧中任一个子带的 ICLD加权值。
可选的, 采用第二加权方式计算所述任一帧中每个子带的 ICLD加权值, 可 以采用以下三种方式进行计算: 方式一, 整帧加权处理; 方式二, 基于当前子 带的逐子带加权处理; 方式三, 基于相邻 M个子带的逐子带加权处理。
可选的, 采用方式一进行加权处理时, 本步骤包括:
根据计算的所述立体声音频信号的所述任一帧中每个子帧的 ICLD的绝对值 之和, 计算所述第 i个子帧中第 b个子带的第二加权因子, 所述 i表示所述任 一帧中包括的任一个子帧, 0 < i L, 所述 L为所述任一帧中包括的子帧数量, 并且 L > 2 , 所述 b表示所述第 i个子帧中任一个子带, 0 < b K, 所述 K表示任 一个子帧中包括的子带数量, K > 12;
根据所述第二加权因子以及所述任一帧中所述第 i个子帧中所述第 b个子 带的 ICLD, 计算所述任一帧中所述第 b个子带的 ICLD加权值。
可选的, 根据计算的所述立体声音频信号的所述任一帧中每个子帧的 ICLD 的绝对值之和, 计算所述第 i个子帧中第 b个子带的第二加权因子, 包括:
L
fac2 (i,b) = sum(i) / Vsum(j)
根据 计算所述第 i个子帧中所述第 b个子带的第 二加权因子, 其中, 所述 fac2(i,b)为第 i个子帧中第 b个子带的第二加权因子, 所述 sum(i)表示所述第 i个子巾贞中每个子带的 ICLD的绝对值之和 , 所述 sum(j)表 示所述第 j个子帧中每个子带的 ICLD的绝对值之和, 所述 j为所述任一帧中包 括任一个子帧, 0 < j L。
进一步可选的, 在本步骤中, L=4, 计算第 i个子帧中第 b个子带的的第二
4
fac2(i, b) = sum(i) I ^sum(j)
力口权因子: j=i 。 进一步可选的, 根据所述第二加权因子以及所述任一帧中所述第 i 个子帧 中所述第 b个子带的 ICLD, 计算所述任一帧中所述第 b个子带的 ICLD加权值, 包括: level(b)=yfac2(i, b)*level(i, b)
根据 w 计算所述任一帧中所述第 b个子带的 ICLD加 权值, 其中, 所述 level(b)表示所述任一帧中第 b 个子带的 ICLD 加权值, 所述 fac2(i,b)为所述第 i个子帧中所述第 b个子带的第二加权因子,所述 level(i,b)表示 第 i个子帧的第 b个子带的 ICLD。
进一步可选的, 在本步骤中, L=4, 计算任一帧中第 b个子带的 ICLD加权 值: level(b)=^ fac2 (i, b) * level(i, b)。
可选的, 采用方式二进行加权处理时, 本步骤包括:
根据所述任一帧中的第 i个子帧中第 b个子带的 ICLD, 计算所述第 i个子 帧中第 b个子带的第二加权因子;
根据所述第二加权因子以及所述任一帧中所述第 i个子帧中所述第 b个子 带的 ICLD, 计算所述任一帧中所述第 b个子带的 ICLD加权值。
进一步可选的, 根据所述任一帧中的第 i个子帧中第 b个子带的 ICLD, 计 算所述第 i个子帧中第 b个子带的第二加权因子, 包括: fac2(i,b) = |level(i,b)| /V |level(j,b)|
根据 ^ 计算所述第 i个子帧中第 b个子带的第二 加权因子,其中,所述1 evel(i,b)表示第 i个子帧的第 b个子带的 ICLD,所述 level(j,b) 表示第 j个子帧的第 b个子带的 ICLD。
进一步可选的, 在本步骤中, L=4, 计算第 i个子帧中第 b个子带的第二加 fac2(i,b) = |level(i,b)| /^|level(j,b)|
权因子: 。 可选的, 根据所述第二加权因子以及所述任一帧中所述第 i 个子帧中所述 第 b个子带的 ICLD, 计算所述任一帧中所述第 b个子带的 ICLD加权值, 包括: level(b)=yfac2(i, b)*level(i, b)
根据 i=i 计算所述任一帧中第 b个子带的 ICLD加权 值, 其中, 所述 level(b)表示所述任一帧中第 b个子带的 ICLD加权值, 0 < b < K, 所述 K表示任一个子帧中包括的子带数量, K > 12 , 所述 fac2(i,b)为第 i个子帧中 第 b个子带的第二加权因子, 0 < i L, 所述 level(i,b)表示第 i个子帧的第 b个 子带的 ICLD。
进一步可选的, 在本步骤中, 计算任一帧中第 b个子带的 ICLD加权值: level(b)=∑fac2(i, b)*level(i, b) 可选的, 采用方式三进行加权处理时, 本步骤包括:
根据所述任一帧中的第 i个子帧中第 b个子带的 ICLD, 计算所述第 i个子 帧中第 b个子带的第二加权因子;
根据所述第二加权因子以及所述任一帧中所述第 i个子帧中所述第 b个子 带的 ICLD, 计算所述任一帧中所述第 b个子带的 ICLD加权值。
进一步可选的, 根据所述任一帧中的第 i个子帧中第 b个子带的 ICLD, 计 算所述第 i个子帧中第 b个子带的第二加权因子, 包括:
根据
Figure imgf000025_0001
计算所述第
个子帧中第 b个子带的第二加权因子, 其中, 所述 M表示所述任一帧中的任一 个子帧中相邻的子带的数量, 所述 z表示相邻子带和当前子带的索引号的差值。 需要说明的是, 一个子帧可以分为 K个子带, 例如子带 1、 子带 2……子带 K, 这里, 1、 2…… K即为子带的索引号。
进一步可选的, 在本步骤中, 基于相邻 1子带的 ICLD计算第 i个子帧中第 b个子带的第二加权因子:
Figure imgf000026_0001
进一步可选的, 在本步骤中, 基于相邻 3子带的 ICLD计算第 i个子帧中第 b个子带的第二加权因子:
level(i,b)|
fac2(i,b)=
Figure imgf000026_0002
需要说明的是, 当需要计算基于相邻 4个或者 5个等其他个数子带的 ICLD 的加权因子时, 可以参照上述基于 M个子带的 ICLD的加权因子的通用计算公式 进行计算, 在此不再——具体举例说明。 根据所述第二加权因子以及所述任一 帧中所述第 i个子帧中所述第 b个子带的 ICLD, 计算所述任一帧中所述第 b个 子带的 ICLD加权值
可选的, 根据所述第二加权因子以及所述任一帧中所述第 i 个子帧中所述 第 b个子带的 ICLD, 计算所述任一帧中所述第 b个子带的 ICLD加权值, 与采用 方式二计算任一帧中第 b个子带的 ICLD加权值的方法相同, 即任一帧的第 b个 level(b)=yfac2(i, b)*level(i, b)
子带的 CLD加权值为: i=i 。 步骤 306, 对获得的 ICLD加权值进行量化处理。 可选的,这里量化处理为根据预设码本与 ICLD加权值进行比较,获取与 ICLD 加权值最接近的预设码本中的值。例如, ICLD加权值为 1. 4 ,预设码本中包括 0、 2等值, 则对 ICLD加权值进行量化处理后获得的值为 2。
进一步可选的, 为了保证立体声音频的解码后的质量的前提下, 减少比特 的传输, 在进行量化处理时, 可以计算当前 ICLD加权值与前一 ICLD加权值的 差, 将计算得到的差进行量化处理。 例如, 一个子帧分为 15个子带, 将第 1个 子带的 ICLD加权值直接进行量化处理, 对第 2个子带的 ICLD加权值进行量化 处理时, 首先计算第 2个子带的 ICLD加权值与第 1个子带的 ICLD加权值的差 值, 然后将计算得到的差值进行量化处理, 从而获得第 2个子带的 ICLD加权值 的量化结果, 可以根据计算第 2个子带的 ICLD加权值的量化结果的方法依次计 算其他子带的 ICLD加权值的量化结果。
需要说明的是, 当一帧立体声音频信号分为 2个子帧, 一个子帧分为 12个 子带时, 在立体声音频信号传输过程中没有丟包时, 现有技术获得的分段信噪 比 (segmenta l s igna l-to-noi se rat io, SSNR ) 为 3. 63dB, 而采用本发明实 施例提供的方法后, 获得的 SSNR为 3. 73dB。 需要说明的是, SSNR值越大, 说 明编解码处理音频越接近原始音频, 即效果越好。 因此, 本发明实施例提供的 方法较现有技术提升 0. ldB以上。 而在立体声音频信号传输过程中存在丟包时, 现有技术获得的 SSNR 为 3. 59dB, 而采用本发明实施例提供的方法后, 获得的 SSNR为 3. 72dB, 测试结果与没有丟包情况下获得的测试结果相近。
本发明实施例提供一种声道间电平差处理方法, 通过基于子帧间相关性, 对任一个子帧的 ICLD进行加权处理, 并对 ICLD加权值进行量化处理, 使得能 够有效降低编码比特率, 且在信号变化迅速及丟包情况下能够保证解码立体声 音频质量, 达到了预想效果。
本发明实施例提供一种声道间电平差处理方法, 如图 4 所示, 在立体声音 频解码端, 接收输入的量化处理后的立体声音频比特流, 解析此比特流获得 K ( K > 12 )个子带的 ICLD, 将各个子带的 ICLD值依次对应地作为当前各个子帧 的各个子带的 ICLD, 从而获得解码后的立体声音频信号。
例如, 解析接收到的比特流后获得的子带 1的 ICLD为 A, 子带 2的 ICLD为 B, 子带 3的 ICLD为 C等, 当前帧分为 L个子帧, 则每个子帧的子带 1的 ICLD 为 A, 子带 2的 ICLD为 B, 子带 3的 ICLD为 C等。
本发明实施例提供的一种声道间电平差处理方法, 将接收到的量化处理后 的立体声音频比特流进行解码后, 可以获得较高质量的立体声音频, 并且实现 了立体声音频信号的低比特率传输。 本发明实施例提供一种声道间电平差处理装置, 该装置可以为处理立体声 音频的编码端, 如图 5所示, 该装置包括: 接收单元 501 , 解析单元 502 , 计算 单元 503 , 第一加权处理单元 504 , 第二加权处理单元 505;
接收单元 501 , 用于接收立体声音频信号;
解析单元 502 , 用于根据所述接收单元 501接收的所述立体声音频信息, 逐 帧解析所述立体声音频信号, 获得所述立体声音频信号的每一帧中每个子帧的 各个子带的声道间电平差 ICLD, 所述每一帧中包括至少两个子帧;
立体声音频信号可以由许多帧构成。 在本步骤中, 每一帧进一步可以分为 多个子帧, 每一个子帧可以分为多个子带。 其中, 需要说明的是, 在实际应用 中, 每一帧中包括的子帧数量为偶数个, 并且每一帧中可以包括至少两个子帧, 例如, 一帧中包括 2个子帧, 或者一帧中包括 4个子帧, 或者一帧中包括 6个 子帧等等。 每一个子帧中包括至少 12个子带。
ICLD用于分辨立体声源的水平方向角度, 描述了声道间的强度差别, 该参 数将影响整个频谱的频率成分。
计算单元 503 ,用于根据所述解析单元 502解析获得的所述立体声音频信号 的每一帧中每个子帧的各个子带的 ICLD , 计算所述立体声音频信号的任一帧中 每个子帧的 ICLD的绝对值之和;
第一加权处理单元 504 , 用于当所述任一帧中任两个子帧的 ICLD的绝对值 之和的差的绝对值都小于预设阔值时, 采用第一加权方式计算所述任一帧中每 个子带的 ICLD加权值;
第二加权处理单元 505 , 用于当所述任一帧中任两个子帧的 ICLD的绝对值 之和的差的绝对值不小于预设阔值时, 采用第二加权方式计算所述任一帧中每 个子带的 ICLD加权值。 需要说明的是, 任一帧中包括的任两个子帧的 ICLD的 绝对值之和的差的绝对值不小于预设阔值可以理解为: 所有的差的绝对值都大 于等于预设阔值, 或者部分差的绝对值小于预设阔值, 并且其余差的绝对值大 于等于预设阔值。
进一步可选的, 在计算单元 503根据所述解析单元解析获得的所述立体声 音频信号的每一帧中每个子帧的各个子带的 ICLD, 计算所述立体声音频信号的 任一帧中每个子帧的 ICLD 的绝对值之和之后, 当所述任一帧中任两个子帧的 ICLD的绝对值之和的差的绝对值都小于预设阔值时, 第一加权处理单元 504采 用第一加权方式计算所述任一帧中每个子带的 ICLD加权值之前, 或者, 当所述 任一帧中任两个子帧的 ICLD的绝对值之和的差的绝对值不小于预设阔值时, 第 二加权处理单元 505采用第二加权方式计算所述任一帧中每个子带的 ICLD加权 值之前, 可以先判断所述任一帧中任两个子帧的 ICLD的绝对值之和的差的绝对 值是否都小于预设阔值。
进一步可选的, 如图 6所示, 所述第一加权处理单元 504 , 包括: 第一计算 模块 5041 , 第二计算模块 5042。
第一计算模块 5041 , 用于根据所述任一帧中包括的子帧数量, 计算第 i个 子帧中第 b个子带的第一加权因子, 所述 i表示所述任一帧中包括的任一个子 帧, 0 < i L, 所述 L为所述任一帧中包括的子帧数量, 并且 L > 2 , 所述 b表示 所述第 i个子帧中任一个子带, 0 < b K, 所述 K表示任一个子帧中包括的子带 数量, K > 12;
所述第一计算模块 5041用于:
根据 faCl(i,b) = l / L计算第 i个子帧中的第 b个子带的第一加权因子, 其中, 所述 faCl(i,b)表示第 i个子帧中的第 b个子带的所述第一加权因子。
第二计算模块 5042 , 用于根据所述第一加权因子以及所述任一帧中所述第 i个子帧中所述第 b个子带的 ICLD, 计算所述任一帧中所述第 b个子带的 ICLD 加权值。
所述第二计算模块 5042 , 用于: level(b)=yfaCl(i, b)*level(i, b)
根据 i=i 计算所述任一帧中所述第 b个子带的 ICLD加 权值, 其中, 所述 level(b)表示所述任一帧中第 b 个子带的 ICLD 加权值, 所述 leVel(i,b)表示第 i个子帧的第 b个子带的 ICLD。
进一步可选的, 所述第二加权处理单元 505, 包括: 第三计算模块 5051, 第四计算模块 5052, 第五计算模块 5053。
第三计算模块 5051, 用于根据计算的所述立体声音频信号的所述任一帧中 每个子帧的 ICLD的绝对值之和, 计算所述第 i个子帧中第 b个子带的第二加权 因子, 所述 i表示所述任一帧中包括的任一个子帧, 0<i L, 所述 L为所述任 一帧中包括的子帧数量, 并且 L>2, 所述 b表示所述第 i个子帧中任一个子带, 0<b<K, 所述 K表示任一个子帧中包括的子带数量, K>12; 或者, 第四计算 模块 5052, 用于根据所述任一帧中的第 i个子帧中第 b个子带的 ICLD, 计算所 述第 i个子帧中第 b个子带的第二加权因子;
第五计算模块 5053, 用于根据所述第二加权因子以及所述任一帧中所述第 i个子帧中所述第 b个子带的 ICLD, 计算所述任一帧中所述第 b个子带的 ICLD 加权值。
进一步可选的, 采用整帧加权处理方式计算所述第 i个子帧中第 b个子带 的第二加权因子时, 所述第三计算模块 5051, 用于:
L
fac2 (i,b) = sum(i) / Vsum(j)
根据 计算所述第 i个子帧中所述第 b个子带的第二 加权因子, 其中, 所述 fac2(i,b)为第 i个子帧中第 b个子带的第二加权因子, 所 述 sum(i)表示所述第 i个子帧中每个子带的 ICLD的绝对值之和, 所述 sum(j)表示 所述第 j个子帧中每个子带的 ICLD的绝对值之和, 所述 j为所述任一帧中包括 任一个子帧, 0<j L。
进一步可选的, 采用基于当前子带的 ICLD进行逐子带加权处理方式, 计算 所述第 i个子帧中第 b个子带的第二加权因子时, 所述第四计算模块 5052, 用 于: fac2(i,b) = |level(i,b)| /V |level(j,b)|
根据 计算所述第 i个子帧中所述第 b个子带的 第二加权因子, 其中, 所述 level(i,b)表示第 i个子帧的第 b个子带的 ICLD, 所述 leVel(j,b)表示第 j个子帧的第 b个子带的 ICLD。
进一步可选的, 采用基于相邻 M子带的 ICLD进行逐子带加权处理方式, 计 算所述第 i个子帧中第 b个子带的第二加因子权时, 所述第四计算模块 5052 , 用于:
根据
Figure imgf000031_0001
计算所述第 i
个子帧中所述第 b个子带的第二加权因子, 其中, 所述 M表示相邻的子带的数 量, 所述 z表示相邻子带和当前子带的索引号的差值。 需要说明的是, 一个子帧 可以分为 K个子带, 例如子带 1、 子带 2……子带 K, 这里, 1、 2…… K即为子 带的索引号。
进一步可选的, 所述第五计算模块 5053 , 用于: level(b)=yfac2(i, b)*level(i, b)
根据 i=i 计算所述任一帧中所述第 b个子带的 ICLD加 权值, 其中, 所述 level(b)表示所述任一帧中第 b 个子带的 ICLD 加权值, 所述 fac2(i,b)为所述第 i个子帧中所述第 b个子带的第二加权因子,所述 level(i, b)表示 第 i个子帧的第 b个子带的 ICLD。
需要说明的是, 附图 5或附图 6所示装置中, 其各个模块的具体实施过程 以及各个模块之间的信息交互等内容, 由于与本发明方法实施例基于同一发明 构思, 可以参见方法实施例, 在此不——赘述。
需要说明的是, 当一帧立体声音频信号分为 2个子帧, 一个子帧分为 12个 子带时, 在立体声音频信号传输过程中没有丟包时, 现有技术获得的分段信噪 比 (segmenta l s igna l-to-noi se rat io, SSNR ) 为 3. 63dB, 而采用本发明实 施例提供的方法后, 获得的 SSNR为 3. 73dB。 需要说明的是, SSNR值越大, 说 明编解码处理音频越接近原始音频, 即效果越好。 因此, 本发明实施例提供的 方法较现有技术提升 0. ldB以上。 而在立体声音频信号传输过程中存在丟包时, 现有技术获得的 SSNR 为 3. 59dB, 而采用本发明实施例提供的方法后, 获得的 SSNR为 3. 72dB, 测试结果与没有丟包情况下获得的测试结果相近。
本发明实施例提供一种声道间电平差处理装置, 通过基于子帧间相关性, 对任一个子帧的 ICLD进行加权处理, 并对 ICLD加权值进行量化处理, 使得能 够有效降低编码比特率, 且在信号变化迅速及丟包情况下能够保证解码立体声 音频质量, 达到了预想效果。
本发明实施例提供一种声道间电平差处理装置, 该装置可以为处理立体声 音频的编码端,如图 7所示,该装置包括:接收器 701 ,存储器 702 ,处理器 703. 接收器 701 , 用于接收立体声音频信号;
存储器 702 , 用于存储包括程序的信息;
处理器 703, 与接收器 701、 存储器 702连接, 用于控制所述程序的执行, 具体包括: 根据接收的所述立体声音频信息, 逐帧解析所述立体声音频信号, 获得所述立体声音频信号的每一帧中每个子帧的各个子带的声道间电平差 ICLD, 所述每一帧中包括至少两个子帧; 以及根据所述解析单元解析获得的所 述立体声音频信号的每一帧中每个子帧的各个子带的 ICLD, 计算所述立体声音 频信号的任一帧中每个子帧的 ICLD的绝对值之和; 以及当所述任一帧中任两个 子帧的 ICLD的绝对值之和的差的绝对值都小于预设阔值时, 采用第一加权方式 计算所述任一帧中每个子带的 ICLD加权值; 当所述任一帧中任两个子帧的 ICLD 的绝对值之和的差的绝对值不小于预设阔值时, 采用第二加权方式计算所述任 一帧中每个子带的 ICLD加权值。
需要说明的是, 任一帧中任两个子帧的 ICLD的绝对值之和的差的绝对值不 小于预设阔值可以理解为: 所有的差的绝对值都大于等于预设阔值, 或者部分 差的绝对值小于预设阔值, 并且其余差的绝对值大于等于预设阔值。 可选的, 立体声音频信号可以由许多帧构成。 在本步骤中, 每一帧可以分 为多个子帧, 每一个子帧可以分为多个子带。 其中, 需要说明的是, 在实际应 用中, 每一帧中包括的子帧数量为偶数个, 并且每一帧中可以包括至少两个子 帧, 例如, 一帧中包括 2个子帧, 或者一帧中包括 4个子帧, 或者一帧中包括 6 个子帧等等。 每一个子帧中包括至少 12个子带。
ICLD用于分辨立体声源的水平方向角度, 描述了声道间的强度差别, 该参 数将影响整个频谱的频率成分。
进一步可选的, 所述处理器 703还用于计算所述立体声音频信号的任一帧 中每个子帧的 ICLD 的绝对值之和之后, 并且在当所述任一帧中任两个子帧的 ICLD的绝对值之和的差的绝对值都小于预设阔值时, 采用第一加权方式计算所 述任一帧中每个子带的 ICLD加权值之前, 或者, 在当所述任一帧中任两个子帧 的 ICLD的绝对值之和的差的绝对值不小于预设阔值时, 采用第二加权方式计算 所述任一帧中每个子带的 ICLD加权值之前, 用于判断所述任一帧中任两个子帧 的 ICLD的绝对值之和的差的绝对值是否都小于预设阔值。
进一步可选的, 所述处理器 703 采用第一加权方式计算所述任一帧中每个 子带的 ICLD加权值时, 用于根据所述任一帧中包括的子帧数量, 计算第 i个子 帧中第 b个子带的第一加权因子, 所述 i表示所述任一帧中包括的任一个子帧, 0 < i < L, 所述 L为所述任一帧中包括的子帧数量, 并且 L > 2 , 所述 b表示所述 第 i个子帧中任一个子带,0 < b K, 所述 K表示任一个子帧中包括的子带数量, K > 12; 以及根据所述第一加权因子以及所述任一帧中所述第 i个子帧中所述第 b个子带的 ICLD, 计算所述任一帧中所述第 b个子带的 ICLD加权值。
进一步可选的, 所述处理器 703根据所述任一帧中包括的子帧数量, 计算 第 i个子帧中第 b个子带的第一加权因子时, 具体用于: 根据 faCl(i,b) = l / L计算 第 i个子帧中的第 b个子带的第一加权因子, 其中, 所述 faCl(i,b)表示第 i个子 帧中的第 b个子带的所述第一加权因子。
进一步可选的, 所述处理器 703根据所述第一加权因子以及所述任一帧中 所述第 i个子帧中所述第 b个子带的 ICLD, 计算所述任一帧中所述第 b个子带 的 I CLD加权值时, 具体用于: level(b)=yfaCl(i, b)*level(i, b)
根据 i=i 计算所述任一帧中所述第 b个子带的 ICLD加 权值, 其中, 所述 level(b)表示所述任一帧中第 b 个子带的 ICLD 加权值, 所述 leVel(i,b)表示第 i个子帧的第 b个子带的 ICLD。
进一步可选的, 所述处理器 703 采用第二加权方式计算所述任一帧中每个 子带的 ICLD加权值时, 用于根据计算的所述立体声音频信号的所述任一帧中每 个子帧的 ICLD的绝对值之和, 计算所述第 i个子帧中第 b个子带的第二加权因 子, 所述 i表示所述任一帧中包括的任一个子帧, 0 < i L, 所述 L为所述任一 帧中包括的子帧数量, 并且 L > 2 , 所述 b表示所述第 i个子帧中任一个子带, 0 < b < K, 所述 K表示任一个子帧中包括的子带数量, K > 12; 或者, 根据所述任 一帧中的第 i个子帧中第 b个子带的 ICLD, 计算所述第 i个子帧中第 b个子带 的第二加权因子; 以及根据所述第二加权因子以及所述任一帧中所述第 i 个子 帧中所述第 b个子带的 ICLD,计算所述任一帧中所述第 b个子带的 ICLD加权值。
进一步可选的, 所述处理器 703根据计算的所述立体声音频信号的所述任 一帧中每个子帧的 ICLD的绝对值之和, 计算所述第 i个子帧中第 b个子带的第 二加权因子时, 用于
L
fac2 (i,b) = sum(i) / Vsum(j)
根据 计算所述第 i个子帧中所述第 b个子带的第二 加权因子, 其中, 所述 fac2(i,b)为第 i个子帧中第 b个子带的第二加权因子, 所 述 sum(i)表示所述第 i个子帧中每个子带的 ICLD的绝对值之和, 所述 sum(j)表示 所述第 j个子帧中每个子带的 ICLD的绝对值之和, 所述 j为所述任一帧中包括 任一个子帧, 0 < j L。
进一步可选的, 所述处理器 703根据所述任一帧中的第 i个子帧中第 b个 子带的 ICLD, 计算所述第 i个子帧中第 b个子带的第二加权因子时, 用于: fac2(i,b) = |level(i,b)| / V |level(j,b)|
根据 计算所述第 i个子帧中所述第 b个子带的 第二加权因子, 其中, 所述 level(i,b)表示第 i个子帧的第 b个子带的 ICLD, 所述 leVel(j,b)表示第 j个子帧的第 b个子带的 ICLD。 进一步可选的, 所述处理器 703根据所述任一帧中的第 i个子帧中第 b个 子带的 ICLD, 计算所述第 i个子帧中第 b个子带的第二加权因子时, 用于:
根据
Figure imgf000035_0001
计算所述第 个子帧中所述第 b个子带的第二加权因子, 其中, 所述 M表示相邻的子带的数 量, 所述 表示相邻子带和当前子带的索引号的差值。 需要说明的是, 一个子帧 可以分为 K个子带, 例如子带 1、 子带 2……子带 K, 这里, 1、 2…… K即为子 带的索引号。
进一步可选的, 所述处理器 703根据所述第二加权因子以及所述任一帧中 所述第 i个子帧中所述第 b个子带的 ICLD, 计算所述任一帧中所述第 b个子带 的 ICLD加权值时, 用于:
level(b)=y fac2(i, b) *level(i, b)
根据 i=i 计算所述任一帧中所述第 b个子带的 ICLD加 权值, 其中, 所述 level(b)表示所述任一帧中第 b 个子带的 ICLD 加权值, 所述 fac2(i,b)为所述第 i个子帧中所述第 b个子带的第二加权因子,所述 level(i,b)表示 第 i个子帧的第 b个子带的 ICLD。
需要说明的是, 附图 7 所示装置中, 其各个模块的具体实施过程以及各个 模块之间的信息交互等内容, 由于与本发明方法实施例基于同一发明构思, 可 以参见方法实施例, 在此不——赘述。
需要说明的是, 当一帧立体声音频信号分为 2个子帧, 一个子帧分为 12个 子带时, 在立体声音频信号传输过程中没有丟包时, 现有技术获得的分段信噪 比 (segmenta l s igna l-to-noi se rat io, SSNR ) 为 3. 63dB, 而采用本发明实 施例提供的方法后, 获得的 SSNR为 3. 73dB。 需要说明的是, SSNR值越大, 说 明编解码处理音频越接近原始音频, 即效果越好。 因此, 本发明实施例提供的 方法较现有技术提升 0. ldB以上。 而在立体声音频信号传输过程中存在丟包时, 现有技术获得的 SSNR 为 3. 59dB, 而采用本发明实施例提供的方法后, 获得的 SSNR为 3. 72dB, 测试结果与没有丟包情况下获得的测试结果相近。
可见, 本发明实施例提供一种声道间电平差处理装置, 通过基于子帧间相 关性, 对任一个子帧的 ICLD进行加权处理, 并对 ICLD加权值进行量化处理, 使得能够有效降低编码比特率, 且在信号变化迅速及丟包情况下能够保证解码 立体声音频质量, 达到了预想效果。
需说明的是, 以上所描述的装置实施例仅仅是示意性的, 其中所述作为分 离部件说明的单元可以是或者也可以不是物理上分开的, 作为单元显示的部件 可以是或者也可以不是物理单元, 即可以位于一个地方, 或者也可以分布到多 个网絡单元上。 可以根据实际的需要选择其中的部分或者全部模块来实现本实 施例方案的目的。 本领域普通技术人员在不付出创造性劳动的情况下, 即可以 理解并实施。
通过以上的实施方式的描述, 所属领域的技术人员可以清楚地了解到本发 明可借助软件加必需的通用硬件的方式来实现, 当然也可以通过专用硬件包括 专用集成电路、 专用 CPU、 专用存储器、 专用元器件等来实现, 但很多情况下前 者是更佳的实施方式。 基于这样的理解, 本发明的技术方案本质上或者说对现 有技术做出贡献的部分可以以软件产品的形式体现出来, 该计算机软件产品存 储在可读取的存储介质中,如计算机的软盘, U盘、移动硬盘、只读存储器(ROM, Read-Only Memory ), 随机存取存储器 ( RAM, Random Acces s Memory ), 磁碟或 者光盘等, 包括若干指令用以使得一台计算机设备(可以是个人计算机, 服务 器, 或者网絡设备等)执行本发明各个实施例所述的方法。
本说明书中的各个实施例均采用递进的方式描述, 各个实施例之间相同相 似的部分互相参见即可, 每个实施例重点说明的都是与其他实施例的不同之处。 尤其, 对于装置和系统实施例而言, 由于其基本相似于方法实施例, 所以描述 得比较简单, 相关之处参见方法实施例的部分说明即可。
以上所述, 仅为本发明的具体实施方式, 但本发明的保护范围并不局限 于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内, 可轻易 想到变化或替换, 都应涵盖在本发明的保护范围之内。 因此, 本发明的保护 范围应所述以权利要求的保护范围为准。

Claims

权 利 要 求
1、 一种声道间电平差处理方法, 其特征在于, 包括:
接收立体声音频信号, 并逐帧解析所述立体声音频信号, 获得所述立体声 音频信号的每一帧中每个子帧的各个子带的声道间电平差 ICLD, 所述每一帧中 包括至少两个子帧;
根据获得的所述立体声音频信号的每一帧中每个子帧的各个子带的 ICLD, 计算所述立体声音频信号的任一帧中每个子帧的 ICLD的绝对值之和;
当所述任一帧中任两个子帧的 ICLD的绝对值之和的差的绝对值都小于预设 阔值时, 采用第一加权方式计算所述任一帧中每个子带的 ICLD加权值;
当所述任一帧中任两个子帧的 ICLD的绝对值之和的差的绝对值不小于预设 阔值时, 采用第二加权方式计算所述任一帧中每个子带的 ICLD加权值。
2、 根据权利要求 1所述的方法, 其特征在于, 所述采用第一加权方式计算 所述任一帧中每个子带的 ICLD加权值, 包括:
根据所述任一帧中包括的子帧数量, 计算第 i个子帧中第 b个子带的第一 加权因子, 所述 i表示所述任一帧中包括的任一个子帧, 0 < i L, 所述 L为所 述任一帧中包括的子帧数量, 并且 L > 2 , 所述 b表示所述第 i个子帧中任一个 子带, 0 < b K, 所述 K表示任一个子帧中包括的子带数量, K > 12;
根据所述第一加权因子以及所述任一帧中所述第 i个子帧中所述第 b个子 带的 ICLD, 计算所述任一帧中所述第 b个子带的 ICLD加权值。
3、 根据权利要求 2所述的方法, 其特征在于, 所述根据所述任一帧中包括 的子帧数量, 计算第 i个子帧中第 b个子带的第一加权因子, 包括:
根据 faCl(i,b) = l / L计算第 i个子帧中的第 b个子带的第一加权因子, 其中, 所述 faCl(i,b)表示第 i个子帧中的第 b个子带的所述第一加权因子。
4、 根据权利要求 3所述的方法, 其特征在于, 所述根据所述第一加权因子 以及所述任一帧中所述第 i个子帧中所述第 b个子带的 ICLD, 计算所述任一帧 中所述第 b个子带的 ICLD加权值, 包括: level(b)=yfaCl(i, b)*level(i, b)
根据 i=i 计算所述任一帧中所述第 b个子带的 ICLD加 权值, 其中, 所述 level(b)表示所述任一帧中第 b 个子带的 ICLD 加权值, 所述 level(i,b)表示第 i个子帧的第 b个子带的 ICLD。
5、 根据权利要求 1所述的方法, 其特征在于, 所述采用第二加权方式计算 所述任一帧中每个子带的 ICLD加权值, 包括:
根据计算的所述立体声音频信号的所述任一帧中每个子帧的 ICLD的绝对值 之和, 或者根据所述任一帧中的第 i个子帧中第 b个子带的 ICLD, 计算所述第 i个子帧中第 b个子带的第二加权因子,所述 i表示所述任一帧中包括的任一个 子帧, 0 < i L, 所述 L为所述任一帧中包括的子帧数量, 并且 L > 2 , 所述 b表 示所述第 i个子帧中任一个子带, 0 < b K, 所述 K表示任一个子帧中包括的子 带数量, K > 12;
根据所述第二加权因子以及所述任一帧中所述第 i个子帧中所述第 b个子 带的 ICLD, 计算所述任一帧中所述第 b个子带的 ICLD加权值。
6、 根据权利要求 5所述的方法, 其特征在于, 根据计算的所述立体声音频 信号的所述任一帧中每个子帧的 ICLD的绝对值之和, 计算所述第 i个子帧中第 b个子带的第二加权因子, 包括:
L
fac2 (i,b) = sum(i) / Vsum(j)
根据 计算所述第 i个子帧中所述第 b个子带的第二 加权因子, 其中, 所述 fac2(i,b)为第 i个子帧中第 b个子带的第二加权因子, 所 述 sum(i)表示所述第 i个子帧中每个子带的 ICLD的绝对值之和, 所述 sum(j)表示 所述第 j个子帧中每个子带的 ICLD的绝对值之和, 所述 j为所述任一帧中包括 任一个子帧, 0 < j L。
7、 根据权利要求 6所述的方法, 其特征在于, 所述根据所述任一帧中的第 i个子帧中第 b个子带的 ICLD, 计算所述第 i个子帧中第 b个子带的第二加权 因子, 包括: fac2(i,b) = |level(i,b)| /V |level(j,b)|
根据 计算所述第 i个子帧中所述第 b个子带的 第二加权因子, 其中, 所述 level(i,b)表示第 i个子帧的第 b个子带的 ICLD, 所述 leVel(j,b)表示第 j个子帧的第 b个子带的 ICLD。
8、 根据权利要求 7所述的方法, 其特征在于, 所述根据所述任一帧中的第 i个子帧中第 b个子带的 ICLD, 计算所述第 i个子帧中第 b个子带的第二加权 因子, 包括:
根据
Figure imgf000040_0001
计算所述第
个子帧中所述第 b个子带的第二加权因子, 其中, 所述 M表示相邻的子带的数 量, 所述 Z表示相邻子带和当前子带的索引号的差值。
9、 根据权利要求 5-8中任一项所述的方法, 其特征在于, 所述根据所述第 二加权因子以及所述任一帧中所述第 i个子帧中所述第 b个子带的 ICLD, 计算 所述任一帧中所述第 b个子带的 ICLD加权值, 包括: level(b)=yfac2(i, b)*level(i, b)
根据 i=i 计算所述任一帧中所述第 b个子带的 ICLD加 权值, 其中, 所述 level(b)表示所述任一帧中第 b 个子带的 ICLD 加权值, 所述 fac2(i,b)为所述第 i个子帧中所述第 b个子带的第二加权因子,所述 level(i,b)表示 第 i个子帧的第 b个子带的 ICLD。
10、 一种声道间电平差处理装置, 其特征在于, 包括:
接收单元, 用于接收立体声音频信号;
解析单元, 用于根据所述接收单元接收的所述立体声音频信息, 逐帧解析 所述立体声音频信号, 获得所述立体声音频信号的每一帧中每个子帧的各个子 带的声道间电平差 ICLD, 所述每一帧中包括至少两个子帧;
计算单元, 用于根据所述解析单元解析获得的所述立体声音频信号的每一 帧中每个子帧的各个子带的 ICLD, 计算所述立体声音频信号的任一帧中每个子 帧的 ICLD的绝对值之和;
第一加权处理单元, 用于当所述任一帧中任两个子帧的 ICLD的绝对值之和 的差的绝对值都小于预设阔值时, 采用第一加权方式计算所述任一帧中每个子 带的 ICLD加权值;
第二加权处理单元, 用于当所述任一帧中任两个子帧的 ICLD的绝对值之和 的差的绝对值不小于预设阔值时, 采用第二加权方式计算所述任一帧中每个子 带的 ICLD加权值。
11、 根据权利要求 10所述的装置, 其特征在于, 所述第一加权处理单元, 包括:
第一计算模块, 用于根据所述任一帧中包括的子帧数量, 计算第 i 个子帧 中第 b个子带的第一加权因子, 所述 i表示所述任一帧中包括的任一个子帧, 0 < i < L, 所述 L为所述任一帧中包括的子帧数量, 并且 L > 2 , 所述 b表示所述 第 i个子帧中任一个子带,0 < b K, 所述 K表示任一个子帧中包括的子带数量, K > 12;
第二计算模块, 用于根据所述第一加权因子以及所述任一帧中所述第 i 个 子帧中所述第 b个子带的 ICLD,计算所述任一帧中所述第 b个子带的 ICLD加权 值。
12、根据权利要求 11所述的装置, 其特征在于, 所述第一计算模块, 用于: 根据 faCl(i,b) = l/ L计算第 i个子帧中的第 b个子带的第一加权因子, 其中, 所述 faCl(i,b)表示第 i个子帧中的第 b个子带的所述第一加权因子。
13、根据权利要求 12所述的装置, 其特征在于, 所述第二计算模块, 用于: level(b)=yfaCl(i, b)*level(i, b)
根据 i=i 计算所述任一帧中所述第 b个子带的 ICLD加 权值, 其中, 所述 level(b)表示所述任一帧中第 b 个子带的 ICLD 加权值, 所述 leVel(i,b)表示第 i个子帧的第 b个子带的 ICLD。
14、 根据权利要求 10所述的装置, 其特征在于, 所述第二加权处理单元, 包括:
第三计算模块, 用于根据计算的所述立体声音频信号的所述任一帧中每个 子帧的 ICLD的绝对值之和,计算所述第 i个子帧中第 b个子带的第二加权因子, 所述 i表示所述任一帧中包括的任一个子帧, 0 < i L, 所述 L为所述任一帧中 包括的子帧数量, 并且 L > 2 , 所述 b表示所述第 i个子帧中任一个子带, 0 < b < K, 所述 Κ表示任一个子帧中包括的子带数量, Κ > 12; 或者, 第四计算模块, 用于根据所述任一帧中的第 i个子帧中第 b个子带的 ICLD, 计算所述第 i个子 帧中第 b个子带的第二加权因子;
第五计算模块, 用于根据所述第二加权因子以及所述任一帧中所述第 i 个 子帧中所述第 b个子带的 ICLD,计算所述任一帧中所述第 b个子带的 ICLD加权 值。
15、根据权利要求 14所述的装置, 其特征在于, 所述第三计算模块, 用于:
L
fac2 (i,b) = sum(i) / Vsum(j)
根据 计算所述第 i个子帧中所述第 b个子带的第二 加权因子, 其中, 所述 fac2(i,b)为第 i个子帧中第 b个子带的第二加权因子, 所 述 sum(i)表示所述第 i个子帧中每个子带的 ICLD的绝对值之和, 所述 sum(j)表示 所述第 j个子帧中每个子带的 ICLD的绝对值之和, 所述 j为所述任一帧中包括 任一个子帧, 0 < j L。
16、根据权利要求 15所述的装置, 其特征在于, 所述第四计算模块, 用于: fac2(i,b) = |level(i,b)| /V |level(j,b)|
根据 计算所述第 i个子帧中所述第 b个子带的 第二加权因子, 其中, 所述 level(i,b)表示第 i个子帧的第 b个子带的 ICLD, 所述 leVelG,b)表示第 j个子帧的第 b个子带的 ICLD。
17、根据权利要求 16所述的装置, 其特征在于, 所述第四计算模块, 用于: fac2(i,b)=
根据
Figure imgf000043_0001
计算所述第
个子帧中所述第 b个子带的第二加权因子, 其中, 所述 M表示相邻的子带的数 量, 所述 z表示相邻子带和当前子带的索引号的差值。
18、 根据权利要求 14-17 中任一项所述的装置, 其特征在于, 所述第五计 算模块, 用于:
level(b)=yfac2(i, b) *level(i, b)
根据 w 计算所述任一帧中所述第 b个子带的 ICLD加 权值, 其中, 所述 levd(b)表示所述任一帧中第 b个子带的 ICLD加权值, 所述 fa (i,b:为所述第 i 个子帧中所述第 b 个子带的第二加权因子, 所述 level(j b表示第 i个子帧的第 b个子带的 ICLD。
PCT/CN2014/070131 2013-07-16 2014-01-04 一种声道间电平差处理方法及装置 WO2015007075A1 (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2016520245A JP6106336B2 (ja) 2013-07-16 2014-01-04 チャネル間レベル差処理方法及び装置
KR1020157032153A KR101730362B1 (ko) 2013-07-16 2014-01-04 채널간 레벨 차이 계산 방법 및 장치
EP14826895.6A EP2977984B1 (en) 2013-07-16 2014-01-04 Method and device for processing inter-channel voltage level difference
BR112015030201A BR112015030201A2 (pt) 2013-07-16 2014-01-04 método e aparelho de processamento de diferença de nível intercanal
US14/931,975 US10002615B2 (en) 2013-07-16 2015-11-04 Inter-channel level difference processing method and apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310298100.2A CN104299615B (zh) 2013-07-16 2013-07-16 一种声道间电平差处理方法及装置
CN201310298100.2 2013-07-16

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/931,975 Continuation US10002615B2 (en) 2013-07-16 2015-11-04 Inter-channel level difference processing method and apparatus

Publications (1)

Publication Number Publication Date
WO2015007075A1 true WO2015007075A1 (zh) 2015-01-22

Family

ID=52319314

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/070131 WO2015007075A1 (zh) 2013-07-16 2014-01-04 一种声道间电平差处理方法及装置

Country Status (7)

Country Link
US (1) US10002615B2 (zh)
EP (1) EP2977984B1 (zh)
JP (1) JP6106336B2 (zh)
KR (1) KR101730362B1 (zh)
CN (1) CN104299615B (zh)
BR (1) BR112015030201A2 (zh)
WO (1) WO2015007075A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10109284B2 (en) * 2016-02-12 2018-10-23 Qualcomm Incorporated Inter-channel encoding and decoding of multiple high-band audio signals
GB201909715D0 (en) 2019-07-05 2019-08-21 Nokia Technologies Oy Stereo audio

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102027535A (zh) * 2008-04-11 2011-04-20 诺基亚公司 信号处理
CN102157151A (zh) * 2010-02-11 2011-08-17 华为技术有限公司 一种多声道信号编码方法、解码方法、装置和系统
US20110206209A1 (en) * 2008-10-03 2011-08-25 Nokia Corporation Apparatus
CN102598122A (zh) * 2009-11-12 2012-07-18 皇家飞利浦电子股份有限公司 参量编码和解码

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE538469T1 (de) * 2008-07-01 2012-01-15 Nokia Corp Vorrichtung und verfahren zum justieren von räumlichen hinweisinformationen eines mehrkanaligen audiosignals
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
EP2375410B1 (en) * 2010-03-29 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A spatial audio processor and a method for providing spatial parameters based on an acoustic input signal

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102027535A (zh) * 2008-04-11 2011-04-20 诺基亚公司 信号处理
US20110206209A1 (en) * 2008-10-03 2011-08-25 Nokia Corporation Apparatus
CN102598122A (zh) * 2009-11-12 2012-07-18 皇家飞利浦电子股份有限公司 参量编码和解码
CN102157151A (zh) * 2010-02-11 2011-08-17 华为技术有限公司 一种多声道信号编码方法、解码方法、装置和系统

Also Published As

Publication number Publication date
BR112015030201A2 (pt) 2017-07-25
EP2977984A4 (en) 2016-06-29
KR101730362B1 (ko) 2017-04-26
CN104299615B (zh) 2017-11-17
US20160055856A1 (en) 2016-02-25
US10002615B2 (en) 2018-06-19
KR20150140802A (ko) 2015-12-16
EP2977984A1 (en) 2016-01-27
EP2977984B1 (en) 2018-12-12
JP6106336B2 (ja) 2017-03-29
JP2016522451A (ja) 2016-07-28
CN104299615A (zh) 2015-01-21

Similar Documents

Publication Publication Date Title
JP7106711B2 (ja) マルチチャネル信号符号化方法、マルチチャネル信号復号方法、エンコーダ、およびデコーダ
US9263050B2 (en) Allocation, by sub-bands, of bits for quantifying spatial information parameters for parametric encoding
RU2439718C1 (ru) Способ и устройство для обработки звукового сигнала
CN104485111B (zh) 音频/语音编码装置、音频/语音解码装置及其方法
US8831960B2 (en) Audio encoding device, audio encoding method, and computer-readable recording medium storing audio encoding computer program for encoding audio using a weighted residual signal
ES2966665T3 (es) Dispositivo y método de codificación de audio
CN112119457A (zh) 可截断的预测编码
EP3039675A1 (en) Hybrid waveform-coded and parametric-coded speech enhancement
CN108140393B (zh) 一种处理多声道音频信号的方法、装置和系统
CN110462733B (zh) 多声道信号的编解码方法和编解码器
KR102288841B1 (ko) 채널 간 위상차 파라미터 추출 방법 및 장치
EP2705516B1 (en) Encoding of stereophonic signals
EP3637417B1 (en) Signal processing method and device
US9214158B2 (en) Audio decoding device and audio decoding method
WO2015007075A1 (zh) 一种声道间电平差处理方法及装置
JP2020525847A (ja) チャネル間位相差パラメータ符号化方法および装置
CA2947360A1 (en) Audio coding method and related apparatus
KR20200090856A (ko) 오디오 인코딩 및 디코딩 방법 및 관련 제품
CN114467138A (zh) 音频编码和音频解码

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14826895

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2014826895

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 20157032153

Country of ref document: KR

Kind code of ref document: A

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112015030201

Country of ref document: BR

ENP Entry into the national phase

Ref document number: 2016520245

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 112015030201

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20151202