WO2009109120A1 - 一种音频信号的编解码方法和装置 - Google Patents

一种音频信号的编解码方法和装置 Download PDF

Info

Publication number
WO2009109120A1
WO2009109120A1 PCT/CN2009/070522 CN2009070522W WO2009109120A1 WO 2009109120 A1 WO2009109120 A1 WO 2009109120A1 CN 2009070522 W CN2009070522 W CN 2009070522W WO 2009109120 A1 WO2009109120 A1 WO 2009109120A1
Authority
WO
WIPO (PCT)
Prior art keywords
time domain
domain envelope
audio signal
parameter
current frame
Prior art date
Application number
PCT/CN2009/070522
Other languages
English (en)
French (fr)
Inventor
张德明
张琦
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Publication of WO2009109120A1 publication Critical patent/WO2009109120A1/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Definitions

  • the present invention relates to signal processing technologies, and in particular, to a method and apparatus for encoding and decoding audio signals. Background technique
  • audio signals such as wideband or ultra-wideband voice, music, etc.
  • MDCT Modified Discrete Cosine Transform
  • a certain length of audio signal is transformed into a transform domain, and then coefficients of the transform domain are quantized according to a specific quantization strategy.
  • the signal obtained by MDCT often has a pre-echo effect due to the sudden transition of the signal from a relatively small energy to a large energy, that is, the quantization error of the frame of the larger frame of the latter frame passes through the MDCT at the decoding end.
  • the overlap adds and leaks to the frame where the front energy is relatively small.
  • FIG. 1 they are signal diagrams before and after MDCT coding.
  • an encoding method of an audio signal is generally adopted on the basis of the MDCT transformation at the encoding end.
  • a frame signal extracts a fixed number of time domain envelope information, and then the extracted time domain envelope information is processed by quantization and normalization, and then transform coded.
  • the original signal is recovered using the corresponding inverse function.
  • An embodiment of the present invention provides a method for encoding an audio signal, including:
  • Quantifying and encoding the extracted time domain envelope information to obtain an encoded codeword of the time domain envelope; obtaining a quantized value of the time domain envelope information according to the encoded codeword, using the quantized value to the current frame
  • the audio signal is normalized;
  • the normalized frame current audio signal and the previous frame audio signal are transformed and encoded.
  • the present invention also discloses a method for decoding an audio signal, including: reading a stability parameter of a current frame audio signal from an encoded code stream of a received current frame audio signal;
  • the present invention also discloses an encoding device for an audio signal, comprising: a stability obtaining unit, configured to obtain a stability parameter of a current frame audio signal;
  • time domain envelope extracting unit configured to extract, according to the stability parameter of the current frame audio signal obtained by the stability obtaining unit, time domain envelope information from the current frame audio signal;
  • a unit configured to perform quantization coding on the time domain envelope information extracted in the time domain envelope extraction unit, to obtain an encoded codeword of the time domain envelope;
  • a normalization processing unit configured to obtain the time according to a processing result in the quantization coding unit a quantized value of the domain envelope information, and normalizing the current frame audio signal by using the quantized value;
  • a transform coding unit configured to transform and encode the current frame audio signal and the previous frame audio signal that are normalized in the normalization processing unit.
  • an audio signal decoding apparatus including: a stability parameter unit, configured to read a stability parameter of a current frame audio signal from an encoded code stream of a received current frame audio signal. ;
  • a time domain envelope codeword extracting unit configured to select, according to the stability parameter in the stability parameter unit, a number of time domain envelope codes corresponding to the stability parameter according to a same manner as the encoding end, Extracting the number of time domain envelope encoded codewords from the encoded code stream;
  • a time domain envelope decoding unit configured to decode a time domain envelope codeword in the time domain envelope codeword extracting unit to obtain a quantized value of time domain envelope information of the audio signal
  • a transform decoding unit configured to perform transform decoding on the transform encoded signal in the encoded code stream to obtain a current frame audio signal
  • an inverse normalization processing unit configured to perform inverse normalization processing on the current frame audio signal obtained in the transform decoding unit by using the quantized value in the time domain envelope decoding unit to obtain the reconstructed audio signal.
  • the embodiment of the invention has the following advantages:
  • the encoding end can extract the time domain envelope information corresponding to the stability according to the stability of the audio signal, so that a smaller number of time domain envelope information can be extracted for the high stability audio signal.
  • the audio signal with poor stability can extract more time domain envelope information for transmission, therefore, for extracting less time domain envelope information, less time can be used for the time domain packet.
  • the network information is quantized or decoded. Therefore, the embodiment of the present invention can greatly save the codec resources while eliminating the noise leakage problem caused by the transient signal.
  • Figure 1 (a), (b) are schematic diagrams of signals before and after MDCT coding
  • FIG. 2 is a schematic block diagram of an embodiment of an audio signal encoding method according to the present invention.
  • FIG. 3 is a schematic block diagram of another embodiment of an audio signal encoding method according to the present invention
  • FIG. 4 is a schematic block diagram of an embodiment of an audio signal decoding method according to the present invention
  • 5 is a schematic block diagram of another embodiment of an audio signal decoding method according to the present invention
  • FIG. 6 is a schematic block diagram of an audio signal encoding apparatus according to the present invention
  • FIG. 7 is a schematic block diagram showing another structure of an audio signal encoding apparatus according to the present invention.
  • FIG. 8 is a schematic block diagram showing another structure of an audio signal encoding apparatus according to the present invention.
  • FIG. 9 is a schematic block diagram showing another structure of an audio signal encoding apparatus according to the present invention.
  • FIG. 10 is a schematic block diagram showing another structure of an audio signal encoding apparatus according to the present invention.
  • FIG. 11 is a schematic block diagram showing the structure of an audio signal decoding apparatus according to the present invention.
  • An encoding method of an audio signal disclosed in the embodiment of the present invention is: extracting time domain envelope information corresponding to the degree of stability from the audio signal according to a degree of stability of the audio signal, for example, a degree of stability of the audio signal.
  • a degree of stability of the audio signal For example, a degree of stability of the audio signal
  • Higher signal, lower time resolution can be used to extract a smaller number of time domain envelope information; for unstable audio signals (such as transient signals), higher time resolution is used to extract Multiple numbers of time domain envelope information to eliminate the adverse effects of transient signals.
  • the extracted time domain envelope information is quantized and encoded to obtain an encoded codeword of the time domain envelope. And normalizing and transforming the audio signal by using the quantized value of the time domain envelope information.
  • FIG. 2 is a schematic block diagram of an embodiment of an audio signal encoding method according to the present invention, where the method includes:
  • S201 Analyze the stability of the current frame audio signal to obtain a stability parameter. For example, extracting a corresponding number of time domain envelope information according to a predetermined time resolution of the current frame audio signal; calculating a standard deviation ⁇ and a mean value of the extracted time domain envelope information; dividing the standard deviation ⁇ by the mean value / Get the signal amplitude change degree parameter D, which is the stability parameter.
  • S202 Extract, according to the obtained stability parameter, time domain envelope information corresponding to the stability parameter from the current frame audio signal.
  • S203 Quantize the extracted time domain envelope information to obtain a quantized value of the time domain envelope information, and then encode the quantized value to obtain an encoded codeword of the time domain envelope information.
  • S204 Obtain a quantized value of the time domain envelope information, and use the quantized value of the time domain envelope information to the current
  • the frame audio signal is normalized.
  • the normalization process may, for example: interpolating the quantized values of the time domain envelope information to obtain a normalization factor to form a smooth time domain envelope curve, and then using the normalization factor to the current frame audio.
  • the signal is normalized.
  • S205 Transform and encode the previous frame audio signal and the normalized current frame audio signal.
  • the coded codeword of the time domain envelope information obtained in S203 and the result obtained by transform coding in S205 are packaged and transmitted together.
  • the quantized value in the above S204 may be the quantized value obtained by quantizing the time domain envelope information in S203.
  • the method of obtaining the quantized value in S204 may be that the inverse quantized value obtained by decoding the encoded codeword in S203 may be used as the quantized value in S204.
  • the decoding method is the inverse of the encoding method in S203.
  • the audio signal of this embodiment may be an ultra-wideband signal with a sampling rate of 32 kHz, or a wideband signal with a sampling rate of 16 kHz, or other signals.
  • 50% overlapping MDCT transform coding is used, that is, in the M-point audio signal in an MDCT analysis window, the front M/2 point signal is the previous frame audio signal, and the rear M/2 point signal is the current frame audio signal.
  • FIG. 3 it is a schematic block diagram of another embodiment of an audio signal coding method according to the present invention. The embodiment includes:
  • S302 Calculate the standard deviation and the mean value / of the time domain envelope information 4.
  • S303 Calculate a signal amplitude change degree parameter D according to the standard deviation ⁇ and the mean value / in S302.
  • D the stability degree
  • the L value may take an empirical value such as 3; the threshold ⁇ t/i t/irj may take an empirical value such as ⁇ 0.2 0.4 0.6 ⁇ .
  • S305 Select the number of time domain envelope codes corresponding to the interval according to the interval in which the signal amplitude variation degree parameter D of the audio signal is located (or the corresponding signal amplitude change degree level).
  • S306 The p-point signal ⁇ J -.X ⁇ in S301 is extracted according to the number of time domain envelopes selected in S305, and the time domain envelope information 4 is extracted (ie, ⁇ .. ⁇ ⁇ ).
  • S307 Quantify the time domain envelope information 4' obtained in the S306, obtain a quantized value of the time domain envelope information 4', and then encode the quantized value to obtain the encoded codeword of the time domain envelope information 4. ⁇ ⁇ ⁇ index Ki ⁇ .
  • the specific method of quantification may be uniformly quantified but not limited thereto, for example:
  • the interval [M mn M m J is divided into m subintervals [M ⁇ mm + - ⁇ -),
  • the quantization value yi corresponding to the subinterval is obtained.
  • ⁇ At -AI performs interpolation smoothing to obtain a normalization factor corresponding to each point of the audio signal in the current frame
  • the normalization factor constitutes a smooth time domain envelope curve.
  • Interpolating smoothing of the quantized values is of course not limited to this formula.
  • the transform coding method may be, for example, performing a M-point modified discrete cosine transform (MDCT) on the M-point signal in the analysis window to obtain an M/2 point frequency coefficient; and then directly quantizing the M/2 point spectral coefficient. .
  • MDCT M-point modified discrete cosine transform
  • the M/2 point spectral coefficient can also be divided into multiple sub-bands, and the frequency domain envelope of each sub-band is extracted (the extraction method is similar to the method of extracting the time domain envelope information). Then, the frequency domain envelope information is interpolated and smoothed, and the normalization factor obtained by interpolation and smoothing is used to normalize the spectral coefficients, and then normalize.
  • the latter spectral coefficients are quantized.
  • S311 The stability parameter, the coded code ⁇ index, ... index Ki ⁇ obtained by quantitatively encoding the time domain envelope information in S307, and the transform coding result obtained in S310 are packaged and transmitted together.
  • the quantized value of the time domain envelope information 4 in the above embodiment S308 can directly use the quantized value generated in S307, which requires saving the generated quantized value in S307 to directly obtain the saved quantized in S308. value.
  • the quantized value in S307 is not saved after the generation, the encoded codeword of the time domain envelope information 4 obtained in S307 needs to be decoded before the execution of S308 to obtain the time domain envelope information. 4' quantized value.
  • the signal amplitude change degree parameter D can be calculated by other methods in addition to the methods of S302 and S303, for example: calculating the maximum deviation (max_destrict) of the time domain envelope information 4 in S301, or calculating S301 The maximum amplitude difference (max_rise) between the time domain envelope information 4 and the adjacent time domain envelope information, and the obtained value is the signal amplitude variation degree parameter D.
  • the magnitude of the signal amplitude change parameter (max_defination) and the threshold value t/ ⁇ can be compared, or the signal amplitude variation degree parameter can be compared.
  • the signal amplitude variation parameter of the audio signal is divided into corresponding i-th intervals. Among them, there are 2 intervals, that is, 2 levels.
  • the time domain envelope information 4' is directly quantized (for example, the time domain envelope information 4' can be uniformly quantized, Then, the results of the homo-quantization are encoded.)
  • 10 time-domain envelope information is obtained in S306, the time-domain envelope information is calculated first. The mean of ⁇ / and then ' 1 .... ⁇ subtract the mean / get the difference ⁇ 4' 1 ... ⁇ 4' 1 . ⁇ , then the difference ⁇ 4' 1 ... ⁇ 4' 1 . ⁇ and the mean/boost are quantized to obtain the quantized difference ⁇ ⁇ and the quantized mean ⁇ , and then separately quantize the difference The value ⁇ ...
  • the obtained quantized value ⁇ A... ⁇ is subjected to interpolation smoothing to obtain a normalization factor corresponding to the audio signal of each point in the current frame.
  • the quantized value of the time domain envelope information in the above embodiment can be directly used for the time domain envelope information '.. in addition to the method described above.
  • the method of performing quantization on the difference ⁇ ... ⁇ and the mean value may be the same as the method of quantizing the time domain envelope information 4 in S307, for example, uniform quantization.
  • the stability parameter in the foregoing embodiments S303 and S311 may be the interval indication of the signal amplitude variation degree parameter D in addition to the signal amplitude variation degree parameter D.
  • the step of calculating the stability parameter in the above S303 may include the above-mentioned S302, S303, calculating the signal amplitude variation degree parameter D by the standard deviation ⁇ and the mean value / in the S302, and the signal amplitude variation obtained in S304.
  • the interval identifier i obtained in S304 is the stability parameter.
  • the stability parameter sent is the interval identifier i where the signal amplitude variation degree parameter D is located.
  • the present invention also discloses a method for decoding an audio signal, as shown in FIG. 4, which is an embodiment of an audio signal decoding method according to the present invention.
  • FIG. 4 is an embodiment of an audio signal decoding method according to the present invention.
  • the stability parameter may be a signal amplitude change degree parameter D, or may be an interval identifier i of the signal amplitude change degree parameter.
  • S402 Select, according to the stability parameter, the number of time domain envelope codes corresponding to the stability parameter according to the same manner as the coding end, and extract the number from the current frame audio signal coded stream. Time domain envelope codeword.
  • S403 Decode the time domain envelope codeword to obtain a quantized value of the time domain envelope information of the audio signal.
  • S404 Perform transform decoding on the transform coded signal in the current frame audio signal coded stream, and perform inverse normalization on the current frame audio signal obtained by transform and decoding by using the quantized value of the time domain envelope information, that is, reconstructed audio signal.
  • the inverse normalization processing of the current frame audio signal obtained by transform and decoding by using the quantized value may be specifically: performing interpolation and smoothing on the quantized value of the time domain envelope information to obtain a normalization factor, and then utilizing The normalization factor performs inverse normalization processing on the current frame audio signal obtained after the transform decoding.
  • the interpolation smoothing adopts the same method as the encoding end.
  • FIG. 5 is a schematic block diagram of an embodiment of an audio signal decoding method according to the present invention.
  • the embodiment includes:
  • S501 Read a stability parameter of the current frame audio signal from the received current frame audio signal encoded code stream (such as the identifier i of the interval where the signal amplitude variation degree parameter D is located).
  • a stability parameter of the current frame audio signal such as the identifier i of the interval where the signal amplitude variation degree parameter D is located.
  • S502 Select the number of time domain envelope codes corresponding to the section identifier i according to the section identifier i (or the level of the location) in which the signal amplitude variation degree parameter D of the audio signal is located, in the same manner as the encoding end.
  • S505 perform orthogonal interpolation smoothing on the quantized value ⁇ 4 - ⁇ ) of the time domain envelope information, and obtain a normalization factor corresponding to the audio signal of each point in the current frame ⁇ . — J , normalize
  • the grading factor constitutes a smooth time domain envelope curve.
  • Interpolating smoothing of quantized values is of course not limited to this formula.
  • S506 Perform transform decoding on the transform coded signal in the current frame audio signal coded stream, and perform inverse normalization on the current frame audio signal obtained by transform and decoding by using a normalization factor in S505, that is, obtain the reconstructed audio signal. .
  • the encoding end can extract the time domain envelope information corresponding to the stability according to the stability of the audio signal, so that a relatively low number of time domain envelope information can be extracted for the high stability audio signal.
  • the information is quantized or decoded. Therefore, the embodiment of the present invention can greatly save the codec resources while eliminating the noise leakage problem caused by the transient signal.
  • the transmission of less time envelope information can also reduce the dynamic range of the audio signal, which is beneficial to transform coding and decoding.
  • the above embodiment can transmit the codeword of the time domain envelope for each frame of the audio signal, thereby ensuring the analysis and synthesis consistency of the audio signal at the decoding end, thereby ensuring that the decoder can synthesize a high quality reconstructed signal.
  • the above coding method embodiment only performs the calculation of the standard deviation and the mean when extracting the time domain envelope information, thereby also reducing the complexity of determining the degree of stability of the signal.
  • the present invention also discloses an encoding device for an audio signal, where the encoding device is located at an encoding end, and is capable of extracting a time domain corresponding to the degree of stability from the audio signal according to a degree of stability of the audio signal.
  • the envelope information is quantized and encoded by the extracted time domain envelope information to obtain an encoded codeword of the time domain envelope.
  • the audio signal is then normalized and transform encoded using the quantized values of the time domain envelope information.
  • FIG. 6 is a schematic block diagram showing the structure of an audio signal encoding apparatus according to the present invention.
  • the encoding apparatus can be applied to an ultra-wideband audio signal with a sampling rate of 32 kHz, or a wideband audio signal with a sampling rate of 16 kHz, or other signals.
  • the apparatus includes: a stability obtaining unit 601, a time domain envelope extracting unit 602, a quantization encoding unit 603, a normalization processing unit 604, and a transform coding unit 605, where
  • a stability obtaining unit 601 configured to obtain a stability parameter of the current frame audio signal; for example,
  • the standard deviation and the mean of the envelope information are then divided by the mean value to obtain the signal amplitude variation parameter, which is the stability parameter.
  • the signal amplitude change degree parameter may also be obtained by other methods, and the stability parameter may also be an identifier of the interval in which the signal amplitude change degree parameter is located.
  • the specific acquisition method refer to the above-mentioned extended embodiment of the method shown in FIG. This is no longer a comment.
  • the stability parameter may be the signal amplitude change degree parameter D, or may be the interval identifier i of the signal amplitude change degree parameter D.
  • the time domain envelope extracting unit 602 obtains the current state obtained by the stability obtaining unit 601.
  • extracting the time domain envelope information corresponding to the stability parameter from the current frame audio signal may be implemented by using the following subunits, but is not limited thereto:
  • a first dividing subunit for comparing the magnitude of the signal amplitude variation degree parameter D with a specified number of thresholds, and dividing the signal amplitude variation degree parameter D into the corresponding i-th interval; for example, When the threshold values are compared, they are divided into the i-th interval of a total of four intervals.
  • a first coding number determining subunit for selecting a time domain envelope corresponding to the interval according to a section in which the signal amplitude variation degree parameter D divided by the first divided subunit (not shown) is located
  • a first extraction subunit configured to determine the number of time domain envelope codes determined by the first coding number determining subunit (not shown), and extract the time domain from the current frame audio signal Envelope information.
  • the time domain envelope extraction unit 602 can directly select the number of time domain envelope codes corresponding to the interval identifier i, and then from the current frame audio.
  • the time domain envelope information is extracted from the signal.
  • the quantization coding unit 603 is configured to quantize the time domain envelope information extracted in the time domain envelope extraction unit 602 to obtain the quantized value of the time domain envelope information, and then encode the quantized value to obtain the coded codeword of the time domain envelope.
  • the time domain envelope information may be quantized by using the uniform metric, and the specific implementation method may refer to S307 in the embodiment shown in FIG. 3 .
  • the mean value of the time domain envelope information may be directly quantized and encoded to obtain the coded codeword of the time domain envelope;
  • the extraction time unit 602 extracts more than one time domain envelope information, all the extracted time domain envelope information may be subtracted from the mean value to obtain a difference value, and then the difference value is quantized and encoded.
  • the normalization processing unit 604 is configured to obtain a quantized value of the time domain envelope information according to the processing result in the quantization and encoding unit 603, and normalize the current frame audio signal by using the quantized value. For example, by performing interpolation and smoothing on the quantized value of the time domain envelope information, a normalization factor corresponding to each point of the audio signal in the current frame is obtained, and then the current frame audio signal is returned by using the normalization factor.
  • One treatment is configured to obtain a quantized value of the time domain envelope information according to the processing result in the quantization and encoding unit 603, and normalize the current frame audio signal by using the quantized value. For example, by performing interpolation and smoothing on the quantized value of the time domain envelope information, a normalization factor corresponding to each point of the audio signal in the current frame is obtained, and then the current frame audio signal is returned by using the normalization factor.
  • the normalization processing unit 604 may directly obtain the quantized value of the time domain envelope information from the saved information; if the quantized encoding unit 603 does not save the generated quantized value Then, the normalization processing unit 604 can decode the time domain envelope codeword obtained in the quantization coding unit 603 to obtain the quantized value of the time domain envelope information.
  • the transform coding unit 605 is configured to transform and encode the current frame audio signal obtained by the normalization processing unit 604 and the previous frame audio signal.
  • the apparatus may further include a transmitting unit (not shown), and the transmitting unit (not shown) is configured to convert the encoded signal obtained by the transform encoding unit 605, along with the stability obtaining unit.
  • the stability parameter in 601 and the coded codeword of the time domain envelope in the quantization coding unit 603 are packed and transmitted together.
  • the acquisition of the quantized value of the time domain envelope information by the normalization processing unit 604 may be differently acquired according to the different processing of the generated quantized value by the quantization encoding unit 603.
  • the method, therefore, the normalization processing unit 604 can have different structural functions depending on the situation.
  • FIG. 7 is a schematic structural block diagram of another embodiment of an audio signal encoding apparatus according to the present invention.
  • the stability parameter is a signal amplitude change degree parameter D
  • the stability obtaining unit 601 is in the foregoing FIG.
  • the first signal amplitude change degree parameter sub-unit 6013 is configured to divide the standard deviation ⁇ obtained in the first calculation sub-unit 6012 by the average value ⁇ to obtain a signal amplitude change degree parameter D, that is,
  • the present invention further discloses an audio signal encoding apparatus embodiment.
  • FIG. 8 it is a schematic block diagram of another embodiment of an audio signal encoding apparatus according to the present invention.
  • the stability parameter in this embodiment is still a signal.
  • the amplitude change degree parameter D, the stability obtaining unit 601 obtains the signal amplitude change degree parameter D by calculating the maximum deviation of the time domain envelope information of the audio signal, or the maximum amplitude difference.
  • the stability obtaining unit 601 includes: a second time domain envelope extraction sub-unit 6014, a second signal amplitude variation degree parameter sub-unit 6015, based on the apparatus embodiment shown in FIG.
  • the second signal amplitude change degree parameter sub-unit 6015 is configured to calculate a maximum deviation of time domain envelope information in the second time domain envelope extraction sub-unit 6014, or calculate time domain envelope information and an adjacent time domain envelope.
  • the maximum amplitude difference of the information, the value obtained is the signal amplitude change degree parameter D.
  • the present invention further discloses an audio signal encoding apparatus embodiment.
  • FIG. 9 it is a schematic structural block diagram of another embodiment of an audio signal encoding apparatus.
  • the stability parameter in this embodiment is a signal amplitude.
  • the interval identifier i in which the degree of change parameter is located may be divided into corresponding intervals by comparing the signal amplitude change degree parameter D generated by the stability obtaining unit 601 in the embodiment of FIG. 7 with a preset threshold value, the interval The identifier i is the stability parameter.
  • the stability obtaining unit 601 includes: a third time domain envelope extraction subunit 6016, a second calculation subunit 6017, a third signal amplitude change degree parameter subunit 6018, and a An interval identifier subunit 6019, wherein
  • the second calculation sub-unit 6017 is configured to calculate a standard deviation ⁇ and a mean value / of the time domain envelope information in the third time domain envelope extraction sub-unit 6016.
  • the calculation method of the mean value may be: but is not limited to:
  • a third signal amplitude change degree parameter sub-unit 6018 configured to divide the standard deviation ⁇ obtained in the second calculation sub-unit 6017 by the average value ⁇ to obtain a signal amplitude change degree parameter D;
  • the first interval identifier sub-unit 6019 is configured to compare the signal amplitude change degree parameter D in the third signal amplitude change degree parameter sub-unit 6018 with the preset threshold value into a corresponding interval, where the identifier i corresponding to the interval is For the stability parameter.
  • the present invention further discloses an embodiment of an audio signal encoding apparatus.
  • FIG. 10 it is a schematic block diagram of another embodiment of an audio signal encoding apparatus according to the present invention.
  • the stability parameter in this embodiment is a signal amplitude.
  • the interval identifier i in which the degree of change parameter is located may be divided into corresponding intervals by comparing the signal amplitude change degree parameter D generated by the stability obtaining unit 601 in the embodiment of FIG. 8 with a preset threshold value, the interval The identifier i is the stability parameter. As shown in FIG.
  • the fourth signal amplitude change degree parameter sub-unit 60111 is configured to calculate a maximum deviation of time domain envelope information in the fourth time domain envelope extraction subunit 60110, or calculate time domain envelope information and an adjacent time domain envelope. The maximum amplitude difference of the information, the parameter D of the signal amplitude variation degree is obtained.
  • the second section identifier sub-unit 60112 is configured to compare the signal amplitude change degree parameter D in the fourth signal amplitude change degree parameter sub-unit 60111 with the preset threshold value into a corresponding section, where the identifier i corresponding to the section is For the stability parameter.
  • the present invention also discloses an audio signal decoding apparatus, and the decoding apparatus is located at a decoding end, as shown in FIG. 11, which is a schematic block diagram of an audio signal decoding apparatus according to the present invention, and a decoding method of the decoding apparatus and The coding method of the above coding apparatus corresponds to the same, and is equally applicable to an ultra-wideband audio signal having a sampling rate of 32 kHz, or a wideband audio signal having a sampling rate of 16 kHz, or other signals.
  • the decoding apparatus includes: a stability parameter unit 1101, a time domain envelope coded codeword extracting unit 1102, a time domain envelope decoding unit 1103, a transform decoding unit 1104, and an inverse normalization processing unit 1105, where
  • the stability parameter unit 1101 is configured to read a stability parameter of the current frame audio signal from the encoded code stream of the received current frame audio signal. Since the received current frame audio signal encoded code stream includes the stability parameter corresponding to the frame audio signal, it can be directly obtained.
  • the time domain envelope coded codeword extracting unit 1102 is configured to select, according to the stability parameter in the stability parameter unit 1101, the number of time domain envelope codes corresponding to the stability parameter according to the same manner as the encoding end, and the encoding The number of time domain envelope coded codewords are extracted from the code stream.
  • the stability parameter may be the signal amplitude change degree parameter D, or may be the interval identifier i of the signal amplitude change degree parameter D.
  • the time domain envelope coded codeword extracting unit 1102 extracts and stabilizes from the current frame audio signal according to the stability parameter of the current frame audio signal obtained by the stability parameter unit 1101:
  • a second dividing subunit for comparing the magnitude of the signal amplitude variation degree parameter D with the specified number of thresholds, and dividing the signal amplitude variation degree parameter D into the corresponding i-th interval; for example, When the threshold values are compared, they are divided into the i-th interval of a total of four intervals.
  • a second coding number determining sub-unit for selecting and corresponding to the interval in which the signal amplitude variation degree parameter D divided by the second divided sub-unit (not shown) is in the same manner as the encoding end
  • a second extraction subunit configured to determine the number of time domain envelope codes determined by the second coding number determining subunit (not shown), and extract the number from the current frame audio signal (ie, ) Time domain envelope codewords.
  • the time domain envelope decoding unit 1103 is configured to decode the time domain envelope coded codeword in the time domain envelope coded codeword extracting unit 1102 to obtain a quantized value of the time domain envelope information of the audio signal.
  • the decoding method is an inverse process of the quantization coding method adopted at the encoding end.
  • the transform decoding unit 1104 is configured to perform transform decoding on the transform encoded signal of the current frame audio signal in the encoded bitstream to obtain a current frame audio signal.
  • the inverse normalization processing unit 1105 is configured to perform inverse normalization processing on the current frame audio signal obtained by the transform decoding unit 1104 by using the quantized value in the time domain envelope decoding unit 1103 to obtain a reconstructed audio signal.
  • the anti-normalization processing unit 1105 may specifically include: an interpolation smoothing unit (not shown) for the time domain envelope decoding unit 1103, in addition to the foregoing decoding apparatus embodiment shown in FIG.
  • the quantized value of the time domain envelope information is interpolated and smoothed to obtain a normalization factor.
  • an inverse normalization subunit (not shown) for performing inverse normalization processing on the current frame audio signal obtained by the transform decoding unit 1104 by using a normalization factor in the interpolation smoothing unit (not shown), To get reconstructed audio Signal.
  • the time domain envelope extraction unit 602 can extract the time domain envelope information corresponding to the stability parameter according to the stability parameter of the current frame audio signal obtained by the stability obtaining unit 601, so that
  • the high-stability audio signal can extract a small number of time-domain envelope information for transmission, and can extract a plurality of time-domain envelope information for transmission of a poorly-sound audio signal, and therefore, for extracting the number With less time domain envelope information, the time domain envelope information can be quantized or decoded using fewer bits. Therefore, the embodiment of the present invention can greatly save the codec while eliminating the noise leakage problem caused by the transient signal. resource of.
  • the encoding code word of the time domain envelope can be transmitted by the transmitting unit (not shown) for each frame of the audio signal, thereby ensuring the consistency of the analysis and synthesis of the audio signal by the decoding device, thereby ensuring
  • the decoding device is capable of synthesizing high quality reconstructed signals.
  • transmitting less time envelope information can also reduce the dynamic range of the audio signal, which is advantageous for transform coding and transform decoding.
  • the above-described encoding apparatus embodiment performs the calculation of the standard deviation and the mean only when extracting the time domain envelope information, thereby also reducing the complexity of judging the degree of signal stabilization.
  • audio signals described in all the above embodiments may be voice signals such as voice, or music, and these audio signals are applicable to the above method examples.
  • the device embodiments described above are merely illustrative, wherein the units described as separate components may or may not be physically separated, and the components displayed as units may or may not be physical units, ie may be located One place, or it can be distributed to multiple network elements. Some or all of the modules may be selected according to actual needs to achieve the objectives of the embodiment. Those of ordinary skill in the art can understand and implement without undue creative work.
  • the present invention can be implemented by means of software plus a necessary general hardware platform, and of course, can also be through hardware, but in many cases, the former is a better implementation. the way.
  • the computer software product of the present invention can be stored in a storage medium such as a ROM/RAM, a magnetic disk, an optical disk, or the like.
  • a storage medium such as a ROM/RAM, a magnetic disk, an optical disk, or the like.

Description

一种音频信号的编解码方法和装置
本申请要求于 2008 年 2 月 29 日提交中国专利局、 申请号为 200810006391.2、 发明名称为"一种音频信号的编解码方法和装置 "的中国专 利申请的优先权, 其全部内容通过引用结合在本申请中。
技术领域
本发明涉及信号处理技术,尤其涉及一种音频信号的编解码方法和装置。 背景技术
在如宽带或超宽带语音、 音乐等信号(统称"音频信号") 的编解码中, 使用较广泛的 于 MDCT (修正的离散余弦变换, Modified Discrete Cosine Transform )的变换域编码 , 其主要方法是将一定长度的音频信号变换到变换 域, 然后根据特定的量化策略对变换域的系数进行量化编码。但是 MDCT得 到的信号常会因为信号从相对较小的能量突然过度到很大的能量而出现预回 声(pre-echo )效应, 即后一帧较大能量的帧的量化误差在解码端通过 MDCT 的重叠相加泄露到了前面能量相对较小的帧中。 如图 1中的(a )、 ( b )所示, 分别为 MDCT编码前后的信号示意图。
由于这种 pre-echo效应引起的量化噪声通常能被人耳察觉, 因此, 为了 克服这种量化噪声泄漏, 通常采用的一种音频信号的编码方法是在编码端在 MDCT变换的基础上对每一帧信号提取固定个数的时域包络信息, 然后再将 所提取的时域包络信息经量化及归一化等处理后进行变换编码。 在解码端, 采用相应的逆函数恢复出原始信号。
然而, 在进行本发明创造过程中, 发明人发现该现有技术至少存在如下 问题:
由于现有技术是对每一帧音频信号都提取固定个数的时域包络信息, 而 且为了抑制噪声泄漏, 通常都会采用较高的时间分辨率, 因此提取的时域包 络信息的个数会比较多, 这样将需要用大量的比特对每一帧音频信号的时域 包络信息进行量化编码。 但是大多数情况下音频信号是相对稳定的, 其时域 包络信息也是相对平稳的, 因此, 如果仍然采用较高的时间分辨率, 则会造 成额外的编解码资源浪费。
发明内容
本发明实施例的目的在于提供一种音频信号的编解码方法和装置, 能够 在克服由 pre-echo效应引发的量化噪音泄漏的同时还节约了编解码资源。
本发明实施例提供了一种音频信号的编码方法, 包括:
获得当前帧音频信号的稳定度参数, 并根据所述当前帧音频信号的稳定 度参数, 从所述当前帧音频信号中提取相应个数的时域包络信息;
对所提取的时域包络信息量化编码, 得到时域包络的编码码字; 根据所述编码码字获得所述时域包络信息的量化值, 利用所述量化值对 所述当前帧音频信号进行归一化处理;
将归一化处理后的当前帧音频信号和前一帧音频信号变换编码。
基于上述技术方案, 本发明还公开了一种音频信号的解码方法, 包括: 从接收到的当前帧音频信号的编码码流中读取当前帧音频信号的稳定度 参数;
根据所述稳定度参数, 按照和编码端相同的对应方式选择与所述稳定度 参数对应的时域包络编码个数, 从所述当前帧音频信号编码码流中提取所述 个数的时域包络编码码字;
对所述时域包络编码码字进行解码得到所述音频信号的时域包络信息的 量化值;
对所述当前帧音频信号编码码流中的变换编码信号进行变换解码, 利用 所述量化值对变换解码后得到的当前帧音频信号进行反归一化处理, 以得到 重构的音频信号。
基于上述技术方案, 本发明还公开了一种音频信号的编码装置, 包括: 稳定度获得单元 , 用于获得当前帧音频信号的稳定度参数;
时域包络提取单元, 用于根据所述稳定度获得单元所获得的当前帧音频 信号的稳定度参数,从所述当前帧音频信号中提 目应个数的时域包络信息; 量化编码单元, 用于对所述时域包络提取单元中提取的时域包络信息量 化编码, 得到时域包络的编码码字;
归一化处理单元, 用于根据所述量化编码单元中的处理结果获得所述时 域包络信息的量化值, 利用所述量化值对所述当前帧音频信号进行归一化处 理;
变换编码单元, 用于将所述归一化处理单元中归一化处理后的当前帧音 频信号和前一帧音频信号变换编码。
基于上述技术方案, 本发明还公开了一种音频信号的解码装置, 包括: 稳定度参数单元, 用于从接收到的当前帧音频信号的编码码流中读取当 前帧音频信号的稳定度参数;
时域包络编码码字提取单元, 用于根据所述稳定度参数单元中的稳定度 参数, 按照和编码端相同的对应方式选择与所述稳定度参数对应的时域包络 编码个数, 从所述编码码流中提取所述个数的时域包络编码码字;
时域包络解码单元, 用于对所述时域包络编码码字提取单元中的时域包 络编码码字进行解码得到所述音频信号的时域包络信息的量化值;
变换解码单元, 用于对所述编码码流中的变换编码信号进行变换解码, 得到当前帧音频信号;
反归一化处理单元, 用于利用所述时域包络解码单元中的量化值对所述 变换解码单元中得到的当前帧音频信号进行反归一化处理, 以得到重构的音 频信号。
与现有技术相比, 本发明实施例具有以下优点:
本发明实施例在编码端能够根据音频信号的稳定度来提取与该稳定度对 应个数的时域包络信息, 这样对于稳定度高的音频信号能够提取较少个数的 时域包络信息来传输, 对于稳定度差的音频信号能够提取较多个数的时域包 络信息进行传输, 因此, 对于提取个数较少的时域包络信息, 可使用较少比 特对该时域包络信息进行量化编码或解码, 因此, 本发明实施例能够在消除 瞬态信号带来的噪声泄漏问题的同时大大节约编解码的资源。
附图说明
图 1 ( a )、 (b )分别为 MDCT编码前、 后的信号示意图;
图 2为本发明一种音频信号编码方法实施例的流程示意框图;
图 3为本发明另一种音频信号编码方法实施例的流程示意框图; 图 4为本发明一种音频信号解码方法实施例的流程示意框图; 图 5为本发明另一种音频信号解码方法实施例的流程示意框图; 图 6为本发明一种音频信号编码装置结构示意框图;
图 7为本发明另一种音频信号编码装置结构示意框图;
图 8为本发明又一种音频信号编码装置结构示意框图;
图 9为本发明又一种音频信号编码装置结构示意框图;
图 10为本发明又一种音频信号编码装置结构示意框图;
图 11为本发明一种音频信号解码装置结构示意框图。
具体实施方式
下面结合附图对本发明实施例的具体实施方式做进一步的详细阐述。 本发明实施例公开的一种音频信号的编码方法是: 根据音频信号的稳定 程度,从所述音频信号中提取与该稳定程度对应个数的时域包络信息,例如, 对于音频信号稳定程度较高的信号 , 可采用较低的时间分辨率来提取较少个 数的时域包络信息; 对于不稳定的音频信号(如瞬态信号), 则采用较高的时 间分辨率来提取较多个数的时域包络信息, 以此消除瞬态信号带来的不利影 响。 然后, 对所提取的这些时域包络信息量化编码, 得到时域包络的编码码 字。 并且利用所述时域包络信息的量化值对所述音频信号进行归一化处理和 变换编码。
如图 2所示, 为本发明一种音频信号编码方法实施例的流程示意框图, 该方法包括:
S201 : 分析当前帧音频信号的稳定程度, 得到稳定度参数。 例如, 对当 前帧音频信号按照预先约定的时间分辨率 , 提取相应个数的时域包络信息; 计算所提取的时域包络信息的标准差 σ和均值 /;将标准差 σ除以均值 /得到 信号幅度变化程度参数 D, 该值即稳定度参数。
S202: 根据所得的稳定度参数, 从当前帧音频信号中提取与稳定度参数 对应个数的时域包络信息。
S203: 对所提取的时域包络信息进行量化得到时域包络信息的量化值 , 然后再对所述量化值编码得到时域包络信息的编码码字。
S204: 获得时域包络信息的量化值, 利用时域包络信息的量化值对当前 帧音频信号进行归一化处理。 其中, 归一化处理可例如: 将时域包络信息的 量化值进行内插得到归一化因子, 以构成平滑的时域包络曲线, 然后再利用 所述归一化因子对当前帧音频信号进行归一化处理。
S205: 将前一帧音频信号和归一化处理后的当前帧音频信号变换编码。 此外, 在执行完上述实施例之后还可以: 将 S201中得到的稳定度参数、
S203中得到的时域包络信息的编码码字、 以及 S205中变换编码后得到的结 果一起打包发送。
此外, 上述 S204中的量化值可以为 S203中对时域包络信息量化所得到 的量化值, 当然, 这需要在 S203之后还要将 S203中得到的量化值保存以供 S204获得使用; 此外, 如果 S203中的量化值没有保存, 那么 S204中获得量 化值的方法可以为通过对 S203 中的编码码字进行解码, 得到的反量化值即 可作为 S204中的量化值。 其中, 解码方法为 S203中编码方法的逆过程。
下面举例说明本发明一种音频信号的编码方法实施例, 该实施例的音频 信号可以是采样率为 32KHz的超宽带信号, 也可以是采样率为 16kHz的宽 带信号, 或者其他信号。 本实施例采用 50 %的重叠 MDCT变换编码, 即在 一个 MDCT分析窗内的 M点音频信号中,前 M/2点信号为前一帧音频信号, 后 M/2点信号为当前帧音频信号。 如图 3所示, 为本发明另一种音频信号编 码方法实施例的流程示意框图, 该实施例包括:
S301 : 对分析窗内的 M点音频信号(如 M=640 的超宽带信号, 或者 M=320的宽带信号) 中的当前帧 p (如对应于超宽带信号 p=320, 或者对应 于宽带信号 p=160 ) 点信号 {x。... l}按照预先约定的时间分辨率(例如 2ms ) 提取相应个数 N (如 N=10 ) 的时域包络信息 4 (即 ...4j )。
其中, 时域包络信息 4的提取方法可按照下述方法计算提取, 但不限于 此方法: 4 =丄 ∑^:】 = 1··Ί
P j=(i-l)xp /N
S302: 计算时域包络信息 4的标准差 和均值 /。 其中, 均值 /的计算 方法可以为但不限于此: / =丄¾ ;标准差 σ的计算方法可以为但不限于此:
Figure imgf000008_0001
S303:根据 S302中的标准差 σ和均值 / ,计算信号幅度变化程度参数 D。 其中,在该实施例中可以将信号幅度变化程度参数 D作为稳定度^:,其中, 信号幅度变化程度参数 D的计算方法例如: D = , >0。 其中信号幅度变 μ 化程度参数 D的值越小表示该音频信号的稳定性越好。
S304: 比较信号幅度变化程度参数 与 L个阔值(如 { ..t/^} )的大小, 将音频信号的信号幅度变化程度参数 划分在相应第 i区间内。 其中, 共有 L+1个区间内 , 即 L+1个等级。
例如, 在本实施例中 L数值可取经验值如 3; 阀值 {t/i t/irj可取经验值 如 {0.2 0.4 0.6}。 此时, 则将音频信号的信号幅度变化程度 D划分成了 4个 等级(i=0, 1, 2, 3), 即第一等级为信号幅度变化程度参数 D 小于等于 0.2 的区间, 第二等级为信号幅度变化程度参数 D大于 0.2且小于等于 0.4的区 间, 依此类推。
S305: 根据音频信号的信号幅度变化程度参数 D所在的区间(或者说对 应的信号幅度变化程度等级), 选择与该区间对应的时域包络编码个数 。 例如, 可取经验值 {1 4 8 10}来分别对应 (i=0, 1, 2, 3) 四个区间。
S306: 对 S301中的 p点信号 {J -.X^}按照 S305中所选择的时域包络编 码个数 , 提取 个时域包络信息 4, (即 { ..^ })。
其中, 时域包络信息 4,的提取方法可采用下述方法计算提取, 但并不限 于此: A = 1… 。
Figure imgf000008_0002
S307: 量化所述 S306中得到的时域包络信息 4', 得到时域包络信息 4' 的量化值 , 然后再对量化值 进行编码得到所述时域包络信 息 4,的编码码字 · · · indexKi }。
其中, 量化的具体方法可以为均勾量化但不限于此, 例如: 将区间 [Mmn MmJ等分为 m 个子区间 [M^ mm + -~ -) ,
m
[A + ^^max ^min M _|_ 2χ ^max ^^min ) , ,
[ ^ + (m-l)x max~ min M^] , 每 一 个 区 间 对 应 的 量 化 值 为 m yi=Mmin+ixMmax ~ mm + Mmax ~ mm , 判断 4位于那个子区间, 就将所述 4量 m 2m
化为该子区间对应的量化值 yi
S308: 提取之前保存在编码状态寄存器中的前一帧音频信号的最后一个 时域包络信息 , 并根据该时域包络信息 4和时域包络信息 4 '的量化值
{At -AI)进行内插平滑, 得到对应于当前帧内每一点音频信号的归一化因子
{20M_j , 归一化因子即构成一个平滑的时域包络曲线。
其中, 可以使用公式
Figure imgf000009_0001
对所述量化值进行内插平滑, 当然并不仅限于此公式。
S309:利用归一化因子 { 。… ― ^对分析窗内的当前帧音频信号进行归一 化处理。 其中, 归一化处理的具体方法可例如:。 . =
1 A
Aj
S310:对分析窗内的 M点信号(即前一帧音频信号和归一化处理后的当 前帧音频信号)进行变化编码。 其中, 变换编码的方法可以例如: 对分析窗 内的 M点信号进行 M点修正的离散余弦变换( MDCT ),得到 M/2点频语系 数; 然后再将 M/2点频谱系数直接量化编码。 或者, 在得到 M/2点频谱系数 后,还可以将 M/2点频谱系数划分为多个子带,提取每个子带的频域包络(提 取方法和提取时域包络信息的方法类似), 再对频域包络信息进行内插平滑, 使用内插平滑后得到的归一化因子对频谱系数进行归一化处理, 再对归一化 后的频谱系数进行量化编码。
S311 : 将稳定度参数、 S307中对时域包络信息量化编码得到的编码码子 {index, ... indexKi }、 以及 S310中得到的变换编码结果一起打包发送。
此外, 上述实施例 S308 中的时域包络信息 4,的量化值可以直接使用 S307中生成的量化值, 这就需要在 S307中将生成的量化值保存以便在 S308 中能够直接获取保存的量化值。 然而, 如果 S307 中量化值在生成后并没有 保存,那么在执行 S308之前还需要先将 S307中得到的时域包络信息 4,的编 码码字进行解码 , 以获得所述时域包络信息 4 '的量化值。
此外, 信号幅度变化程度参数 D除了采用 S302和 S303的方法得到外, 还可以由其他方法计算, 例如: 计算 S301 中的时域包络信息 4的最大偏差 ( max— deviation ), 或者计算 S301中的时域包络信息 4与相邻的时域包络信 息的最大幅度差(max— rise ), 所得值即为信号幅度变化程度参数 D。 信号幅 度变化程度参数 D的值越小表示该音频信号的稳定性越好。
相应地, 在上述 S304 中, 还可比较信号幅度变化程度参数 ( max— deviation ) 与阔值 t/^的大小, 或者, 比较信号幅度变化程度参数
( max— rise )与阔值 ^的大小, 将音频信号的信号幅度变化程度参数 划分 在相应第 i区间内。 其中, 共有 2个区间, 即 2个等级。
例如, 如果信号幅度变化程度参数 ( max— deviation )大于 thrd , 或者信 号幅度变化程度参数 Ζ> ( max— rise ) 大于 t/^, 则稳定度在 i=l号区间; 否则 稳定度在 i=0号区间。
相应地,在 S305中,所述 可取经验值 {1 10}来分别对应( i=0, 1 ) 两个区间。
相应地, 在 S307中, 如果 S306中只得到 1个时域包络信息 4,, 则直接 对时域包络信息 4'进行量化编码(例如, 可对时域包络信息 4'均匀量化, 然后再对均勾量化后的结果进行编码); 如果 S306中得到 10个时域包络信 息, 即 则先计算时域包络信息 。 }的均值 / , 然后再将 '1... 。}都减去该均值/得到差值{^4'1...^4'1。},再对差值{^4'1...^4'1。}以及均值 /都进行量化得到量化差值 {Δ ···Δ^}和量化均值 ^ , 然后再分别对量化差 值 {Δ ...Δ 。}和量化均值 ^编码得到时域包络信息 ' f 。 }的编码码字 {indexx - -indexKi , index μ)。需要说明的是,这种才 据均值 /对所述时域包络信息 4, 进行量化编码的方法同样适用于上述 S307中的时域包络信息 4 '。
此外, 还可将量化差值 和量化均值 ^相加, 得到时域包络信 息的量化值 ··· } , 即 4? = M? + ^ , 并保存 ··· }, 以便在 S308 中对 得到的量化值 {A… }进行内插平滑, 以得到对应于所述当前帧内每一点音 频信号的归一化因子
Figure imgf000011_0001
当然, 上述实施例中的时域包络信息的量化 值除了使用上述方法得到外同样可以采用 S307 中的方法直接对时域包络信 息 ' .. 。 }进行量化, 或者采用上面所述的其他方法, 在此不再赞述。 其中, 对差值^…^^以及均值;进行量化的方法可以与 S307 中对时域包络信 息 4,量化的方法相同, 例如均匀量化。
此外, 上述实施例 S303和 S311中的稳定度参数除了可以为信号幅度变 化程度参数 D外, 还可以是信号幅度变化程度参数 D所在的区间标识 当 稳定度参数为信号幅度变化程度参数 D所在的区间标识 i时, 则上述 S303 中, 计算稳定度参数的步骤则可包括上述 S302, S303中通过 S302中的标 准差 σ和均值 / , 计算信号幅度变化程度参数 D, 以及 S304中得到信号幅度 变化程度参数 D所在的区间标识1。 其中, 在 S304中得到的区间标识 i即为 所述稳定度参数。 同时, 在所述 S311 中, 发送的稳定度参数即为信号幅度 变化程度参数 D所在的区间标识 i。
与此同时, 在上述公开的音频信号的编码方法实施例的基础上, 本发明 还公开了一种音频信号的解码方法, 如图 4所示, 为本发明一种音频信号解 码方法实施例的流程示意框图, 所述解码方法与上述编码方法对应, 具体包 括:
S401 : 从接收到的当前帧音频信号编码码流中读取当前帧音频信号的稳 定度参数。 其中, 稳定度参数可以是信号幅度变化程度参数 D, 或者还可以 是信号幅度变化程度参数所在区间标识 i。
S402: 根据稳定度参数, 按照和编码端相同的对应方式选择与稳定度参 数对应的时域包络编码个数, 从当前帧音频信号编码码流中提取所述个数的 时域包络编码码字。
S403: 对时域包络编码码字进行解码得到音频信号的时域包络信息的量 化值。
S404: 对当前帧音频信号编码码流中的变换编码信号进行变换解码, 利 用时域包络信息的量化值对变换解码后得到的当前帧音频信号进行反归一化 处理, 即得到重构的音频信号。
其中 , 利用所述量化值对变换解码后得到的当前帧音频信号进行反归一 化处理可具体为,先对时域包络信息的量化值进行内插平滑得到归一化因子, 然后再利用所述归一化因子对变换解码后得到的当前帧音频信号进行反归一 化处理。 其中, 内插平滑采用和编码端相同的方法。
下面举例说明本发明一种音频信号解码方法实施例, 该实施例可以以采 样率为 32KHz的超宽带信号为例, 也可以是采样率为 16kHz的宽带信号。 采用与上述编码方法对应的解码方式, 该实施例仍采用 M 点音频信号的 MDCT分析窗, 其前一半信号为前一帧音频信号, 后一半信号为当前帧音频 信号。如图 5所示,为本发明一种音频信号解码方法实施例的流程示意框图, 该实施例包括:
S501 : 从接收到的当前帧音频信号编码码流中读取当前帧音频信号的稳 定度参数 (如信号幅度变化程度参数 D所在区间的标识 i )。 由于在编码端, 和其他编码信息一起发送的有该帧音频信号的信号幅度变化程度参数 D所在 区间的标识 i, 因此, 可在解码端, 从接收到的当前帧音频信号编码码流中 直接读取该帧音频信号对应的信号幅度变化程度参数 D所在区间的标识 i。
S502: 根据音频信号的信号幅度变化程度参数 D所在的区间标识 i (或 者说所处的等级),按照和编码端相同的对应方式选择与该区间标识 i对应的 时域包络编码个数 。其中, 可取和编码端相同的经验值,如 {1 4 8 10} 来分别对应如(i=0, 1 , 2, 3 ) 四个等级; 或者, 如 {1 10}来分别对应 如 ( i=0, 1 ) 两个等级。
S 503: 从当前帧音频信号编码码流中读取 个时域包络编码码字 {index -indexK 。 例如, 对于只有 (i=0, 1) 两个等级的实施例, 当 i=0 时 从码流中读取"ieX , i=l时从码流中读取
S504: 对时域包括编码码字进行解码得到音频信号的时域包络信息的量 化值 {4一 }。 例如, 对于只有 (i=0, 1) 两个等级的实施例, 当 i=l 时, 解码可得到量化差值 {Δ ···Δ 。}和量化均值 ^ , 则得到的时域包络信息的量 化值为 =Μ+〃
S505:对时域包络信息的量化值 {4 -Α)进行和编码端相同的内插平滑, 得到对应于所述当前帧内每一点音频信号的归一化因子 { . — J ,归一化因 子即构成一个平滑的时域包络曲线。
其中, 可以使用公式
Ai =Af +(j-^-)x^~ 9,j = ix^—-(i + i)x^-,i = 0-Ki
J KJ Kt ' P_ J Kt ' Kt '
对量化值进行内插平滑, 当然并不仅限于此公式。
S506: 对当前帧音频信号编码码流中变换编码信号进行变换解码, 利用 S505 中的归一化因子对变换解码后得到的当前帧音频信号进行反归一化处 理, 即得到重构的音频信号。
上述实施例在编码端能够根据音频信号的稳定度来提取与该稳定度对应 个数的时域包络信息 , 这样对于稳定度高的音频信号能够提取较少个数的时 域包络信息来传输, 对于稳定度差的音频信号能够提取较多个数的时域包络 信息进行传输, 因此, 对于提取个数较少的时域包络信息, 可使用较少比特 对该时域包络信息进行量化编码或解码, 因此, 本发明实施例能够在消除瞬 态信号带来的噪声泄漏问题的同时大大节约编解码的资源。 同时, 传输较少 的时间包络信息还能够将音频信号的动态范围缩小, 有利于变换编、 解码。
同时, 上述实施例能够为每一帧音频信号都传输时域包络的编码码字, 因此保证了音频信号在解码端的分析和合成的连贯性, 从而确保解码端能够 合成高质量的重构信号。 此外, 上述编码方法实施例仅在提取时域包络信息时进行了标准差和均 值的计算, 因此还降低了判断信号稳定程度的复杂度。
基于上述技术方案, 本发明还公开了一种音频信号的编码装置, 该编码 装置位于编码端, 能够根据音频信号的稳定程度, 从所述音频信号中提取与 该稳定程度对应个数的时域包络信息, 再对提取的这些时域包络信息量化编 码, 得到时域包络的编码码字。 然后利用所述时域包络信息的量化值对所述 音频信号进行归一化处理和变换编码。
如图 6所示, 为本发明一种音频信号编码装置结构示意框图, 所述编码 装置可适用于采样率为 32KHz的超宽带音频信号, 或者采样率为 16kHz的 宽带音频信号, 或者其他信号。 所述装置包括: 稳定度获得单元 601、 时域 包络提取单元 602、 量化编码单元 603、 归一化处理单元 604、 变换编码单元 605 , 其中,
稳定度获得单元 601 , 用于获得当前帧音频信号的稳定度参数; 例如,
包络信息的标准差和均值, 然后将标准差除以所述均值得到信号幅度变化程 度参数, 即为稳定度参数。 其具体的实现方法可参考图 3所示的方法实施例 中 S301至 S303。 当然, 信号幅度变化程度参数还可以通过其他方式得到, 稳定度参数还可以为信号幅度变化程度参数所在区间的标识, 其具体的获取 方法可参见上述对图 3所示方法的扩充实施例, 在此不再赞述。
时域包络提取单元 602, 用于根据稳定度获得单元 601所获得的当前帧 音频信号的稳定度参数, 从当前帧音频信号中提取与稳定度参数对应个数的 时域包络信息。 其中, 时域包络信息可采用 = , = ι… 公式进行
Figure imgf000014_0001
提取, 4,表示提取得到的时域包络信息。
其中, 由于稳定度参数可以为信号幅度变化程度参数 D, 或者还可以为 信号幅度变化程度参数 D所在区间标识 i。 当稳定度参数为信号幅度变化程 度参数 D时 , 时域包络提取单元 602根据稳定度获得单元 601所获得的当前 帧音频信号的稳定度参数, 从当前帧音频信号中提取与所述稳定度参数对应 个数的时域包络信息可通过下述几个子单元实现, 当然并不限于此:
第一划分子单元(未图示), 用于比较信号幅度变化程度参数 D与指定 个数的阔值的大小, 将信号幅度变化程度参数 D划分在相应的第 i区间内; 例如, 与 3个阔值比较时, 则划分在共 4个区间的第 i区间内。
第一编码个数确定子单元(未图示),用于根据第一划分子单元(未图示) 所划分的信号幅度变化程度参数 D所在的区间 ,选择与该区间对应的时域包 络编码个数 ; 例如, 可取经验值 {1 4 8 10}来分别对应(i=0, 1 , 2, 3 ) 四个区间。
第一提取子单元(未图示),用于按照第一编码个数确定子单元(未图示) 所确定的时域包络编码个数 , 从当前帧音频信号中提取所述 个时域包络 信息。
当然, 如果稳定度参数为信号幅度变化程度参数 D所在区间标识 i时, 则时域包络提取单元 602可直接选择与该区间标识 i对应的时域包络编码个 数 , 然后从当前帧音频信号中提取所述 个时域包络信息。
量化编码单元 603, 用于对时域包络提取单元 602中提取的时域包络信 息量化得到时域包络信息的量化值, 然后再对量化值进行编码得到时域包络 的编码码字; 其中, 可采用均勾量化对时域包络信息进行量化, 其具体实现 方法可参考图 3所示实施例中的 S307。 或者, 当时域包络提取单元 602中提 取的时域包络信息为一个时,还可直接对时域包络信息的均值进行量化编码, 得到时域包络的编码码字; 当时域包络提取单元 602提取的时域包络信息不 止一个时, 则可将所有提取的时域包络信息都减去均值, 得到差值, 然后再 对差值量化编码。
归一化处理单元 604, 用于根据量化编码单元 603中的处理结果获得时 域包络信息的量化值,利用量化值对当前帧音频信号进行归一化处理。例如, 可通过对时域包络信息的量化值进行内插平滑, 得到对应于当前帧内每一点 音频信号的归一化因子, 然后再利用归一化因子对所述当前帧音频信号进行 归一化处理。 其中, 如果量化编码单元 603将生成的量化值保存, 则归一化处理单元 604可从保存的信息中直接获取时域包络信息的量化值; 如果量化编码单元 603没有保存所生成的量化值, 那么归一化处理单元 604则可将量化编码单 元 603中得到的时域包络编码码字进行解码来得到时域包络信息的量化值。
变换编码单元 605, 用于将归一化处理单元 604经归一化处理后得到的 当前帧音频信号和前一帧音频信号变换编码。
此外, 在上述装置实施例的基础上, 装置还可包括发送单元(未图示), 发送单元(未图示)用于将变换编码单元 605中变换编码后得到的信号, 随 同稳定度获得单元 601中的稳定度参数、 以及量化编码单元 603中的时域包 络的编码码字一起打包发送。
在上述图 6所示装置实施例的基础上, 由于归一化处理单元 604对时域 包络信息的量化值的获取可根据量化编码单元 603对生成的量化值的不同处 理来采取不同的获取方法, 因此, 归一化处理单元 604可根据不同的情况具 有不同的结构功能。
如图 7所示,为本发明另一种音频信号编码装置实施例的结构示意框图, 该实施例中,稳定度参数为信号幅度变化程度参数 D,则稳定度获得单元 601 在上述图 6所示装置实施例的基础上包括: 第一时域包络提取子单元 6011、 第一计算子单元 6012、 和第一信号幅度变化程度参数子单元 6013 , 其中, 第一时域包络提取子单元 6011 , 用于对当前帧 p点音频信号(如对应于 超宽带信号 p=320, 或者对应于宽带信号 p=160 )按照预先约定的时间分辨 率 (例如 2ms ), 提 目应个数 N (如 N=10 ) 的时域包络信息; 其中, 提取 方法可采用下述方法计算提取, 但不限于此方法:。
Figure imgf000016_0001
第一计算子单元 6012, 用于计算第一时域包络提取子单元 6011 中的时 域包络信息的标准差 σ和均值 / ; 其中, 均值 /的计算方法可以为但不限于 此: / =丄¾ ;标准差 σ的计算方法可以为但不限于此:
Figure imgf000017_0001
第一信号幅度变化程度参数子单元 6013 , 用于将第一计算子单元 6012 中得到的标准差 σ除以所述均值 μ得到信号幅度变化程度参数 D , 即 = ,
μ > 0。
此外, 本发明又公开了一种音频信号编码装置实施例, 如图 8所示, 为 本发明又一种音频信号编码装置实施例的结构示意框图 , 该实施例中的稳定 度参数依然为信号幅度变化程度参数 D, 稳定度获得单元 601通过计算所述 音频信号的时域包络信息的最大偏差、 或者最大幅度差来得到信号幅度变化 程度参 D。 如图 8所示, 稳定度获得单元 601在上述图 6所示装置实施例 的基础上包括: 第二时域包络提取子单元 6014、 第二信号幅度变化程度参数 子单元 6015, 其中,
第二时域包络提取子单元 6014 , 用于对当前帧 p点音频信号(如对应于 超宽带信号 p=320 , 或者对应于宽带信号 p=160 )按照预先约定的时间分辨 率 (例如 2ms ), 提 目应个数 N (如 N=10 ) 的时域包络信息; 其中, 提取 方法可 ^]^1方法计算提取, 但不限于此方法:。
4 =- ∑ Xj ,i = l- -N
P
第二信号幅度变化程度参数子单元 6015 ,用于计算第二时域包络提取子 单元 6014中的时域包络信息的最大偏差、或者计算时域包络信息与相邻的时 域包络信息的最大幅度差 , 所得值即为信号幅度变化程度参数 D。
此外, 本发明又公开了一种音频信号编码装置实施例, 如图 9所示, 为 本发明又一种音频信号编码装置实施例的结构示意框图 , 该实施例中的稳定 度参数为信号幅度变化程度参数所在的区间标识 i, 该实施例可通过将图 7 实施例中的稳定度获得单元 601生成的信号幅度变化程度参数 D与预置的阔 值比较划分到相应的区间内 , 该区间标识 i即为稳定度参数。 如图 9所示, 稳定度获得单元 601在上述图 6所示装置实施例的基础上包括: 第三时域包 络提取子单元 6016、第二计算子单元 6017、第三信号幅度变化程度参数子单 元 6018、 以及第一区间标识子单元 6019, 其中,
第三时域包络提取子单元 6016, 用于对当前帧 p点音频信号(如对应于 超宽带信号 p=320, 或者对应于宽带信号 p=160 )按照预先约定的时间分辨 率 (例如 2ms ), 提取相应个数 N (如 N=10 ) 的时域包络信息; 其中 , 所述 提取方法可采用下述方法计算提取, 但不限于此方法:
Figure imgf000018_0001
第二计算子单元 6017, 用于计算第三时域包络提取子单元 6016中时域 包络信息的标准差 σ和均值 / ; 其中, 均值 /的计算方法可以为但不限于此:
= - x ;所述标准差 σ的计算方法可以为但不限于此: σ
Figure imgf000018_0002
第三信号幅度变化程度参数子单元 6018, 用于将第二计算子单元 6017 中得到的标准差 σ除以所述均值 μ得到信号幅度变化程度参数 D;
第一区间标识子单元 6019, 用于将第三信号幅度变化程度参数子单元 6018中的信号幅度变化程度参数 D与预置的阔值比较划分到对应的区间内 , 该区间对应的标识 i即为所述稳定度参数。
此外, 本发明又公开了一种音频信号编码装置实施例, 如图 10所示, 为 本发明又一种音频信号编码装置实施例的结构示意框图, 该实施例中的稳定 度参数为信号幅度变化程度参数所在的区间标识 i, 该实施例可通过将图 8 实施例中的稳定度获得单元 601生成的信号幅度变化程度参数 D与预置的阔 值比较划分到相应的区间内, 该区间标识 i即为稳定度参数。 如图 10所示, 稳定度获得单元 601在上述图 Ί所示装置实施例的基础上包括: 第四时域包 络提取子单元 60110、第四信号幅度变化程度参数子单元 60111、 以及第二区 间标识子单元 60112, 其中, 第四时域包络提取子单元 60110, 用于对当前帧 p点音频信号(如对应 于超宽带信号 p=320, 或者对应于宽带信号 p=160 )按照预先约定的时间分 辨率(例如 2ms ), 提取相应个数 N (如 N=10 ) 的时域包络信息; 其中, 所 述提取方法可采用 下述方法计算提取, 但不限于此方法:
Figure imgf000019_0001
第四信号幅度变化程度参数子单元 60111 , 用于计算第四时域包络提取 子单元 60110中的时域包络信息的最大偏差、 或者计算时域包络信息与相邻 的时域包络信息的最大幅度差, 得到信号幅度变化程度参数 D。
第二区间标识子单元 60112, 用于将第四信号幅度变化程度参数子单元 60111 中的信号幅度变化程度参数 D 与预置的阔值比较划分到对应的区间 内, 该区间对应的标识 i即为所述稳定度参数。
基于上述技术方案, 本发明还公开了一种音频信号的解码装置, 该解码 装置位于解码端,如图 11所示,为本发明一种音频信号解码装置结构示意框 图, 解码装置的解码方法与上述编码装置的编码方法对应, 同样可适用于采 样率为 32KHz的超宽带音频信号, 或者采样率为 16kHz的宽带音频信号, 或者其他信号。 如图 11所示, 解码装置包括: 稳定度参数单元 1101、 时域 包络编码码字提取单元 1102、 时域包络解码单元 1103、 变换解码单元 1104、 反归一化处理单元 1105, 其中,
稳定度参数单元 1101 , 用于从接收到的当前帧音频信号的编码码流中读 取当前帧音频信号的稳定度参数。 由于接收到的当前帧音频信号编码码流中 包括该帧音频信号对应的稳定度参数, 因此可直接获取。
时域包络编码码字提取单元 1102, 用于根据稳定度参数单元 1101 中的 稳定度参数 , 按照和编码端相同的对应方式选择与稳定度参数对应的时域包 络编码个数 , 从编码码流中提取所述个数的时域包络编码码字。
其中, 由于稳定度参数可以为信号幅度变化程度参数 D, 或者还可以为 信号幅度变化程度参数 D所在区间标识 i。 当稳定度参数为信号幅度变化程 度参数 D时, 时域包络编码码字提取单元 1102根据稳定度参数单元 1101所 获得的当前帧音频信号的稳定度参数, 从当前帧音频信号中提取与稳定度参 此:
第二划分子单元(未图示), 用于比较信号幅度变化程度参数 D与指定 个数的阔值的大小, 将信号幅度变化程度参数 D划分在相应的第 i区间内; 例如, 与 3个阔值比较时, 则划分在共 4个区间的第 i区间内。
第二编码个数确定子单元(未图示),用于根据第二划分子单元(未图示) 所划分的信号幅度变化程度参数 D所在的区间 ,按照和编码端相同的对应方 式选择与该区间对应的时域包络编码个数 ; 例如, 可取经验值 {1 4 8 10}来分别对应 (i=0, 1 , 2, 3 ) 四个区间。
第二提取子单元(未图示), 用于按照第二个编码个数确定子单元(未图 示)所确定的时域包络编码个数 , 从当前帧音频信号中提取个数 (即 )个 时域包络编码码字。
时域包络解码单元 1103, 用于对时域包络编码码字提取单元 1102中的 时域包络编码码字进行解码得到音频信号的时域包络信息的量化值。 其中, 所述解码方法为在编码端采用的量化编码方法的逆过程。
变换解码单元 1104,用于对编码码流中的当前帧音频信号的变换编码信 号进行变换解码, 得到当前帧音频信号;
反归一化处理单元 1105, 用于利用时域包络解码单元 1103 中的量化值 对变换解码单元 1104中得到的当前帧音频信号进行反归一化处理,以得到重 构的音频信号。
其中,在上述图 11所示的解码装置实施例的基础上,反归一化处理单元 1105可具体包括: 内插平滑单元(未图示), 用于对时域包络解码单元 1103 中的时域包络信息的量化值进行内插平滑得到归一化因子。 以及反归一化子 单元(未图示), 用于利用内插平滑单元(未图示)中的归一化因子对变换解 码单元 1104中得到的当前帧音频信号进行反归一化处理,以得到重构的音频 信号。
上述实施例中由于时域包络提取单元 602能够根据稳定度获得单元 601 所获得的当前帧音频信号的稳定度参数, 来提取与该稳定度参数对应个数的 时域包络信息 , 这样对于稳定度高的音频信号能够提取较少个数的时域包络 信息来传输, 对于稳定度差的音频信号能够提取较多个数的时域包络信息进 行传输, 因此, 对于提取个数较少的时域包络信息, 可使用较少比特对该时 域包络信息进行量化编码或解码, 因此, 本发明实施例能够在消除瞬态信号 带来的噪声泄漏问题的同时大大节约编解码的资源。
同时, 上述实施例中可通过发送单元(未图示) 为每一帧音频信号都传 输时域包络的编码码字, 因此保证了解码装置对音频信号的分析和合成的连 贯性, 从而确保解码装置能够合成高质量的重构信号。
同时, 传输较少的时间包络信息还能够将音频信号的动态范围缩小, 有 利于变换编码和变换解码。 此外, 上述编码装置实施例仅在提取时域包络信 息时进行了标准差和均值的计算,因此还降低了判断信号稳定程度的复杂度。
需要说明的是, 上述所有实施例中所述的音频信号可以为语音、 或音乐 等声音信号, 这些音频信号都适用于上述方法例。
以上所描述的装置实施例仅仅是示意性的 , 其中所述作为分离部件说明 的单元可以是或者也可以不是物理上分开的, 作为单元显示的部件可以是或 者也可以不是物理单元, 即可以位于一个地方, 或者也可以分布到多个网络 单元上。 可以根据实际的需要选择其中的部分或者全部模块来实现本实施例 方案的目的。 本领域普通技术人员在不付出创造性的劳动的情况下, 即可以 理解并实施。
通过以上的实施方式的描述, 本领域的技术人员可以清楚地了解到本发 明可借助软件加必需的通用硬件平台的方式来实现, 当然也可以通过硬件 , 但很多情况下前者是更佳的实施方式。 基于这样的理解, 本发明的技术方案 该计算机软件产品可以存储在存储介质中, 如 ROM/RAM、 磁碟、 光盘等, 包括若干指令用以使得一台计算机设备(可以是个人计算机, 服务器, 或者 以上所述的本发明实施方式, 并不构成对本发明保护范围的限定。 任何 在本发明的精神和原则之内所作的修改、 等同替换和改进等, 均应包含在本 发明的保护范围之内。

Claims

权 利 要 求
1、 一种音频信号的编码方法, 其特征在于, 包括:
获得当前帧音频信号的稳定度参数, 并根据所述当前帧音频信号的稳定 度参数, 从所述当前帧音频信号中提取相应个数的时域包络信息;
对所提取的时域包络信息量化编码, 得到时域包络的编码码字; 根据所述编码码字获得所述时域包络信息的量化值, 利用所述量化值对 所述当前帧音频信号进行归一化处理;
将归一化处理后的当前帧音频信号和前一帧音频信号变换编码。
2、 如权利要求 1所述的编码方法, 其特征在于, 还包括: 保存所述时域 包络信息量化后得到的量化值;
所述获得所述时域包络信息的量化值具体为:
获取保存的所述时域包络信息的量化值。
3、如权利要求 1所述的编码方法, 其特征在于, 所述获得所述时域包络 信息的量化值具体为:
对所述时域包络的编码码字解码以获得所述时域包络信息的量化值。
4、如权利要求 1所述的编码方法, 其特征在于, 所述对所提取的时域包 络信息量化编码具体为:
计算所述时域包络信息的均值;
将所述时域包络信息都减去所述均值得到差值, 对所述差值以及所述均 值都量化编码。
5、如权利要求 4所述的编码方法, 其特征在于, 所述获得所述时域包络 信息的量化值具体为:
将所述差值量化后得到的量化差值, 以及所述均值量化后得到的量化均 值相加, 以得到所述时域包络信息的量化值。
6、 如权利要求 1所述的编码方法, 其特征在于, 所述方法还包括: 将所述稳定度参数、时域包络的编码码字、以及变换编码结果打包发送。
7、如权利要求 1至 6中任一项所述的编码方法, 其特征在于, 所述利用 所述量化值对所述当前帧音频信号进行归一化处理具体为:
对所述量化值进行内插平滑处理得到归一化因子; 利用所述归一化因子对所述当前帧音频信号进行归一化处理。
8、如权利要求 1至 6中任一项所述的编码方法, 其特征在于, 所述稳定 度参数为信号幅度变化程度参数, 所述获得当前帧音频信号的稳定度参数具 体为:
对当前帧音频信号按照预定的时间分辨率, 提取相应个数的时域包络信 计算所述时域包络信息的标准差 σ和均值 / ;
将所述标准差 σ除以所述均值 /得到信号幅度变化程度参数。
9、如权利要求 1至 6中任一项所述的编码方法, 其特征在于, 所述稳定 度参数为信号幅度变化程度参数, 所述获得当前帧音频信号的稳定度参数具 体为:
对当前帧音频信号按照预定的时间分辨率 , 提取相应个数的时域包络信 计算所述时域包络信息的最大偏差、 或者计算所述时域包络信息与相邻 的时域包络信息的最大幅度差, 所得值即为信号幅度变化程度参数。
10、 如权利要求 1至 6中任一项所述的编码方法, 其特征在于, 所述稳 定度参数为信号幅度变化程度参数所在的区间标识, 所述获得当前帧音频信 号的稳定度参数具体为:
对当前帧音频信号按照预定的时间分辨率 , 提取相应个数的时域包络信 息
计算所述时域包络信息的标准差 σ和均值 /;
将所述标准差 σ除以所述均值 /得到信号幅度变化程度参数;
将所述信号幅度变化程度参数与预置的阔值比较划分到对应的区间内, 该区间对应的标识即为所述稳定度参数。
11、 如权利要求 1至 6中任一项所述的编码方法, 其特征在于, 所述稳 定度参数为信号幅度变化程度参数所在的区间标识, 所述获得当前帧音频信 号的稳定度参数具体为:
对当前帧音频信号按照预定的时间分辨率 , 提取相应个数的时域包络信 计算所述时域包络信息的最大偏差、 或者计算所述时域包络信息与相邻 的时域包络信息的最大幅度差 , 所得值即为信号幅度变化程度参数;
将所述信号幅度变化程度参数与预置的阔值比较划分到对应的区间内, 该区间对应的标识即为所述稳定度参数。
5 12、 如权利要求 1至 6中任一项所述的编码方法, 其特征在于, 所述稳 定度参数为信号幅度变化程度参数, 所述根据所述当前帧音频信号的稳定度 参数, 从所述当前帧音频信号中提取相应个数的时域包络信息具体为: 比较所述信号幅度变化程度参数与指定个数的阔值的大小, 将所述信号 幅度变化程度参数划分在相应的区间内;
d 根据信号幅度变化程度参数所在的区间, 选择与该区间对应的时域包络 编码个数;
从所述当前帧音频信号中提取所述个数个时域包络信息。
13、 一种音频信号的解码方法, 其特征在于, 包括:
从接收到的当前帧音频信号的编码码流中读取当前帧音频信号的稳定度 5 参数;
根据所述稳定度参数, 按照和编码端相同的对应方式选择与所述稳定度 参数对应的时域包络编码个数, 从所述当前帧音频信号编码码流中提取所述 个数的时域包络编码码字;
对所述时域包络编码码字进行解码得到所述音频信号的时域包络信息的 d 量化值;
对所述当前帧音频信号编码码流中的变换编码信号进行变换解码, 利用 所述量化值对变换解码后得到的当前帧音频信号进行反归一化处理, 得到重 构的音频信号。
14、如权利要求 13所述的解码方法, 其特征在于, 所述利用所述量化值 5 对变换解码后得到的当前帧音频信号进行反归一化处理具体为:
对所述量化值进行内插平滑得到归一化因子;
利用所述归一化因子对变换解码后得到的当前帧音频信号进行反归一化 处理。
15、如权利要求 13所述的解码方法, 其特征在于, 所述稳定度参数为信 号幅度变化程度参数, 所述根据所述稳定度参数, 按照和编码端相同的对应 方式选择与所述稳定度参数对应的时域包络编码个数具体为:
比较所述信号幅度变化程度参数与指定个数的阔值的大小, 将所述信号 幅度变化程度参数划分在相应的区间内;
根据信号幅度变化程度参数所在的区间, 按照和编码端相同的对应方式 选择与该区间对应的时域包络编码个数。
16、 一种音频信号的编码装置, 其特征在于, 包括:
稳定度获得单元, 用于获得当前帧音频信号的稳定度参数;
时域包络提取单元, 用于根据所述稳定度获得单元所获得的当前帧音频 信号的稳定度参数,从所述当前帧音频信号中提 目应个数的时域包络信息; 量化编码单元, 用于对所述时域包络提取单元中提取的时域包络信息量 化编码, 得到时域包络的编码码字;
归一化处理单元, 用于根据所述量化编码单元中的处理结果获得所述时 域包络信息的量化值, 利用所述量化值对所述当前帧音频信号进行归一化处 理;
变换编码单元, 用于将所述归一化处理单元中归一化处理后的当前帧音 频信号和前一帧音频信号变换编码。
17、 如权利要求 16所述的编码装置, 其特征在于, 所述装置还包括: 发送单元, 用于将所述稳定度获得单元中的稳定度参数、 所述量化编码 单元中的时域包络的编码码字、 以及所述变换编码单元中的变换编码结果打 包发送。
18、 如权利要求 16或 17所述的编码装置, 其特征在于, 所述稳定度参 数为信号幅度变化程度参数, 所述稳定度获得单元包括:
第一时域包络提取子单元, 用于对当前帧音频信号按照预定的时间分辨 率, 提取相应个数的时域包络信息;
第一计算子单元, 用于计算所述第一时域包络提取子单元中时域包络信 息的标准差 σ和均值 / ;
第一信号幅度变化程度参数子单元, 用于将所述第一计算子单元中得到 的标准差 σ除以所述均值 /得到信号幅度变化程度参数。
19、 如权利要求 16或 17所述的编码装置, 其特征在于, 所述稳定度参 数为信号幅度变化程度参数, 所述稳定度获得单元包括:
第二时域包络提取子单元, 用于对当前帧音频信号按照预定的时间分辨 率, 提取相应个数的时域包络信息;
第二信号幅度变化程度参数子单元, 用于计算所述第二时域包络提取子 单元中的时域包络信息的最大偏差、 或者计算所述时域包络信息与相邻的时 域包络信息的最大幅度差 , 所得值即为信号幅度变化程度参数。
20、 如权利要求 16或 17所述的编码装置, 其特征在于, 所述稳定度参 数为信号幅度变化程度参数所在的区间标识, 所述稳定度获得单元包括: 第三时域包络提取子单元, 用于对当前帧音频信号按照预定的时间分辨 率, 提取相应个数的时域包络信息;
第二计算子单元, 用于计算所述第三时域包络提取子单元中时域包络信 息的标准差 σ和均值 / ;
第三信号幅度变化程度参数子单元, 用于将所述第二计算子单元中得到 的标准差 σ除以所述均值 /得到信号幅度变化程度参数;
第一区间标识子单元 , 用于将所述第三信号幅度变化程度参数子单元中 的信号幅度变化程度参数与预置的阔值比较划分到对应的区间内, 该区间对 应的标识即为所述稳定度参数。
21、 如权利要求 16或 17所述的编码装置, 其特征在于, 所述稳定度参 数为信号幅度变化程度参数所在的区间标识, 所述稳定度获得单元包括: 第四时域包络提取子单元, 用于对当前帧音频信号按照预定的时间分辨 率, 提取相应个数的时域包络信息;
第四信号幅度变化程度参数子单元, 用于计算所述第四时域包络提取子 单元中的时域包络信息的最大偏差、 或者计算所述时域包络信息与相邻的时 域包络信息的最大幅度差, 得到信号幅度变化程度参数;
第二区间标识子单元, 用于将所述第四信号幅度变化程度参数子单元中 的信号幅度变化程度参数与预置的阔值比较划分到对应的区间内, 该区间对 应的标识即为所述稳定度参数。
22、 如权利要求 16或 17所述的编码装置, 其特征在于, 所述稳定度参 数为信号幅度变化程度参数, 所述时域包络提取单元包括:
第一划分子单元, 用于比较所述信号幅度变化程度参数与指定个数的阔 值的大小, 将所述信号幅度变化程度参数划分在相应的区间内;
第一编码个数确定子单元, 用于根据所述第一划分子单元所划分的信号 幅度变化程度参数所在的区间, 选择与该区间对应的时域包络编码个数; 第一提取子单元,用于按照所述第一编码个数确定子单元所确定的个数, 从所述当前帧音频信号中提取所述个数个时域包络信息。
23、 一种音频信号的解码装置, 其特征在于, 包括:
稳定度参数单元, 用于从接收到的当前帧音频信号的编码码流中读取当 前帧音频信号的稳定度参数;
时域包络编码码字提取单元, 用于根据所述稳定度参数单元中的稳定度 参数, 按照和编码端相同的对应方式选择与所述稳定度参数对应的时域包络 编码个数, 从所述编码码流中提取所述个数的时域包络编码码字;
时域包络解码单元 , 用于对所述时域包络编码码字提取单元中的时域包 络编码码字进行解码得到所述音频信号的时域包络信息的量化值;
变换解码单元, 用于对所述编码码流中的变换编码信号进行变换解码, 得到当前帧音频信号;
反归一化处理单元, 用于利用所述时域包络解码单元中的量化值对所述 变换解码单元中得到的当前帧音频信号进行反归一化处理, 以得到重构的音 频信号。
24、如权利要求 23所述的解码装置, 其特征在于, 所述稳定度参数为信 号幅度变化程度参数, 所述时域包络编码码字提取单元包括:
第二划分子单元, 用于比较所述信号幅度变化程度参数与指定个数的阔 值的大小, 将所述信号幅度变化程度参数划分在相应的区间内;
第二编码个数确定子单元, 用于根据所述第二划分子单元所划分的信号 幅度变化程度参数所在的区间, 按照和编码端相同的对应方式选择与该区间 对应的时域包络编码个数;
第二提取子单元, 用于按照所述第二个编码个数确定子单元所确定的个 数, 从所述当前帧音频信号中提取所述个数个时域包络编码码字。
PCT/CN2009/070522 2008-02-29 2009-02-25 一种音频信号的编解码方法和装置 WO2009109120A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200810006391.2 2008-02-29
CN 200810006391 CN101521010B (zh) 2008-02-29 2008-02-29 一种音频信号的编解码方法和装置

Publications (1)

Publication Number Publication Date
WO2009109120A1 true WO2009109120A1 (zh) 2009-09-11

Family

ID=41055547

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2009/070522 WO2009109120A1 (zh) 2008-02-29 2009-02-25 一种音频信号的编解码方法和装置

Country Status (2)

Country Link
CN (1) CN101521010B (zh)
WO (1) WO2009109120A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113272896A (zh) * 2018-11-05 2021-08-17 弗劳恩霍夫应用研究促进协会 提供经处理音频信号表示的装置和处理器、音频解码器、音频编码器、方法及计算机程序

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102142924B (zh) * 2010-02-03 2014-04-09 中兴通讯股份有限公司 一种多用途语音频编码传输方法和装置
CN102280103A (zh) * 2011-08-02 2011-12-14 天津大学 基于方差的音频信号瞬态段检测方法
RU2662921C2 (ru) 2013-06-10 2018-07-31 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для кодирования, обработки и декодирования огибающей аудиосигнала путем моделирования представления совокупной суммы с использованием квантования и кодирования распределения
AU2014280256B2 (en) 2013-06-10 2016-10-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding
CN107517593B (zh) * 2015-02-26 2021-03-12 弗劳恩霍夫应用研究促进协会 用于使用目标时域包络来处理音频信号以获得经处理的音频信号的装置和方法
WO2018096036A1 (en) 2016-11-23 2018-05-31 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for adaptive control of decorrelation filters
CN110263625A (zh) * 2019-05-08 2019-09-20 吉林大学 一种信号脉冲幅度分选的包络提取算法
CN113539281A (zh) * 2020-04-21 2021-10-22 华为技术有限公司 音频信号编码方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1069299A (ja) * 1996-08-29 1998-03-10 Fujitsu Ltd 音声符号装置及び音声復号装置
CN1285658A (zh) * 1999-08-23 2001-02-28 索尼株式会社 编码、解码装置及方法,记录、再现装置及方法,记录媒体
CN1465044A (zh) * 2001-06-15 2003-12-31 索尼公司 声信号编码方法和设备、解码方法和设备及记录介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3684751B2 (ja) * 1997-03-28 2005-08-17 ソニー株式会社 信号符号化方法及び装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1069299A (ja) * 1996-08-29 1998-03-10 Fujitsu Ltd 音声符号装置及び音声復号装置
CN1285658A (zh) * 1999-08-23 2001-02-28 索尼株式会社 编码、解码装置及方法,记录、再现装置及方法,记录媒体
CN1465044A (zh) * 2001-06-15 2003-12-31 索尼公司 声信号编码方法和设备、解码方法和设备及记录介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113272896A (zh) * 2018-11-05 2021-08-17 弗劳恩霍夫应用研究促进协会 提供经处理音频信号表示的装置和处理器、音频解码器、音频编码器、方法及计算机程序
US11948590B2 (en) 2018-11-05 2024-04-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and audio signal processor, for providing processed audio signal representation, audio decoder, audio encoder, methods and computer programs

Also Published As

Publication number Publication date
CN101521010A (zh) 2009-09-02
CN101521010B (zh) 2011-10-05

Similar Documents

Publication Publication Date Title
WO2009109120A1 (zh) 一种音频信号的编解码方法和装置
US10096323B2 (en) Frame error concealment method and apparatus and decoding method and apparatus using the same
JP6951536B2 (ja) 音声符号化装置および方法
KR100998450B1 (ko) 오디오 코딩을 위한 인코더-보조 프레임 손실 은폐 기술
CA2827000C (en) Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
WO2010075789A1 (zh) 信号处理方法及装置
JP6251773B2 (ja) ハーモニックオーディオ信号の帯域幅拡張
JP6368029B2 (ja) 雑音信号処理方法、雑音信号生成方法、符号化器、復号化器、並びに符号化および復号化システム
CN106415717B (zh) 音频信号分类和编码
WO2010066158A1 (zh) 信号编码、解码方法及装置、编解码系统
WO2009092309A1 (zh) 一种量化噪声泄漏控制方法及装置
TW201222530A (en) Apparatus and method for level estimation of coded audio frames in a bit stream domain
WO2023197809A1 (zh) 一种高频音频信号的编解码方法和相关装置
WO2010048827A1 (zh) 高频带信号的编解码方法及装置
BR112014016153B1 (pt) método para um codificador processar dados de áudio, método para processar um sinal de áudio, codificador e decodificador
US20100324914A1 (en) Adaptive Encoding of a Digital Signal with One or More Missing Values
WO2013078974A1 (zh) 非激活音信号参数估计方法及舒适噪声产生方法及系统
WO2015196837A1 (zh) 一种音频编码方法和装置
WO2010085566A1 (en) Method and apparatus for compression or decompression of digital signals
KR20190040063A (ko) 인덱스 코딩 및 비트 스케줄링을 갖는 양자화기
Huang et al. Lossless audio compression in the new IEEE standard for advanced audio coding
WO2014190641A1 (zh) 一种媒体数据的传输方法、装置和系统
BR112016019838B1 (pt) Codificador de áudio, decodificador de áudio, método de codificação, método de decodificação e mídia de registro legível por computador não transitória
US11526734B2 (en) Method and apparatus for recurrent auto-encoding
CN107452391B (zh) 音频编码方法及相关装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09717794

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09717794

Country of ref document: EP

Kind code of ref document: A1