WO2008148321A1 - Appareil de codage et de décodage et procédé de traitement du bruit de fond et dispositif de communication utilisant cet appareil - Google Patents

Appareil de codage et de décodage et procédé de traitement du bruit de fond et dispositif de communication utilisant cet appareil Download PDF

Info

Publication number
WO2008148321A1
WO2008148321A1 PCT/CN2008/070886 CN2008070886W WO2008148321A1 WO 2008148321 A1 WO2008148321 A1 WO 2008148321A1 CN 2008070886 W CN2008070886 W CN 2008070886W WO 2008148321 A1 WO2008148321 A1 WO 2008148321A1
Authority
WO
WIPO (PCT)
Prior art keywords
background noise
unit
frame
signal
encoding
Prior art date
Application number
PCT/CN2008/070886
Other languages
English (en)
French (fr)
Inventor
Zhe Wang
Libin Zhang
Original Assignee
Huawei Technologies Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co., Ltd. filed Critical Huawei Technologies Co., Ltd.
Publication of WO2008148321A1 publication Critical patent/WO2008148321A1/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding

Definitions

  • the present invention relates to voice communication technologies, and in particular, to a background noise encoding/decoding apparatus, method and communication device. Background technique
  • the transmitted voice signal can be divided into two types: an audible signal and a silent signal.
  • the voice signal is a voice signal that is sent when a valid voice is detected, and mainly includes the voice of the communication party and the background noise at the time.
  • the background noise signal sent by the silent signal in the gap where no valid speech is detected mainly including various background noises such as white noise, background noise and mute.
  • the audible signal is a useful signal and is the carrier of the main communication information, while the silent signal is an unwanted signal and does not contain the main communication information.
  • the communication parties mainly focus on useful audible signals, it is not desirable to transmit useless silent signals in consideration of bandwidth pressure to reduce transmission bandwidth and increase system capacity.
  • the background noise will be discontinuous, which makes the listening party feel very uncomfortable, especially in the case of strong background noise, and even makes the speech difficult to understand, so it can only minimize the transmission useless.
  • the silent signal which minimizes the bandwidth on the basis of ensuring the user's sensitivity, has created a CNG (Comfort Noise Generation) technology.
  • the transmitting end encodes the silent signal in the silent signal stage.
  • the background noise frame is transmitted by DTX (Discontinuous Transmission), and the receiving end uses interpolation to generate a continuous background noise signal to increase the comfort of the listening party.
  • the existing background noise coding method can monopolize the background noise, and synthesize the comfortable background noise of the single tube at the decoding end, which can better meet the requirements of the answering quality to a certain extent.
  • the quality of speech coding is getting higher and higher, correspondingly, the background noise of the sound stage.
  • the encoding quality of the sound is also getting higher and higher.
  • in order to make the background noise in the speech communication more continuous it is also necessary to improve the encoding quality of the background noise in the silent stage.
  • the existing single SID frame coding mode and discontinuous transmission mechanism obviously cannot meet the specific requirements of various communication environments.
  • Embodiments of the present invention provide a background noise encoding/decoding apparatus, method, and communication device, to implement flexible adjustment of a SID frame coding mode and a discontinuous transmission mechanism according to a background noise condition of a communication environment.
  • a background noise analysis unit configured to acquire at least one signal feature parameter value of the background noise signal
  • a background noise classification unit configured to determine a background noise type according to the at least one signal feature parameter value
  • a coding switching unit configured to input a background noise signal into the corresponding discontinuous transmission unit according to the background noise type, and each of the discontinuous transmission units is configured to encode the background noise signal
  • the muting description frame for the non-contiguous transmission unit indication information is not continuous transmission, wherein the muting description frame coding mode and/or the mute description frame discontinuous transmission mechanism of each discontinuous transmission unit are different.
  • a first identifying unit configured to identify discontinuous transmission unit indication information in the silence description frame
  • a decoding switching unit and at least two comfort noise generating units, where the decoding switching unit is configured to: according to the recognition result of the identification unit,
  • the mute describes a comfort noise generating unit corresponding to the frame input, and each comfort noise generating unit correspondingly decodes the mute description frame according to the encoding mode of the received mute description frame, and reconstructs the background noise signal.
  • a communication device comprising:
  • a first speech detector configured to detect whether the collected signal includes valid speech and classify the output
  • a speech encoder configured to encode the signal containing the valid speech into a speech frame and continuously output
  • a background noise encoding device specifically includes: a background noise analysis unit, configured to acquire at least one signal feature parameter value of a background noise signal that does not include valid speech;
  • a background noise classification unit configured to determine a background noise type according to the at least one signal feature parameter value
  • a coding switching unit configured to input a background noise signal into the corresponding discontinuous transmission unit according to the background noise type, and each of the discontinuous transmission units is configured to encode the background noise signal
  • the muting description frame for the non-contiguous transmission unit indication information is not continuous transmission, wherein the muting description frame coding mode and/or the mute description frame discontinuous transmission mechanism of each discontinuous transmission unit are different.
  • a communication device comprising a background noise decoding device, the background noise decoding device comprising: a first identifying unit, configured to identify discontinuous transmission unit indication information in a silence description frame; a decoding switching unit and at least two comfort noise generating units
  • the decoding switching unit is configured to input the mute description frame into a corresponding comfort noise generating unit according to the recognition result of the identifying unit, and each comfort noise generating unit correspondingly decodes the mute description according to the encoding mode of the received mute description frame. Frame, and reconstruct the background noise signal.
  • a background noise coding method comprising:
  • Selecting a discontinuous transmission mechanism according to the background noise type to encode the background noise signal into a silence description frame including discontinuous transmission mechanism indication information is not continuous transmission, wherein each of the discontinuous transmission mechanisms describes a frame coding mode and / or mute description frame discontinuous transmission is not the same.
  • a decoding method including:
  • the silence description frame is decoded by using a corresponding decoding manner, and reconstructed into a background noise signal.
  • FIG. 1 is a schematic diagram of a communication system adopting a silent compression coding technology in an application scenario according to an embodiment of the present invention
  • FIG. 3, FIG. 5 and FIG. 6 are respectively schematic diagrams showing main structures of a background noise encoding apparatus according to an embodiment of the present invention
  • FIG. 4 is a schematic diagram of a schematic principle of a handover mode according to an embodiment of the present invention.
  • FIG. 7, FIG. 8, and FIG. 9 are schematic diagrams showing main structures of a communication device according to an embodiment of the present invention. detailed description
  • each codec system uses a single background noise frame coding method, which can not specifically describe the specific background noise signals of various characteristics of the communication environment, thereby meeting the needs of the diversity of the communication environment.
  • the single discontinuous transmission mechanism cannot transmit the background noise frame to the background noise frames of different characteristics, so that it can not produce better comfort noise at the decoding end; and the singularity of the discontinuous transmission mechanism cannot be Adapted to the actual conditions of the communication system, such as communication bandwidth, so that the resources of the communication system cannot be reasonably applied.
  • a codec technical solution provided by an embodiment of the present invention can perform corresponding processing according to background noise characteristics, analyze background noise at the encoding end, and use different DTX scheme codes to transmit SID frames according to characteristics of background noise. And reconstruct the background noise signal at the receiving end by using a corresponding CNG scheme.
  • FIG. 1 it is a schematic diagram of a communication system adopting a silent compression coding technology in an application scenario according to an embodiment of the present invention, where the sending end includes:
  • VAD Voice Activity Detector
  • the VAD usually detects whether the signal contains valid speech according to the characteristic value of each frame signal, such as the signal-to-noise ratio, and according to the detection result. Signals are sent to different encoders for encoding; a voice encoder, configured to encode a voice signal containing valid voice into a voice frame and output, and the voice frame is transmitted to the receiving end through a communication channel;
  • non-speech encoder that uses a silent compression technique to encode a silent signal that does not contain valid speech as a background noise frame
  • the background noise frame transmitter transmits the background noise frame to the receiving end through the communication channel by using the set DTX mode, for example, sends a background noise frame every several frames, or determines whether to send a background noise according to the change of the characteristic parameters of the background noise. frame;
  • the receiving end includes:
  • a speech decoder configured to decode a speech frame received from a communication channel, and reconstructed into an audio signal and output
  • a non-speech decoder for decoding a background noise frame received from a communication channel
  • the non-speech encoder and the background noise frame transmitter at the transmitting end form a DTX unit
  • the non-speech decoder and reconstructor at the receiving end form a CNG unit.
  • the silent compression technology is implemented by VAD and DTX at the transmitting end and CNG at the receiving end.
  • CELP Code-Excited Linear Prediction
  • CELP is a highly efficient speech coding technology. Thanks to techniques such as sensory weighting, analytical synthesis, vector quantization and post-filtering, CELP is able to give high-quality synthesized speech at low to medium rates.
  • the speech signal is analyzed at the transmitting end to acquire the characteristic parameters of the speech, and the characteristic parameters of the speech are encoded into the code stream for transmission; the receiving end performs speech synthesis according to the characteristic parameters in the code stream to reconstruct the speech signal.
  • the speech signal is divided into short time periods, called frames, and the speech analysis at the transmitting end and the speech synthesis at the receiving end are performed frame by frame.
  • the characteristic parameters transmitted in the encoded code stream of the speech signal include Filter parameters and excitation parameters, wherein: the synthesis filter parameters are mainly line spectrum frequency LSF (Line Spectrum Frequency) quantization parameters, and the excitation signal parameters include: adaptive codebook parameters (including pitch delay parameters and pitch gain parameters) and Fixed codebook parameters (including the location and sign of non-zero pulses in the fixed codebook and fixed codebook gain parameters).
  • the background noise coding parameters describe the background noise characteristics, and the excitation signal of the background noise can be regarded as a random sequence of random noise, and these sequences can be used as a random noise generating device at the codec end. Generate, and then use the energy parameters to control the amplitude of these sequences, the final excitation signal can be generated, so the excitation signal characteristic parameters can be represented by the energy parameters, without further description of other characteristic parameters, so
  • the difference between the background noise coded code stream and the voice frame is that the excitation parameter is the energy parameter of the current background noise frame; and the background noise coded code stream is the same as the voice frame, and the synthesis filter parameter in the coded code stream is also Line spectral frequency LSF quantization parameters are only different for specific quantization methods.
  • a background noise frame that is DTX-compressed and discontinuously transmitted is generally referred to as a SID (Silence Descriptor) frame.
  • SID Session Descriptor
  • the background noise signal in each system uses the SID frame format and the discontinuous transmission mechanism.
  • G.729B silent compression scheme is a representative silent compression technology
  • G.729B is based on CELP algorithm model, so the background noise parameters transmitted by it are also obtained based on CELP model, including for describing background noise. Synthetic filter parameters and excitation parameters.
  • VAD decision end of the coding end
  • the original signal that has been preprocessed is sent to the background noise coding device, and the background noise parameter is extracted and quantized by the background noise coding device.
  • the SID frame is composed, and then the background noise encoding device determines whether to send a frame of the SID frame according to the parameter change condition in the SID frame.
  • one frame of the SID frame is transmitted.
  • two adjacent SID frames are separated by at least 2 frames.
  • the comfort noise describing the background noise characteristic of the encoding end is synthesized according to the received SID frame in the background noise decoding device.
  • G.729B in the SID frame The number of bits allocated for each parameter is shown in Table 1 below:
  • DMR in the AMR (Adaptive Multi-Rate Speech Codec) and AMR-WB (Adaptive Multi-Rate Wide Band Speech Codec) silent compression schemes A fixed transmission mechanism that sends a SID frame every 8 frames regardless of the nature of the background noise.
  • the number of bits allocated for each parameter in the SID frame of the AMR is as shown in Table 2 below.
  • the number of bits allocated for each parameter in the SID frame of the AMR-WB is as shown in Table 3 below.
  • a background noise encoding apparatus 20 is provided in the embodiment of the present invention.
  • the background noise encoding apparatus 20 is used in a silent compression coding communication system, and the main structure includes:
  • the differences include: SID frame coding is different, SID frame discontinuous transmission mechanism is different, or both are different;
  • a background noise analyzing unit 22 configured to calculate at least one signal characteristic parameter value according to the background noise signal
  • a background noise classification unit 23 configured to determine a background noise type according to the at least one signal feature parameter value
  • the coding switching unit 24 is configured to input the received background noise signal into the corresponding DTX unit 21 according to the background noise type.
  • the function of the background noise analysis unit 22 is to analyze the input background noise signal to obtain the characteristic parameters of the background signal.
  • the analysis method is to calculate one or more signal characteristic parameter values capable of characterizing the background noise signal, and the signal characteristic parameters may be the following parameters.
  • One or any combination SNR (Signal to Noise Ratio), background noise estimation level, background noise energy fluctuation estimation, background noise spectrum fluctuation estimation, background noise fluctuation frequency, and the like.
  • Other parameters that can characterize the size, type (steady state/unsteady state, change size, speed of change), SNR (long-term, short-term, peak) of the signal background can also be calculated for analysis.
  • the VAD decision current signal is input to the background signal analysis unit 22, and the background noise analysis unit 22 triggers the calculation of the signal characteristic parameter value according to the background noise signal indication information.
  • the function of the background noise classifying unit 23 is to divide the type of the current background noise signal based on the signal characteristic parameter value calculated by the background noise analyzing unit 22.
  • the background noise type is defined by at least two types, which can be defined according to whether the background noise is stable or not.
  • the background noise is divided into two types: a steady-state background noise signal and an unsteady background noise signal; and, depending on whether the background noise is stable or not Long-term SNR size definition:
  • the background noise is divided into four types: steady-state large SNR background noise signal, steady-state small SNR background noise signal, unsteady large SNR background noise signal, and unsteady small SNR background noise signal.
  • the background noise type can also be defined according to the meaning of the information contained in the background noise.
  • the background noise signal can be divided into a pleasing background noise signal (such as music, running water, bird language, etc.), and an environmental background noise signal (such as a cocktail party, street side, Airport, etc.) or other background noise signals.
  • the type of division of the background noise can be set as needed, and does not limit the implementation of the technical solution of the present invention.
  • the DTX unit 21 to which each type of background noise is applied is stored in advance in the encoding switching unit 24, and is switched between at least two DTX units 21 according to the background noise type determined by the background noise classifying unit 23, and the current background noise type is selected.
  • the corresponding DTX unit 21 performs processing.
  • each background noise type corresponds to a different DTX scheme, but different handover modes may be set according to the requirements of specific communication scenarios or communication channel resources, and each handover mode corresponds to different handover control.
  • the specific switching control scheme corresponding to each switching mode may be pre-stored in the encoding switching unit 24, and the switching mode required by the encoding switching unit 24 is indicated by the switching mode control instruction, and the switching mode control instruction may reflect the current
  • each specific switching mode control instruction corresponds to a switching mode, that is, a DTX unit allocation method. It is also possible to simultaneously transmit the specific switching control scheme corresponding to the required switching mode to the encoding switching unit 24 each time the mode control command is switched.
  • the coding switching unit 24 determines the corresponding handover mode according to the indication information of the specific cause.
  • the coding switching unit 24 determines the corresponding handover mode according to the indication information of the specific cause.
  • the background noise encoding device 20 shown in FIG. 2 can also add a setting command receiving unit 25, receive the switching mode control command and forward it to the encoding switching unit 24, and the switching mode control command can be externally input by the operator. , or the transmitting end may be based on the detected channel resources. The situation arises and so on.
  • the code switching unit 24 can select an appropriate switching mode according to the switching mode control command, and the DTX unit 21 corresponding to at least one background noise type is different between any two switching modes. Taking the four DTX units 21 included in the background noise encoding device 20 as an example, the setting of the switching mode is as shown in FIG. 4:
  • the encoding switching unit 24 selects an appropriate DTX unit for background noise only according to the background noise type, for example, switching mode 1;
  • the encoding switching unit 24 determines the mode of selecting the DTX unit based on the switching mode control command. E.g:
  • switching mode control command 1 When the switching mode control command 1 is received, switching is performed according to the switching mode 1;
  • switching mode control command 2 When the switching mode control command 2 is received, switching is performed according to the switching mode 2;
  • the switching mode control command may be sent according to the current channel resource condition. For example, when the current channel resource is tight, the background noise of some background noise types may use the same lower rate DTX unit, and even all the background noise types use the lowest rate DTX unit. . For another example, when there is no switching mode control command, only some of the DTX units will be used, but when the switching mode control command indicates that the current channel resources are abundant or tight, another portion of the DTX unit is used.
  • the instruction 1 indicates to enter the switching mode 1 , and each type of background noise corresponds to a different DTX unit, and the instruction 1 may indicate that the current channel resource is normal;
  • the instruction 2 indicates to enter the switching mode 2, and the partial background noise type corresponds to the same DTX unit, for example, the background noise type 1 and the background noise type 2 correspond to the DTX unit 212, and the background noise type 3 and the background noise type 4 correspond to the DTX unit.
  • the instruction 2 may indicate that the current channel resource is richer (the DTX unit 212 has a higher encoding rate than the DTX unit 211, and occupies more resources; the DTX unit 214 has a higher encoding rate than the DTX unit 213, and occupies more resources), or may indicate that the current channel resource is more Nervous (DTX unit 212 has a lower encoding rate than DTX unit 211 and consumes less resources; The DTX unit 214 has a lower encoding rate and less resources than the DTX unit 213;);
  • the instruction 3 indicates to enter the switching mode 3, and all the background noise types correspond to only the DTX unit 214.
  • the instruction 3 may indicate that the current channel resource is very rich (the DTX unit 214 has the highest coding rate and the most occupied resources), or may represent the current channel resource. Very nervous (DTX unit 214 has the lowest coding rate and takes up the least resources).
  • the speech coder can be further set in the background noise encoding device 20, and the specific background noise is full-rate encoded by the vocoder.
  • the signal characteristic parameter value of the specific background noise satisfies the setting condition
  • the background noise classifying unit 23 determines the specific background noise type according to whether the at least one signal characteristic parameter value satisfies the setting condition, and instructs the encoding switching unit 24 to switch to the specific background noise.
  • a speech encoder the speech encoder encodes the specific background noise signal into a speech frame and continuously outputs.
  • the voice coder 7 already available at the transmitting end to perform this function.
  • each DTX unit 21 includes two parts, one of which is a non-speech encoder for encoding a background noise signal into a SID frame, and the other is a background noise frame transmitter for setting according to The background noise frame is sent in a discontinuous manner.
  • the difference between the DTX units may be different in the SID frame coding mode, the discontinuous transmission mechanism, or both.
  • Different SID frames can adopt different kinds of parameters and different numbers of parameters
  • the structure and length of the SID frame generated by different SID frame coding methods may be different.
  • the coding parameters of the steady-state background noise signal noise may be relatively simple, and the quantization precision of the parameters may be relatively low, and the length of the SID frame may be relatively relatively long. short.
  • the coding parameters of the unsteady background noise signal can be relatively more.
  • One method is to increase the excitation parameters in the speech coding parameters in the existing SID frame, such as adaptive codebook parameters (pitch delay and gain).
  • the quantization accuracy of the parameters can be relatively high, such as increasing the quantization precision of the filter parameters and excitation parameters in the existing SID frame, and the length of the SID frame can also be increased accordingly.
  • the SID frame of the pleasing background noise signal should use the most complicated coding method (which can be full rate coding), the SID frame of the environmental background noise signal uses the second complex coding mode, and the SID frame of other background noise signals is used. Single encoding.
  • Different background noise types can also use different discontinuous transmission mechanisms.
  • the difference of SID frame transmission mechanisms of different background noise types is mainly reflected in the transmission interval of two adjacent SID frames.
  • the human auditory system since the background variation is small, the human auditory system is not sensitive to the quality degradation of the background noise after DTX/CNG, and only a relatively long discontinuous transmission interval is needed.
  • the unsteady background noise signal since the background changes greatly in time, in order to ensure that the background noise can have a higher subjective quality after DTX/CNG, it is necessary to use a relatively short discontinuous transmission interval or even Continuous transmission.
  • the subjective quality requirements are quite high due to its non-noisy nature, so the DTX system needs to transmit it continuously.
  • the DTX system For environmental background noise, because it carries certain environmental information, in order to ensure that this information is not lost, the DTX system also needs to update the SID frame at a higher speed.
  • the DTX system can update the SID frame relatively slowly.
  • the transmission interval of SID frames is divided into fixed transmission interval and adaptive transmission interval.
  • the interval between two adjacent SID frames is fixed, and the size of the interval depends on the type of background noise.
  • the transmission of SID frame is adaptive to the speed of noise change, there is also a limit of minimum transmission interval.
  • different minimum intervals may be determined according to different background noise types.
  • a main structure diagram of a first communication device includes: a VAD 10, a background noise encoding device 20, a voice encoder 30, and a communication interface 40, wherein:
  • the VAD 10 is used for detecting valid speech, and the audio signal is sent to the speech encoder 30 to be encoded into a speech frame, and the communication interface transmits the speech frame through the communication channel; the background noise signal is sent to the background noise coding.
  • the device 20, the background noise encoding device 20 outputs a SID frame, and the communication interface transmits the SID frame through the communication channel.
  • the encoding switching unit 24 switches the applicable DTX unit 21 in accordance with the type of the background noise signal.
  • a main structure diagram of a second communication device As shown in FIG. 7, a main structure diagram of a second communication device according to an embodiment of the present invention is provided, wherein: the coding switching unit 24 in the background noise encoding device 20 determines a switching mode according to an instruction of the instruction receiving unit 25, and according to background noise. The type of signal and the currently used switching mode switch apply to the DTX unit 21.
  • a speech coder may be further provided in the background noise encoding device 20 in the communication device shown in Figs. 6 and 7, and the speech coder performs full rate encoding of the background noise.
  • the encoding switching unit 24 is connected to the speech coder 30, and the background noise signal is sent to the speech encoder 30 to be encoded as full.
  • the rate of speech frames is continuously output.
  • the corresponding DTX unit indication information is set in the SID frame corresponding to the coding and sending manner of each SID frame, and the DTX unit indicates the information for the decoding end to determine the corresponding decoding and reconstruction scheme. For speech frames, they are decoded by the speech decoder and output continuously.
  • the background noise analysis unit 22 calculates the calculation of the background feature parameter value and the partial calculation of each DTX unit 21 when encoding the SID frame, the background noise analysis unit 22 can also connect each DTX unit 21 and output the analysis calculation result to each.
  • FIG. 9 is a schematic structural diagram of a communication device according to an embodiment of the present invention.
  • the unit for performing the function of the receiving end mainly includes: a background noise decoding device 50, an identifying unit 60, a decoding switching unit 70, a voice decoder 80, and a communication. Interface, where:
  • the background noise decoding device 50 includes at least two CNG units (51, 52...5n), each CNG unit decoding a SID frame according to a set decoding reconstruction scheme and reconstructing into background noise;
  • the identifying unit 60 is configured to identify a voice frame and a SID frame received through the communication interface, and further identify DTX unit indication information in the SID frame;
  • the decoding switching unit 70 is configured to switch according to the recognition result of the identification unit 60, send the voice frame to the voice decryptor 80, and send the SID frame to the corresponding CNG unit for decoding and reconstruction.
  • each CNG unit includes a non-speech decoder for decoding a background noise frame received from a communication channel, and a reconstructor for reconstructing the decoded data into a continuous manner by interpolation.
  • the background noise signal is added to increase the comfort of the listening party.
  • the identification unit 60 first identifies whether the received encoded frame is a full rate encoded speech frame or a SID frame and, if it is a SID frame, further identifies the DTX unit indication information in the SID frame.
  • there should be one or several bits for carrying the DTX unit indication information in the code stream of the SID frame and the position of the bit can be at the beginning or the end of the SID frame, or at other specified positions of the SID frame. , for example, as shown in Table 3 or Table 4 below:
  • the identification unit 60 may include two identification subunits, one identification subunit for identifying the reception
  • the encoded frame is a full-rate encoded speech frame or a SID frame, and if the speech frame is recognized, the decoding switching unit 70 is notified, and the decoding switching unit sends the speech frame to the speech decoder 80 for decoding and continuous output; if it is identified as a SID frame And sending the SID frame to another identification subunit to further identify the DTX unit indication information in the SID frame.
  • the appropriate DTX decoding scheme is selected according to the DTX unit indication information to decode the SID frame, and the noise interpolation methods in different decoding schemes are different, and finally the recovered comfort noise is obtained. .
  • the communication device may have a transmitting end function or a specific receiving end function, and the structure shown in Fig. 9 is usually combined with the structure shown in Fig. 7 or Fig. 8 in a communication device.
  • the background noise signal is input to the background noise analyzing unit 22 frame by frame, and the background noise analyzing unit 22 calculates the subband level levd[k, i] of each current signal frame, where k and i respectively represent the ith frame
  • the level of the k subband is stored in the memory.
  • Subband calculations can be implemented either by filter banks or by transforms.
  • the background noise analysis unit 22 starts to calculate the background noise spectrum fluctuation parameter ⁇ ec_rar/ according to the subband level stored in the memory, and updates when each frame noise frame is received afterwards. Calculation results.
  • N is the number of subbands
  • L is the number of background noise signal frames selected for long time averaging.
  • N is the number of coefficients
  • L is the number of background noise signal frames selected as the long-term average.
  • the background noise analysis unit 22 outputs the calculated background noise spectrum fluctuation parameter to the background noise classification unit 23.
  • the coding switching unit 24 selects a corresponding DTX unit for the current background noise frame based on the background noise type information output from the background noise classification unit 23.
  • the background noise classification unit 23 classifies the current background noise into one of steady state or non-steady state by comparing the background noise spectrum fluctuation parameter with a threshold spec_var-thr. If spec-var [i] ⁇ spec-var-thr , the current background noise signal is classified as a steady-state background noise signal, otherwise it is classified as an unsteady background noise signal.
  • the DTX system has two different working schemes:
  • Scheme 1 uses a discontinuous transmission mechanism that transmits one SID frame every 8 frames, and the SID frame only contains filters and energy parameters;
  • Scheme 2 uses a discontinuous transmission mechanism that transmits one SID frame every three frames.
  • the SID frame adds a fixed codebook parameter (belonging to the excitation parameter) in addition to the energy parameter.
  • the code switching unit 24 selects the work plan one.
  • the code switching unit 24 selects the work plan 2.
  • Each SID frame is assembled with a DTX unit indication information set in the frame to declare which DTX unit the SID frame belongs to.
  • the DTX unit indication information can be represented by 1 bit, and 0 and 1 respectively represent DTX unit 1 and DTX unit 2.
  • the identification unit 60 first determines the DTX unit to which the SID frame belongs according to the DTX unit indication information in the SID frame, and the decoding switching unit 70 inputs the SID frame into the corresponding CNG unit 50 for decoding and reconstruction. among them:
  • the corresponding CNG unit decodes the filter parameters and the energy parameters according to the SID frame format in the DTX working scheme 1 described above, and the following 8 background noises are obtained.
  • Signal frame is interpolated;
  • the corresponding CNG unit decodes the filter parameters, the energy parameters, and the fixed codebook parameters according to the SID frame format in the DTX working scheme 2, and performs the following three background noise signal frames. Plug in.
  • the background noise signal is input to the background noise analyzing unit 22 frame by frame, and the background noise analyzing unit 22 calculates the subband level level [k, i], the frame energy pow [i], and the short time letter of the current background noise signal frame.
  • the noise ratio is ⁇ wr T/ and is stored in memory. among them:
  • the background noise analysis unit 22 starts to calculate the background noise energy fluctuation pow_var according to the short-term characteristic parameters (subband level, frame energy, short-time signal to noise ratio) stored in the memory. i], long-term signal-to-noise ratio snr_long[i], long-term background noise energy estimate bckr_noise_pow[i], and update the calculation result when each background noise signal frame is received.
  • the update of the remaining parameter calculation results only occurs when the current signal frame is a background noise signal frame, and the long-term signal-to-noise ratio update only occurs when the current signal frame is a non-background noise signal frame.
  • L where is the number of non-background noise signal frames selected to be long-term average.
  • the background noise energy fluctuation pow_var[i] is calculated as , where is the number of background noise signal frames selected to be long-term average.
  • the long-term background noise energy estimate bckr-noise ⁇ mv T/ is calculated as:
  • the scale factor to 1 is 5% in this embodiment.
  • the background noise analyzing unit 22 outputs the calculated background noise energy fluctuation pow_ ⁇ ] and the long-time signal-to-noise ratio ⁇ r ⁇ to the background noise classifying unit 23.
  • a steady state large SNR background noise signal a steady state small SNR background noise signal
  • an unsteady large SNR background noise signal an unsteady small SNR background noise signal.
  • the background noise classifying unit 23 classifies the current background noise by comparing pow_var[i] and snr_long[i] with an energy fluctuation threshold pow_var_thr and a signal-to-noise ratio threshold snr_thr.
  • One of four types of background noise types of which:
  • the DTX unit uses a discontinuous transmission mechanism for transmitting one SID frame every 8 frames, and the SID frame only includes filter parameters and energy parameters;
  • DTX unit 2 uses a discontinuous transmission mechanism that transmits one SID frame every 8 frames, except in the SID frame.
  • a fixed codebook parameter is included in addition to the filter parameter and the energy parameter;
  • the DTX unit 3 uses a discontinuous transmission mechanism for transmitting one SID frame every three frames, and the SID frame includes a fixed codebook parameter in addition to the filter parameters and the energy parameters;
  • DTX unit 4 uses a continuous transmission mechanism with full rate coding.
  • the code switching unit 24 is connected to a switching mode control command interface in addition to the background noise type information of the background noise classifying unit 23.
  • a switching mode control command interface in addition to the background noise type information of the background noise classifying unit 23.
  • the switch mode control command There are five indications for the switch mode control command, which means that the bandwidth is normal, the bandwidth is high, the bandwidth is small, the bandwidth is large, and the bandwidth is small.
  • the switching mode of the DTX system is: DTX unit 1 is used for the steady-state large SNR class background; DTX unit 2 is used for the steady-state small SNR class background; and the unsteady large SNR class background is adopted. DTX unit three; DTX unit four is used for the unsteady small SNR class background.
  • the switching mode of the DTX system is: DTX unit 2 is used for both the steady large SNR class background and the steady state small SNR class background; the unsteady large SNR class background and the non-steady state are small
  • the SNR class background uses DTX unit four;
  • the switching mode of the DTX system is: DTX unit 1 is used for both the steady large SNR class background and the steady state small SNR class background; the unsteady large SNR class background and the non-steady state
  • the small SNR class background uses DTX unit three;
  • the switching mode of the DTX system is: DTX unit four is used for all four background noise types;
  • the switching mode of the DTX system is: DTX unit one is used for all four background noise types.
  • Each SID frame is assembled with one DTX unit indication information set in the frame to declare which DTX unit the SID frame belongs to.
  • the DTX unit indication information in this embodiment may be represented by 2 bits, where: 00, 01, and 10 represent DTX unit 1, DTX unit 2, and DTX unit 3, respectively, and scheme 4 does not need to be identified because it is full rate coding.
  • the identifying unit 60 first determines the DTX unit to which the SID frame belongs according to the DTX unit indication information in the SID frame, and instructs the corresponding CNG unit to decode and reconstruct, where:
  • the filter parameters and energy parameters are decoded according to the SID frame format in the DTX working scheme 1 described above, and the subsequent 8 background noise signal frames are interpolated;
  • the excitation parameter, the filter parameter and the energy parameter are decoded according to the SID frame format in the above DTX working scheme 2, and the subsequent 8 background noise signal frames are interpolated.
  • the filter parameters, the energy parameters, and the fixed codebook parameters are decoded according to the SID frame format in the above DTX work scheme 3, and the subsequent three background noise signal frames are interpolated.
  • the embodiment of the present invention provides an encoding method, including:
  • the DID mechanism indicates that the SID frame of the information is not continuously transmitted, and the SID frame coding mode and/or the SID frame discontinuous transmission mode in each DTX mechanism are different.
  • the encoding method further includes: setting different DTX mechanism selection modes, that is, different switching modes, and at least one DTX mechanism corresponding to at least one background noise type is different between any two DTX mechanism selection modes;
  • the DTX mechanism selection mode determines the corresponding DTX mechanism for each background noise type.
  • the method further comprises: encoding the background noise signal into a full rate speech frame and transmitting continuously when the at least one signal characteristic parameter value is a set value.
  • the signal characteristic parameter value includes one or any combination of the following: long-term SNR, background noise Estimated level, background noise energy fluctuation estimate, background noise spectrum fluctuation estimate, and background noise fluctuation frequency.
  • the embodiment of the present invention further provides a method for decoding a corresponding SID frame, including: identifying DTX mechanism indication information in a SID frame, where a SID frame coding manner in each DTX mechanism is different;
  • the SID frame is decoded by using a corresponding decoding manner, and reconstructed into a background noise signal.
  • different SID frame coding methods and discontinuous transmission mechanisms may be adopted according to different types of background noise and actual conditions of the communication system, and adaptively utilized in the case of rationally utilizing actual resources of the communication system.
  • the coding accuracy and time resolution required by different types of background noise are used to provide various types of background noise at the decoding end under the premise of rational utilization of channel resources.
  • the foregoing storage medium includes: a medium that can store program codes, such as a ROM, a RAM, a magnetic disk, or an optical disk.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)

Description

一种背景噪声编码 /解码装置、 方法和通信设备 技术领域
本发明涉及语音通信技术, 特别涉及一种背景噪声编码 /解码装置、 方法 和通信设备。 背景技术
语音通信过程中,被传输的语音信号可以分为有声信号和无声信号两类, 其中: 有声信号是在检测到有效语音时发送的语音信号, 主要包括通信方的 语音以及当时的背景噪声等信息; 无声信号在没有检测到有效语音的间隙发 送的背景噪声信号, 主要包括各种背景噪声, 比如白噪声、 背景嘈杂声和静 音等。 对通信双方来说, 有声信号为有用信号, 是主要通信信息的载体, 而 无声信号为无用信号, 不包含主要通信信息。
在语音通信过程中, 由于通信双方主要关注的是有用的有声信号, 因此 考虑到带宽的压力, 不希望传送无用的无声信号, 以降低传输带宽, 增加系 统容量。 但是如果只传有声信号, 会导致背景噪声的不连续, 使收听的一方 感觉非常不舒服, 尤其在背景噪声较强的情况下更加明显, 甚至会令语音难 以理解, 所以只能尽量减少传送无用的无声信号, 在保证用户感受度的基础 上尽量降低带宽, 为此应运而生了 CNG ( Comfort Noise generation, 舒适噪 声生成)技术, CNG技术中, 发送端在无声信号阶段采用静音压缩编码技术 编码背景噪声帧, 并采用 DTX ( Discontinuous Transmission, 非连续传输 ) 方式传输, 接收端采用内插的方式产生连续的背景噪声信号, 以增加收听方 的舒适感。
现有的背景噪声编码方式可对背景噪声进行筒单编码, 并在解码端合成 出筒单的舒适背景噪声, 可以在一定程度上较好满足接听质量的要求。 然而 随着通信技术的发展, 语音编码质量越来越高, 相应的, 有声阶段的背景噪 声的编码质量也越来越高, 在这种情况下, 为使得语音通信时的背景噪声更 加连续, 也需要提高无声阶段背景噪声的编码质量。 现有较为单一的 SID帧 编码方式和非连续传输机制显然无法满足多种通信环境的具体要求。 发明内容 本发明实施例提供一种背景噪声编码 /解码装置、 方法和通信设备, 以实 现根据通信环境的背景噪声情况灵活调整 SID 帧编码方式和非连续传输机 制。
一种背景噪声编码装置, 包括:
背景噪声分析单元,用于获取背景噪声信号的至少一个信号特征参数值; 背景噪声分类单元, 用于根据所述至少一个信号特征参数值确定背景噪 声类型;
编码切换单元和至少两个非连续传输单元, 所述编码切换单元用于根据 所述背景噪声类型将背景噪声信号输入对应的非连续传输单元, 每一个非连 续传输单元用于将背景噪声信号编码为包含非连续传输单元指示信息的静音 描述帧并非连续传输, 其中各非连续传输单元的静音描述帧编码方式和 /或静 音描述帧非连续传输机制不相同。
一种背景噪声解码装置, 包括:
第一识别单元, 用于识别静音描述帧中的非连续传输单元指示信息; 解码切换单元和至少两个舒适噪声生成单元, 所述解码切换单元用于根 据所述识别单元的识别结果, 将所述静音描述帧输入对应的舒适噪声生成单 元, 每一个舒适噪声生成单元根据接收的静音描述帧的编码方式对应解码静 音描述帧, 并重构背景噪声信号。
一种通信设备, 包括:
第一语音检测器,用于检测采集的信号中是否包含有效语音并分类输出; 语音编码器, 用于将包含有效语音的信号编码为语音帧并连续输出; 还包括背景噪声编码装置, 该背景噪声编码装置具体包括: 背景噪声分析单元, 用于获取不包含有效语音的背景噪声信号的至少一 个信号特征参数值;
背景噪声分类单元, 用于根据所述至少一个信号特征参数值确定背景噪 声类型;
编码切换单元和至少两个非连续传输单元, 所述编码切换单元用于根据 所述背景噪声类型将背景噪声信号输入对应的非连续传输单元, 每一个非连 续传输单元用于将背景噪声信号编码为包含非连续传输单元指示信息的静音 描述帧并非连续传输, 其中各非连续传输单元的静音描述帧编码方式和 /或静 音描述帧非连续传输机制不相同。
一种通信设备, 包括背景噪声解码装置, 所述背景噪声解码装置包括: 第一识别单元, 用于识别静音描述帧中的非连续传输单元指示信息; 解码切换单元和至少两个舒适噪声生成单元, 所述解码切换单元用于根 据所述识别单元的识别结果, 将所述静音描述帧输入对应的舒适噪声生成单 元, 每一个舒适噪声生成单元根据接收的静音描述帧的编码方式对应解码静 音描述帧, 并重构背景噪声信号。
一种背景噪声编码方法, 包括:
获取背景噪声信号的至少一个信号特征参数值;
根据所述至少一个信号特征参数值确定背景噪声类型;
根据所述背景噪声类型选择一种非连续传输机制将背景噪声信号编码为 包含非连续传输机制指示信息的静音描述帧并非连续发送, 其中每一种非连 续传输机制中的静音描述帧编码方式和 /或静音描述帧非连续发送方式不相 同。
一种解码方法, 包括:
识别静音描述帧中的非连续传输机制指示信息, 其中每一种非连续传输 机制中的静音描述帧编码方式不相同;
根据所述非连续传输机制指示信息, 采用对应的解码方式解码静音描述 帧, 并重构为背景噪声信号。 附图说明
图 1为本发明实施例的一个应用场景中采用静音压缩编码技术的通信系 统原理示意图;
图 2、 图 3、 图 5和图 6分别为本发明实施例提供的一种背景噪声编码装 置主要结构示意图;
图 4为本发明实施例提供的切换模式原理示意图;
图 7、 图 8和图 9分别为本发明实施例提供的一种通信设备主要结构示 意图。 具体实施方式
进一步分析现有背景噪声编码, 每一种编解码系统中都采用单一的背景 噪声帧编码方式, 无法针对性的描述各种特性的通信环境的具体背景噪声信 号, 从而满足通信环境多样性的需求; 单一非连续传输机制也无法对不同特 性的背景噪声帧有针对性的传输背景噪声帧, 以至无法在解码端针对性的产 生较好的舒适噪声; 并且非连续传输机制的单一性也无法自适应于通信系统 的实际状况, 例如通信带宽, 以至通信系统的资源不能被合理应用。
因此, 本发明实施例提供的一种编解码技术方案, 可以针对性的根据背 景噪声特性进行相应处理, 在编码端对背景噪声进行分析, 根据背景噪声的 特性采用不同的 DTX方案编码发送 SID帧, 并在接收端采用相对应的 CNG 方案重构背景噪声信号。
如图 1所示, 为本发明实施例的一个应用场景中采用静音压缩编码技术 的通信系统原理示意图, 其中, 发送端包括:
VAD ( Voice Activity Detector, 语音检测器), 原始信号经一定预处理后 输入 VAD, VAD通常根据每一帧信号的特征值, 例如信噪比, 检测信号中是 否包含有效语音, 并根据检测结果将信号送入不同的编码器进行编码; 语音编码器, 用于将包含有效语音的有声信号编码为语音帧并输出, 语 音帧通过通信信道被传输给接收端;
非语音编码器, 采用静音压缩技术将不包含有效语音的无声信号编码为 背景噪声帧;
背景噪声帧发送器,采用设定的 DTX方式将背景噪声帧通过通信信道传 输给接收端, 例如每隔几帧发送一个背景噪声帧, 或者根据背景噪声的特征 参数变化情况决定是否发送一个背景噪声帧;
相应的, 接收端包括:
语音解码器, 用于解码从通信信道接收的语音帧, 并重构为有声信号后 输出;
非语音解码器, 用于解码从通信信道接收的背景噪声帧;
重构器, 用于采用内插的方式将解码数据重构为连续的背景噪声信号, 以增加收听方的舒适感。
发送端的非语音编码器和背景噪声帧发送器组成 DTX单元,接收端的非 语音解码器和重构器组成 CNG单元, 静音压缩技术通过位于发送端的 VAD 和 DTX , 以及位于接收端的 CNG实现。
以常用的 CELP ( Code-Excited Linear Prediction, 码激励线性预测 )语音 编码技术为例, CELP是一种高效率的语音编码技术。 由于采用了感觉加权、 分析合成、 矢量量化和后滤波等技术, CELP能够在中低速率上给出高质量的 合成语音。 CELP语音编码技术中,在发送端进行语音信号分析以获取语音的 特征参数, 将语音的特征参数编码到码流中发送; 接收端根据码流中的特征 参数进行语音合成,重构语音信号。语音信号 被分成短的时间段,称为帧, 发送端的语音分析和接收端的语音合成都是逐帧进行的。
在发送端, 原始信号 可以看成是一个激励信号 激励一个滤波器 所产生的输出, 即^ = * ν(") , 接收端使用相同的滤波器对语音进行 合成, 称为合成滤波器。 因此语音信号的编码码流中传输的特征参数包括合 成滤波器参数和激励参数, 其中: 合成滤波器参数主要为线谱频率 LSF ( Line Spectrum Frequency )量化参数, 而激励信号参数包括: 自适应码本参数 (包 括基音延迟参数和基音增益参数)和固定码本参数 (包括固定码本中非零脉 沖的位置和符号以及固定码本增益参数)。
与语音编码参数不同, 背景噪声编码参数描述的是背景噪声特性, 由于 背景噪声的激励信号可以认为是筒单的噪声随机序列, 而这些序列在编解码 端均可以筒单的用随机噪声产生装置产生, 然后用能量参数控制这些序列的 幅度, 就可产生最终的激励信号, 因此激励信号特征参数可以筒单的用能量 参数来表示, 而不需要用其它的一些特征参数来进一步描述, 所以在背景噪 声编码码流中与语音帧不同的是,其激励参数为当前背景噪声帧的能量参数; 而背景噪声编码码流中与语音帧相同的是, 编码码流中的合成滤波器参数也 为线谱频率 LSF量化参数, 只是具体的量化方法有所差别。 通过以上分析, 可以认为对背景噪声的编码方式本质上就是一种筒单的语音编码方式。
经 DTX压缩编码并被非连续传输的背景噪声帧一般称为 SID ( Silence Descriptor, 静音描述帧) 帧。 在当前的各种语音编码系统中, 每一系统内的 背景噪声信号都使用 SID帧格式和非连续传输机制。
其中, G.729B静音压缩方案是一种具有代表性的静音压缩技术, G.729B 是基于 CELP算法模型的, 因此其所传输的背景噪声参数也是基于 CELP模 型获取的, 包括用于描述背景噪声的合成滤波器参数与激励参数。 在编码端, 例如 VAD的判决结果为 0时, 表示当前的信号为噪声, 则经一定预处理的原 始信号被送入背景噪声编码装置, 在背景噪声编码装置对背景噪声参数进行 提取和量化, 组成 SID帧, 然后背景噪声编码装置 ^据 SID帧内的参数变化 情况来决定是否发送一帧 SID帧, 例如 SID帧中的滤波器参数和能量参数变 化较大时发送一帧 SID帧。 G.729B中, 两个相邻 SID帧的间隔至少为 2帧。 在解码端, 若进入背景噪声解码重构阶段, 则在背景噪声解码装置中根据接 收的 SID帧合成出描述编码端背景噪声特性的舒适噪声。 G.729B的 SID帧中 为各参数分配的比特数如下表 1所示:
表 1.
Figure imgf000009_0001
AMR ( Adaptive Multi-Rate speech codec, 自适应多码率语音编码器)和 AMR-WB ( Adaptive Multi-Rate Wide Band speech codec, 宽带自适应多码率 语音编码器 )静音压缩方案中的 DTX则采用固定的发送机制, 无论背景噪声 的特性如何变化, 每 8帧发送一次 SID帧。 AMR的 SID帧中为各参数分配 的比特数如下表 2所示, AMR-WB的 SID帧中为各参数分配的比特数如下表 3所示。
表 2.
比特分配(从高位到低位) 参数描述
S1-S3 量化预测器索引
S4-S11 一級 LSF量化矢量索引
S12-S20 二級 LSF量化矢量索引
S21-S29 三級 LSF量化矢量索引
S30-S35 对数帧能量索引 表 3.
比特分配(从高位到低位) 参数描述
S1-S6 一級 LSF量化矢量索引
S7-S12 二級 LSF量化矢量索引
S13-S18 三級 LSF量化矢量索引
S19-S23 四級 LSF量化矢量索引 S24-S28 五級 LSF量化矢量索引
S29-S34 对数帧能量索引
S35 抖动标志 如图 2所示, 为本发明实施例提供的一种背景噪声编码装置 20, 该背景 噪声编码装置 20用于静音压缩编码通信系统中, 主要结构包括:
至少两个 DTX单元 21 , 包括 DTX单元 211、 DTX单元 2 12 DTX单 元 21η,各 DTX单元 21用于根据不同的 DTX机制将背景噪声信号编码为 SID 帧并非连续输出, 其中, 不同的 DTX机制之间的区别包括: SID帧编码方式 不相同、 SID帧非连续传输机制不相同, 或者二者都不相同;
背景噪声分析单元 22, 用于根据背景噪声信号计算至少一个信号特征参 数值;
背景噪声分类单元 23, 用于根据所述至少一个信号特征参数值确定背景 噪声类型;
编码切换单元 24, 用于根据所述背景噪声类型将接收的背景噪声信号输 入对应的 DTX单元 21。
背景噪声分析单元 22 的功能是分析输入的背景噪声信号以获得背景信 号的特征参数, 分析方法是计算出一个或多个能够表征背景噪声信号的信号 特征参数值, 这些信号特征参数可以是如下参数之一或任意组合: 长时 SNR ( signal to Noise Ratio ), 背景噪声估计电平、 背景噪声能量波动估计、 背景 噪声谱波动估计、 背景噪声波动频率等。 其它可以表征信号背景的大小、 种 类 (稳态 /非稳态, 变化大小, 变化快慢)、 SNR (长时, 短时, 峰值) 的参 数也可以被计算出来用于分析。 除将背景噪声信号输入背景噪声分析单元 22 外,还可以将 VAD判决当前信号是背景信号的指示信号输入背景噪声分析单 元 22, 背景噪声分析单元 22根据背景噪声信号指示信息触发计算信号特征 参数值。 背景噪声分类单元 23的功能是根据背景噪声分析单元 22计算得到的信 号特征参数值, 划分当前背景噪声信号的类型。 背景噪声类型至少定义两种, 可以根据背景噪声的稳定与否定义, 例如: 将背景噪声划分为稳态背景噪声 信号和非稳态背景噪声信号两类; 又如根据背景噪声的稳定与否及长时 SNR 的大小定义: 将背景噪声划分为稳态大 SNR背景噪声信号、 稳态小 SNR背 景噪声信号、 非稳态大 SNR背景噪声信号、 非稳态小 SNR背景噪声信号四 类。 还可以根据背景噪声所包含信息意义的大小定义背景噪声类型, 比如背 景噪声信号可被分为悦耳背景噪声信号(如音乐, 流水, 鸟语等)、 环境背景 噪声信号 (如酒会, 街边, 机场等)或其它背景噪声信号三类。 总之, 背景 噪声的划分类型可以根据需要设定, 并不限定本发明技术方案的实施。
编码切换单元 24中预先存储了每一种背景噪声类型适用的 DTX单元 21 , 根据背景噪声分类单元 23确定的背景噪声类型,在至少两个 DTX单元 21之 间进行切换, 选择和当前背景噪声类型相对应的 DTX单元 21进行处理。
一般情况下各背景噪声类型分别对应一种不同的 DTX方案,但是考虑到 具体通信场景的需求或通信信道资源变化情况,还可以设定不同的切换模式, 每一种切换模式对应不同的切换控制方案, 可以将每一种切换模式所对应的 具体切换控制方案预先存储到编码切换单元 24中,并通过切换模式控制指令 指示编码切换单元 24所需的切换模式,切换模式控制指令可以是反映当前信 道资源状况的有限个指令集, 每一特定的切换模式控制指令对应一种切换模 式, 即一种 DTX单元的分配方法。 也可以在每一次切换模式控制指令时, 将 所需的切换模式对应的具体切换控制方案同时发送给编码切换单元 24。
编码切换单元 24根据具体原因的指示信息确定出对应切换模式。对于本 领域技术人员来说, 具体的切换模式转换控制方法很多, 这里不再一一列举。
因此如图 3所示, 图 2所示背景噪声编码装置 20中还可以增加设置指令 接收单元 25, 接收切换模式控制指令并转发给编码切换单元 24, 切换模式控 制指令可以是操作人员从外部输入的, 也可以是发送端根据检测的信道资源 情况产生等。
编码切换单元 24可以根据切换模式控制指令选择恰当的切换模式,任意 两个切换模式之间至少有一个背景噪声类型对应的 DTX单元 21不相同。 以 背景噪声编码装置 20中包括四个 DTX单元 21为例,切换模式的设定例如图 4所示:
当没有设置指令接收单元 25时, 编码切换单元 24仅根据背景噪声类型 为背景噪声选择恰当的 DTX单元, 例如切换模式 1;
当设置有指令接收单元 25时, 编码切换单元 24根据切换模式控制指令 确定选择 DTX单元的模式。 例如:
接收到切换模式控制指令 1时, 根据切换模式 1进行切换;
接收到切换模式控制指令 2时, 根据切换模式 2进行切换;
接收到切换模式控制指令 3时, 根据切换模式 3进行切换。
切换模式控制指令可以根据当前信道资源情况发出, 例如当前信道资源 紧张时, 其中部分背景噪声类型的背景噪声可能使用同一个较低速率的 DTX 单元, 甚至所有的背景噪声类型都使用最低速率 DTX单元。 又例如, 当没有 切换模式控制指令时, 只有其中部分 DTX单元会被使用,但当切换模式控制 指令表示当前信道资源充裕或紧张时, 另一部分 DTX单元被使用。
由图 4所示的例子可见:
指令 1指示进入切换模式 1 , 此时每一种背景噪声类型都对应一种不同 的 DTX单元, 指令 1可以是表示当前的信道资源正常;
指令 2指示进入切换模式 2, 此时部分背景噪声类型会对应相同的 DTX 单元, 如背景噪声类型 1和背景噪声类型 2均对应 DTX单元 212, 背景噪声 类型 3和背景噪声类型 4均对应 DTX单元 214, 指令 2可以表示当前信道资 源较丰富 (DTX单元 212较 DTX单元 211编码速率高, 占用资源多; DTX 单元 214较 DTX单元 213编码速率高, 占用资源多), 或者可以表示当前信 道资源较紧张( DTX单元 212较 DTX单元 211编码速率的低, 占用资源少; DTX单元 214较 DTX单元 213编码速率低, 占用资源少;);
指令 3指示进入切换模式 3, 此时所有的背景噪声类型均只对应 DTX单 元 214, 指令 3可以表示当前信道资源十分丰富 (DTX单元 214编码速率最 高, 占用资源最多 ), 或者可以表示当前信道资源十分紧张(DTX单元 214 编码速率最低, 占用资源最少)。
如图 5所示, 在当前信道资源非常充足或者背景噪声特别悦耳时, 还可 以在背景噪声编码装置 20中再设置语音编码器,利用语音编码器对特定背景 噪声进行全速率编码。 特定背景噪声的信号特征参数值满足设定条件, 背景 噪声分类单元 23 根据至少一个信号特征参数值是否满足设定条件来判断特 定背景噪声类型,并指示编码切换单元 24在特定背景噪声时切换到语音编码 器, 语音编码器将该特定背景噪声信号编码为语音帧并连续输出。 当然, 也 可以利用发送端已有的语音编码器 7 担该功能。
参阅图 1所示, 每一个 DTX单元 21中包括两部分, 其一为非语音编码 器, 用于将背景噪声信号编码为 SID帧, 其二为背景噪声帧发送器, 用于根 据设定的非连续方式发送背景噪声帧。 DTX单元间的不同可以是 SID帧编码 方式的不同, 也可以是非连续传输机制的不同, 或者二者皆不同。 其中: SID
1、 编码参数的不同
不同的 SID帧可以采用不同种类的参数和不同数量的参数;
2、 相同参数量化精度的不同
对于同一参数不同 SID帧可以采用不同的量化精度;
因此,不同 SID帧编码方式产生的 SID帧的结构和长度可能不同,例如: 稳态背景噪声信号噪声的编码参数可以相对筒单, 参数的量化精度可以相对 较低, SID 帧的长度可以相对较短。 相对应的, 非稳态背景噪声信号的编码 参数可以相对较多, 一种方法是在现有的 SID帧中增加语音编码参数中的激 励参数, 如自适应码本参数(基音延迟和增益)和固定码本参数(非零脉沖 的位置和符号以及增益)等,参数的量化精度可以相对较高,如增加现有 SID 帧中滤波器参数和激励参数的量化精度等, SID 帧的长度也可相应增加。 又 如, 悦耳背景噪声信号的 SID帧应使用最复杂的编码方式(可以是全速率编 码),环境背景噪声信号的 SID帧使用次复杂的编码方式,其它背景噪声信号 的 SID帧则使用较筒单的编码方式。
不同的背景噪声类型还可以使用不同的非连续传输机制, 不同背景噪声 类型的 SID帧发送机制的不同主要体现在相邻两个 SID帧的传输间隔上。 例 如对于稳态背景噪声信号, 由于背景的变动较小, 人类听觉系统对该类背景 噪声经 DTX/CNG之后的质量下降敏感度不高, 只需用相对较长的非连续传 输间隔即可。 对于非稳态背景噪声信号, 由于背景在时间上的变动较大, 为 了保证该类背景噪声经 DTX/CNG之后能拥有一个较高的主观质量, 需要使 用相对较短的非连续传输间隔甚至是连续的传输。 又如, 对于悦耳背景, 由 于其本身的非噪声性质, 主观质量的要求相当高, 因此 DTX系统就需要将其 进行连续的传输。 对于环境背景噪声, 由于其本身携带了一定的环境信息, 为了确保不丟失这些信息, DTX系统也需要以较高的速度来更新 SID帧。 对 于其它背景噪声, 由于还原背景的真实面貌并非主要的目的, 因此 DTX系统 就可以相对较慢的进行 SID帧的更新。
SID 帧的传输间隔分为固定传输间隔和自适应传输间隔两种。 在固定传 输间隔的机制下, 相邻两个 SID帧间的间隔是固定的, 间隔的大小就取决于 背景噪声的类型。 在自适应传输间隔的机制下, 虽然 SID帧的发送是自适应 于噪声变化的快慢, 但也有最小传输间隔的限制。 本发明实施例中, 根据不 同背景噪声类型可决定采用不同的最小间隔。
如图 6所示, 为本发明提供的第一种通信设备的主要结构示意图, 包括: VAD10、 背景噪声编码装置 20、 语音编码器 30和通信接口 40, 其中:
VAD10用于检测有效语音, 将有声信号送入语音编码器 30编码为语音 帧, 通信接口通过通信信道发送语音帧; 将背景噪声信号送入背景噪声编码 装置 20,背景噪声编码装置 20输出 SID帧,通信接口通过通信信道发送 SID 帧。
背景噪声编码装置 20中, 编码切换单元 24根据背景噪声信号的类型切 换适用的 DTX单元 21。
如图 7所示, 为本发明实施例提供的第二种通信设备主要结构示意图, 其中:背景噪声编码装置 20中的编码切换单元 24根据指令接收单元 25的指 令确定切换模式, 并根据背景噪声信号的类型以及当前使用的切换模式切换 适用的 DTX单元 21。
参见图 5所示,图 6和图 7所示的通信设备中的背景噪声编码装置 20中 还可以设置语音编码器, 语音编码器完成背景噪声的全速率编码。
如图 8所示,如果利用已有的语音编码器 30完成背景噪声的全速率编码, 则编码切换单元 24连接到语音编码器 30上, 将背景噪声信号送入语音编码 器 30中编码为全速率的语音帧并连续输出。
采用本发明实施例提供的技术方案, 需要对应每一种 SID帧的编码发送 方式, 在 SID帧中设置相应的 DTX单元指示信息, DTX单元指示信息供解 码端确定对应的解码重构方案。 对于语音帧, 由语音解码器进行解码并连续 输出。
由于背景噪声分析单元 22对计算背景特征参数值的计算和各 DTX单元 21在编码 SID帧时的部分计算相同, 因此背景噪声分析单元 22还可以连接 各 DTX单元 21 ,将分析计算结果输出给各 DTX单元 21 ,从而部分减少 DTX 单元 21的计算量。
如图 9所示, 为本发明实施例提供的一种通信设备结构示意图, 完成接 收端功能的单元主要包括: 背景噪声解码装置 50、 识别单元 60、 解码切换单 元 70、 语音解码器 80以及通信接口, 其中:
该背景噪声解码装置 50中包括至少两个 CNG单元(51、 52...5n ), 每一 个 CNG单元根据一种设定的解码重构方案解码 SID帧并重构为背景噪声; 识别单元 60, 用于识别通过通信接口所接收的语音帧和 SID帧, 并进一 步识别 SID帧中的 DTX单元指示信息;
解码切换单元 70, 用于根据识别单元 60的识别结果进行切换, 将语音 帧送入语音解密器 80, 将 SID帧送入对应的 CNG单元进行解码重构。
其中, 参阅图 1所示, 每一个 CNG单元中包括非语音解码器, 用于解码 从通信信道接收的背景噪声帧; 重构器, 用于采用内插的方式将解码数据重 构为连续的背景噪声信号, 以增加收听方的舒适感。
识别单元 60首先识别接收到的编码帧是全速率编码的语音帧还是 SID帧 并且若是 SID帧, 进一步识别该 SID帧中的 DTX单元指示信息。 在这里, SID帧的码流中应存在 1或几个用于携带 DTX单元指示信息的比特位, 比特 位的位置既可在 SID帧的开头也可在末尾, 或者在 SID帧的其它指定位置, 例如下表 3或表 4所示:
表 3.
Figure imgf000016_0001
识别单元 60中可以包括两个识别子单元,一个识别子单元用于识别接收 到的编码帧是全速率编码的语音帧还是 SID帧, 如果识别出语音帧则通知解 码切换单元 70, 解码切换单元将语音帧送入语音解码器 80解码并连续输出; 如果识别出是 SID帧, 则将 SID帧送入另一个识别子单元进一步识别 SID帧 中的 DTX单元指示信息。
由于不同的背景噪声类型有不同的 SID帧格式或更新机制,根据 DTX单 元指示信息选择适当的 DTX解码方案解码 SID帧,不同解码方案中中的噪声 内插方法不同, 最终得到恢复出的舒适噪声。
通信设备可以即具备发送端功能, 也可以具体接收端功能, 图 9所示结 构通常和图 7或图 8所示结构合并设置在一个通信设备中。
下面再以具体实施例进行详细说明。
实施例一
在编码端, 背景噪声信号被逐帧输入背景噪声分析单元 22, 背景噪声分 析单元 22计算每一个当前信号帧的子带电平 levd[k,i] , 其中 k和 i分别表示 是第 i帧第 k子带的电平并保存在内存中。 子带的计算可以通过滤波器组实 现也可以通过变换的方法实现。
当信号帧积累够一定数量时,背景噪声分析单元 22开始根据保存在内存 中的子带电平, 计算背景噪声谱波动参数 ^ec— rar /, 并在之后收到每一帧 背景噪声帧时更新计算结果。
背景噪声谱波动参数 ^ec— rar /的计算方法为: spec _ var[/] =
Figure imgf000017_0001
其中 N为子带的数量, L为被选为做长时平均的背景噪声信号帧数量 背景噪声谱波动参数 spec_var[i]的计算也可以 于 LSF系数, 即: spec _ var[/] = lsf[k, i]
Figure imgf000017_0002
其中 lsf[k,i]K i帧的第 k hf t, N为 系数数量, L为被选为 做长时平均的背景噪声信号帧数量。
背景噪声分析单元 22 将计算得到的背景噪声谱波动参数输出至背景噪 声分类单元 23。
编码切换单元 24根据背景噪声分类单元 23输出的背景噪声类型信息为 当前背景噪声帧选择对应的 DTX单元。
本实施例中, 定义了两种背景类型: 稳态背景噪声信号和非稳态背景噪 声信号。 背景噪声分类单元 23 通过将背景噪声谱波动参数与一个门限 spec— var— thr 做比较将当前背景噪声划归为稳态或非稳态中的一种。 若 spec—var [i] < spec—var—thr , 当前背景噪声信号被归为稳态背景噪声信号, 否 则被归为非稳态背景噪声信号。
本实施例中, DTX系统有两种不同的工作方案:
方案一采用每 8帧发送一个 SID帧的非连续传输机制, SID帧中只包含 滤波器和能量参数;
方案二采用每 3帧发送一个 SID帧的非连续传输机制, SID帧中除了包 含滤波器, 能量参数外还增加了固定码本参数 (属于激励参数)。
当前背景噪声属于稳态类时, 编码切换单元 24选择工作方案一。 当前背 景噪声属于非稳态类时, 编码切换单元 24选择工作方案二。
每种 SID帧组装时在帧内设置一个 DTX单元指示信息以声明该 SID帧 属于哪种 DTX单元。 本实施例中, DTX单元指示信息可以用 1比特来表示, 0和 1分别表示 DTX单元一和 DTX单元二。
在解码端, 识别单元 60首先根据 SID帧中的 DTX单元指示信息判断出 该 SID帧所属的 DTX单元, 解码切换单元 70将 SID帧输入对应的 CNG单 元 50进行解码重构。 其中:
若 DTX单元指示信息为 0,对应的 CNG单元则按照上述 DTX工作方案 一中的 SID帧格式解码得到滤波器参数和能量参数并对其后的 8个背景噪声 信号帧进行内插;
若 DTX单元指示信息为 1 ,对应的 CNG单元则按照上述 DTX工作方案 二中的 SID帧格式解码得到滤波器参数、 能量参数和固定码本参数并对其后 的 3个背景噪声信号帧进行内插。
实施例二
在编码端, 背景噪声信号被逐帧输入至背景噪声分析单元 22, 背景噪声 分析单元 22计算当前背景噪声信号帧的子带电平 level[k,i] , 帧能量 pow[i]和 短时信噪比 ^wr T/, 并保存在内存中。 其中:
子带电平 level[k, i]的计算可以通过滤波器组实现也可以通过变换的方法 实现; 帧能量的计算方式为: / 0H{ ] = f w/[ ]2 , 其中 N表示总的子带数; 短时信噪比 的计算方式为 : [ ] = ^ , 其 中 bckr _ noise _ po¾[i] bckr— noise _pow[i]为长时背景噪声能量估计。
当背景噪声信号帧积累够一定数量时,背景噪声分析单元 22开始根据 保存在内存中的短时特征参数(子带电平, 帧能量, 短时信噪比)计算背景 噪声能量波动 pow—var[i]、 长时信噪比 snr—long[i]、 长时背景噪声能量估计 bckr— noise _pow[i] , 并在收到每一个背景噪声信号帧时更新计算结果。
除长时信噪比以外, 其余参数计算结果的更新仅发生在当前信号帧为背 景噪声信号帧时, 长时信噪比的更新仅发生在当前信号帧为非背景噪声信号 帧时。
长时信噪比 s«r— 的计算方法为: snr lonsli] = m=iL+1
" L ,其中 为被选为做长时平均的非背景噪声信号帧 数量。
背景噪声能量波动 pow—var[i]的计 方法为
Figure imgf000020_0001
, 其中 为被选为做长时平 均的背景噪声信号帧数量。
长时背景噪声能量估计 bckr— noise ^mv T/的计算方法为:
bckr _ noise _ 个 0
Figure imgf000020_0002
到 1间的比例因子, 本实施例中取值为 5 %。
背景噪声分析单元 22将计算得到的背景噪声能量波动 pow—ναφ] , 长时 信噪比 ^r— 输出至背景噪声分类单元 23。
本实施例中, 定义了四种背景类型: 稳态大 SNR背景噪声信号、 稳态小 SNR背景噪声信号、 非稳态大 SNR背景噪声信号和非稳态小 SNR背景噪声 信号。
背景噪声分类单元 23通过将 pow—var[i] 和 snr—long[i]分 与一个能量波 动门限 pow—var—thr和一个信噪比门限 snr—thr做比较, 将当前背景噪声划归 为 4种背景噪声类型种的一类, 其中:
当 pow—var[ i] > pow—var—thr且 snr—long > snr—thr时, 当前背景为非稳、态 大 SNR背景噪声信号;
当 pow var[i] >pow_var_thr且 snr—long < snr—thr时, 当前背景为非稳、态 小 SNR背景噪声信号;
当 pow var[i] <pow_var_thr L snrjong >snr_thr H† , 当前背景为稳、态 大 SNR背景噪声信号;
当 pow var[i] <pow_var_thr JL snrjong <snr_thr H† , 当前背景为稳、态 小 SNR背景噪声信号。
本实施例中, 一共有四种不同的 DTX单元, 其中:
DTX单元一采用每 8帧发送一个 SID帧的非连续传输机制, SID帧中只 包含滤波器参数和能量参数;
DTX单元二采用每 8帧发送一个 SID帧的非连续传输机制, SID帧中除 包含滤波器参数和能量参数外还包含固定码本参数;
DTX单元三采用每 3帧发送一个 SID帧的非连续传输机制, SID帧中除 包含滤波器参数和能量参数外还包含固定码本参数;
DTX单元四采用全速率编码的连续传输机制。
编码切换单元 24除了接收背景噪声分类单元 23的背景噪声类型信息外, 还与一个切换模式控制指令接口相连。 切换模式控制指令有 5种指示, 分别 表示带宽正常、 带宽较多、 带宽较少、 带宽很多和带宽很少。
切换模式控制指令与 DTX系统的切换模式关系如下:
当切换模式控制指令表示带宽正常时, DTX系统的切换模式为: 对稳态 大 SNR类背景采用 DTX单元一; 对稳态小 SNR类背景采用 DTX单元二; 对非稳态大 SNR类背景采用 DTX单元三;对非稳态小 SNR类背景采用 DTX 单元四。
当切换模式控制指令表示带宽较多时, DTX系统的切换模式为: 对稳态 大 SNR类背景和稳态小 SNR类背景均采用 DTX单元二; 对非稳态大 SNR 类背景和非稳态小 SNR类背景均采用 DTX单元四;
当切换模式控制指令表示带宽较少时, DTX系统的切换模式为: 对稳态 大 SNR类背景和稳态小 SNR类背景均采用 DTX单元一; 对非稳态大 SNR 类背景和非稳态小 SNR类背景均采用 DTX单元三;
当切换模式控制指令表示带宽很多时, DTX系统的切换模式为: 对四种 背景噪声类型 均采用 DTX单元四;
当切换模式控制指令表示带宽很少时, DTX系统的切换模式为: 对四种 背景噪声类型 均采用 DTX单元一。
每种 SID帧组装时在帧内设置一个 DTX单元指示信息以声明该 SID帧 属于哪种 DTX单元。 本实施例中的 DTX单元指示信息可用 2比特来表示, 其中: 00、 01和 10分别表示 DTX单元一、 DTX单元二和 DTX单元三, 方 案四由于是全速率编码所以无需标识出来。 在解码端, 识别单元 60首先根据 SID帧中的 DTX单元指示信息判断出 该 SID帧所属的 DTX单元, 并指示对应的 CNG单元解码重构, 其中:
若 DTX单元指示信息为 00,则按照上述 DTX工作方案一中的 SID帧格 式解码得到滤波器参数和能量参数并对其后的 8 个背景噪声信号帧进行内 插;
若 DTX单元指示信息为 01 ,则按照上述 DTX工作方案二中的 SID帧格 式解码得到激励参数, 滤波器参数和能量参数并对其后的 8个背景噪声信号 帧进行内插。
若 DTX单元指示信息为 10,则按照上述 DTX工作方案三中的 SID帧格 式解码得到滤波器参数、 能量参数和固定码本参数并对其后的 3个背景噪声 信号帧进行内插。
本领域技术人员可以灵活根据信号特征参数划分背景噪声类型, 并设定 切换模式, 这里不再——列举。
综上所述, 本发明实施例提供一种编码方法, 包括:
获取待发送背景噪声信号的至少一个信号特征参数值;
根据所述至少一个信号特征参数值确定背景噪声类型;
根据所述背景噪声类型选择一种 DTX机制将背景噪声信号编码为包含
DTX机制指示信息的 SID帧并非连续发送, 其中每一种 DTX机制中的 SID 帧编码方式和 /或 SID帧非连续发送方式不相同。
进一步, 所述编码方法还包括: 设定不同的 DTX机制选择模式, 即不同 的切换模式,任意两个 DTX机制选择模式之间至少有一个背景噪声类型对应 的 DTX机制不相同; 并根据选定的 DTX机制选择模式, 为各背景噪声类型 确定对应的 DTX机制。
更近一步, 所述方法还包括: 当所述至少一个信号特征参数值为的设定 值时, 将背景噪声信号编码为全速率的语音帧并连续发送。
其中, 信号特征参数值包括如下之一或任意组合: 长时 SNR、 背景噪声 估计电平、 背景噪声能量波动估计、 背景噪声谱波动估计和背景噪声波动频 率。
本发明实施例还提供一种对对应的 SID帧进行解码的方法, 包括: 识别 SID帧中的 DTX机制指示信息, 其中每一种 DTX机制中的 SID帧 编码方式不相同;
根据所述 DTX机制指示信息,采用对应的解码方式解码 SID帧,并重构 为背景噪声信号。
应用本发明实施例提出的技术方案, 可以根据背景噪声的不同类型以及 通信系统的实际状况, 采用不同的 SID帧编码方法和非连续传输机制, 在合 理利用通信系统实际资源的情况下自适应于不同类型背景噪声所要求的编码 精度和时间分辨力, 来达到在合理利用信道资源的前提下在解码端高质量的 提供各种类型背景噪声的目的。
本领域普通技术人员可以理解: 实现上述方法实施例的全部或部分步骤 可以通过程序指令相关的硬件来完成, 前述的程序可以存储于一计算机可读 取存储介质中, 该程序在执行时, 执行包括上述方法实施例的步骤; 而前述 的存储介质包括: R0M、 RAM, 磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是: 以上实施例仅用以说明本发明的技术方案, 而非对其 限制; 尽管参照前述实施例对本发明进行了详细的说明, 本领域的普通技术 人员应当理解: 其依然可以对前述各实施例所记载的技术方案进行修改, 或 者对其中部分技术特征进行等同替换; 而这些修改或者替换, 并不使相应技 术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

权利 要求
1、 一种背景噪声编码装置, 其特征在于, 包括:
背景噪声分析单元,用于获取背景噪声信号的至少一个信号特征参数值; 背景噪声分类单元, 用于根据所述至少一个信号特征参数值确定背景噪 声类型;
编码切换单元和至少两个非连续传输单元, 所述编码切换单元用于根据 所述背景噪声类型将背景噪声信号输入对应的非连续传输单元, 每一个非连 续传输单元用于将背景噪声信号编码为包含非连续传输单元指示信息的静音 描述帧并非连续传输, 其中各非连续传输单元的静音描述帧编码方式和 /或静 音描述帧非连续传输机制不相同。
2、 根据权利要求 1所述的背景噪声编码装置, 其特征在于, 还包括: 指 令接收单元, 用于接收切换模式控制指令并转发给编码切换单元, 所述切换 模式控制指令用于指示编码切换单元使用一种切换模式, 任意两个切换模式 之间至少有一个背景噪声类型对应不同的非连续传输单元。
3、 根据权利要求 1所述的背景噪声编码装置, 其特征在于, 还包括: 语 音编码器, 所述编码切换单元根据背景噪声分类单元识别出的其中一种指定 背景噪声类型, 将背景噪声信号输入语音编码器编码为语音帧并连续输出。
4、 根据权利要求 1、 2或 3所述的背景噪声编码装置, 其特征在于, 所 述非连续传输单元具体包括:
非语音编码器, 用于将背景噪声信号编码为静音描述帧;
静音描述帧发送器, 用于非连续发送所述静音描述帧。
5、一种对权利要求 1所述背景噪声编码装置输出的静音描述帧进行解码 的背景噪声解码装置, 其特征在于, 包括:
第一识别单元, 用于识别静音描述帧中的非连续传输单元指示信息; 解码切换单元和至少两个舒适噪声生成单元, 所述解码切换单元用于根 据所述识别单元的识别结果, 将所述静音描述帧输入对应的舒适噪声生成单 元, 每一个舒适噪声生成单元根据接收的静音描述帧的编码方式对应解码静 音描述帧, 并重构背景噪声信号。
6、 根据权利要求 5所述的背景噪声解码装置, 其特征在于, 还包括: 第二识别单元, 所述第二识别单元用于识别语音帧和静音描述帧, 并将 所述静音描述帧送入第一识别单元, 或者在识别出语音帧时通知所述解码切 换单元;
语音解码器, 所述解码切换单元将第二识别单元识别出的语音帧送入语 音解码器解码并连续输出。
7、 根据权利要求 6所述的背景噪声解码装置, 其特征在于, 所述第一识 别单元和第二识别单元合并设置。
8、 一种通信设备, 包括:
第一语音检测器,用于检测采集的信号中是否包含有效语音并分类输出; 第一语音编码器,用于将包含有效语音的信号编码为语音帧并连续输出; 其特征在于, 还包括背景噪声编码装置, 该背景噪声编码装置具体包括: 背景噪声分析单元, 用于获取不包含有效语音的背景噪声信号的至少一 个信号特征参数值;
背景噪声分类单元, 用于根据所述至少一个信号特征参数值确定背景噪 声类型;
编码切换单元和至少两个非连续传输单元, 所述编码切换单元用于根据 所述背景噪声类型将背景噪声信号输入对应的非连续传输单元, 每一个非连 续传输单元用于将背景噪声信号编码为包含非连续传输单元指示信息的静音 描述帧并非连续传输, 其中各非连续传输单元的静音描述帧编码方式和 /或静 音描述帧非连续传输机制不相同。
9、 根据权利要求 8所述的通信设备, 其特征在于, 所述背景噪声解码装 置还包括: 指令接收单元, 用于接收切换模式控制指令并转发给编码切换单 元, 所述切换模式控制指令用于指示编码切换单元使用一种切换模式, 任意 两个切换模式之间至少有一个背景噪声类型对应不同的非连续传输单元。
10、 根据权利要求 8所述的通信设备, 其特征在于, 所述编码切换单元 还连接所述第一语音编码器, 所述编码切换单元根据背景噪声分类单元识别 出的其中一种指定背景噪声类型, 将背景噪声信号输入第一语音编码器编码 为语音帧并连续输出。
11、 根据权利要求 8所述的通信设备, 其特征在于, 所述背景噪声解码 装置还包括: 第二语音编码器, 所述编码切换单元根据背景噪声分类单元识 别出的其中一种指定背景噪声类型, 将背景噪声信号输入第二语音编码器编 码为语音帧并连续输出。
12、 根据权利要求 8、 9 、 10或 11所述的通信设备, 其特征在于, 所述 非连续传输单元具体包括:
非语音编码器, 用于根据设定的静音描述帧编码方式将背景噪声信号编 码为静音描述帧;
静音描述帧发送器, 用于根据设定的非连续传输机制发送所述静音描述 帧。
13、 根据权利要求 8所述的通信设备, 其特征在于, 还包括:
第一识别单元, 用于识别静音描述帧中的非连续传输单元指示信息; 解码切换单元和至少两个舒适噪声生成单元, 所述解码切换单元用于根 据所述识别单元的识别结果, 将所述静音描述帧输入对应的舒适噪声生成单 元, 每一个舒适噪声生成单元根据接收的静音描述帧的编码方式对应解码静 音描述帧, 并重构背景噪声信号。
14、 根据权利要求 13所述的通信设备, 其特征在于, 还包括: 第二识别单元, 所述第二识别单元用于识别语音帧和静音描述帧, 并将 所述静音描述帧送入第一识别单元, 或者在识别出语音帧时通知所述解码切 换单元; 语音解码器, 所述解码切换单元将第二识别单元识别出的语音帧送入语 音解码器解码并连续输出。
15、 根据权利要求 14所述的通信设备, 其特征在于, 所述第一识别单元 和第二识别单元合并设置。
16、 一种通信设备, 包括背景噪声解码装置, 其特征在于, 所述背景噪 声解码装置包括:
第一识别单元, 用于识别静音描述帧中的非连续传输单元指示信息; 解码切换单元和至少两个舒适噪声生成单元, 所述解码切换单元用于根 据所述识别单元的识别结果, 将所述静音描述帧输入对应的舒适噪声生成单 元, 每一个舒适噪声生成单元根据接收的静音描述帧的编码方式对应解码静 音描述帧, 并重构背景噪声信号。
17、 根据权利要求 16所述的通信设备, 其特征在于, 还包括: 第二识别单元, 所述第二识别单元用于识别语音帧和静音描述帧, 并将 所述静音描述帧送入第一识别单元, 或者在识别出静音描述帧时通知所述解 码切换单元;
语音解码器, 所述解码切换单元将第二识别单元识别出的语音帧送入语 音解码器解码并输出。
18、 根据权利要求 17所述的通信设备, 其特征在于, 所述第一识别单元 和第二识别单元合并设置。
19、 一种背景噪声编码方法, 其特征在于, 包括:
获取背景噪声信号的至少一个信号特征参数值;
根据所述至少一个信号特征参数值确定背景噪声类型;
根据所述背景噪声类型选择一种非连续传输机制将背景噪声信号编码为 包含非连续传输机制指示信息的静音描述帧并非连续发送, 其中每一种非连 续传输机制中的静音描述帧编码方式和 /或静音描述帧非连续发送方式不相 同。
20、 根据权利要求 19所述的编码方法, 其特征在于, 所述根据背景噪声 类型选择一种非连续传输机制是: 根据设定的非连续传输机制选择模式中背 景噪声类型和非连续传输机制之间的对应关系进行选择的, 任意两个切换模 式之间至少有一个背景噪声类型对应的非连续传输机制不相同。
21、 根据权利要求 19所述的编码方法, 其特征在于, 还包括: 当所述至 少一个信号特征参数值满足设定条件时, 将背景噪声信号编码为全速率的语 音帧并连续发送。
22、 根据权利要求 19、 20或 21所述的编码方法, 其特征在于, 所述信 号特征参数包括如下之一或任意组合: 长时 SNR、 背景噪声估计电平、 背景 噪声能量波动估计、 背景噪声谱波动估计和背景噪声波动频率。
23、 根据权利要求 22所述的编码方法, 其特征在于, 根据各信号特征参 数值的大小, 所述背景噪声类型包括稳态背景噪声信号和非稳态背景噪声信 号。
24、 根据权利要求 23所述的编码方法, 其特征在于, 当所述信号特征参 数包括长时 SNR时:
所述稳态背景噪声信号进一步包括:稳态大 SNR背景噪声信号和稳态小 SNR背景噪声信号;
所述非稳态背景噪声信号进一步包括: 非稳态大 SNR背景噪声信号和非 稳态小 SNR背景噪声信号。
25、 根据权利要求 19所述的编码方法, 其特征在于, 不同静音描述帧编 码方式之间的区别包括: 至少一个静音描述帧编码参数不相同, 或者同一静 音描述帧编码参数的量化精度不相同。
26、 根据权利要求 25所述的编码方法, 其特征在于, 所述的静音描述帧 编码参数包括合成滤波器参数和激励参数。
27、 根据权利要求 26所述的编码方法, 其特征在于, 所述的激励参数包 括自适应码本参数和 /或固定码本参数。
28、 根据权利要求 19所述的编码方法, 其特征在于, 不同静音描述帧非 连续发送方式之间的区别包括: 发送的相邻两个静音描述帧之间的传输间隔 不相同。
29、 根据权利要求 28所述的编码方法, 其特征在于, 所述的传输间隔根 据背景信号的变化自适应确定, 并且不同静音描述帧非连续发送方式之间的 最小间隔不相同。
30、 根据权利要求 28所述的编码方法, 其特征在于, 各静音描述帧非连 续发送方式的传输间隔为不相同的固定值。
31、一种对权利要求 19所述方法生成的静音描述帧进行解码的方法, 其 特征在于, 包括:
识别静音描述帧中的非连续传输机制指示信息, 其中每一种非连续传输 机制中的静音描述帧编码方式不相同;
根据所述非连续传输机制指示信息, 采用对应的解码方式解码静音描述 帧, 并重构为背景噪声信号。
32、 一种计算机可读取存储介质, 其特征在于, 所述计算机可读取存储 介质包括计算机程序代码, 当所述计算机程序代码被一个计算机执行的时候, 所述计算机程序代码可以使得所述计算机执行权利要求 19至 31项中任意一 项的步骤。
PCT/CN2008/070886 2007-06-05 2008-05-06 Appareil de codage et de décodage et procédé de traitement du bruit de fond et dispositif de communication utilisant cet appareil WO2008148321A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200710110573.X 2007-06-05
CN 200710110573 CN101320563B (zh) 2007-06-05 2007-06-05 一种背景噪声编码/解码装置、方法和通信设备

Publications (1)

Publication Number Publication Date
WO2008148321A1 true WO2008148321A1 (fr) 2008-12-11

Family

ID=40093176

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2008/070886 WO2008148321A1 (fr) 2007-06-05 2008-05-06 Appareil de codage et de décodage et procédé de traitement du bruit de fond et dispositif de communication utilisant cet appareil

Country Status (2)

Country Link
CN (1) CN101320563B (zh)
WO (1) WO2008148321A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447601B2 (en) 2009-10-15 2013-05-21 Huawei Technologies Co., Ltd. Method and device for tracking background noise in communication system
US20190027154A1 (en) * 2014-07-28 2019-01-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for comfort noise generation mode selection
CN111783434A (zh) * 2020-07-10 2020-10-16 苏州思必驰信息科技有限公司 提升回复生成模型抗噪能力的方法及系统
CN114448957A (zh) * 2022-01-28 2022-05-06 上海小度技术有限公司 音频数据传输方法和装置
CN118055442A (zh) * 2024-04-11 2024-05-17 中国电子科技集团公司第五十四研究所 一种手机直连卫星通信系统的非连续业务传输方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760441B (zh) * 2007-06-05 2014-03-12 华为技术有限公司 一种背景噪声编码/解码装置、方法和通信设备
CN103187065B (zh) 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
US9179404B2 (en) * 2013-03-25 2015-11-03 Qualcomm Incorporated Method and apparatus for UE-only discontinuous-TX smart blanking
CN105225668B (zh) 2013-05-30 2017-05-10 华为技术有限公司 信号编码方法及设备
CN104378774A (zh) * 2013-08-15 2015-02-25 中兴通讯股份有限公司 一种语音质量处理的方法及装置
CN103617797A (zh) * 2013-12-09 2014-03-05 腾讯科技(深圳)有限公司 一种语音处理方法,及装置
CN105336339B (zh) 2014-06-03 2019-05-03 华为技术有限公司 一种语音频信号的处理方法和装置
CN105356886B (zh) * 2015-06-26 2021-03-26 深圳市国电科技通信有限公司 基于压缩感知的电力线噪声压缩方法及其装置
MX2019003417A (es) * 2016-09-28 2019-10-07 Huawei Tech Co Ltd Metodo, aparato y sistema de procesamiento de señales de audio de multicanal.
CN110634469B (zh) * 2019-09-27 2022-03-11 腾讯科技(深圳)有限公司 基于人工智能的语音信号处理方法、装置及存储介质
CN111586245B (zh) * 2020-04-07 2021-12-10 深圳震有科技股份有限公司 一种静音包的传输控制方法、电子设备及存储介质
CN112037803B (zh) * 2020-05-08 2023-09-29 珠海市杰理科技股份有限公司 音频编码方法及装置、电子设备、存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6144936A (en) * 1994-12-05 2000-11-07 Nokia Telecommunications Oy Method for substituting bad speech frames in a digital communication system
CN1273663A (zh) * 1998-05-26 2000-11-15 皇家菲利浦电子有限公司 具有改进的语音编码器的传输系统
CN1318187A (zh) * 1998-09-16 2001-10-17 艾利森电话股份有限公司 具备背景噪声再现的语音编码
CN1327574A (zh) * 1998-12-07 2001-12-19 三菱电机株式会社 声音解码装置和声音解码方法
CN1331826A (zh) * 1998-12-21 2002-01-16 高通股份有限公司 可变速率语音编码
CN1367918A (zh) * 1999-06-07 2002-09-04 艾利森公司 用参数噪声模型统计量产生舒适噪声的方法及装置
US6631352B1 (en) * 1999-01-08 2003-10-07 Matushita Electric Industrial Co. Ltd. Decoding circuit and reproduction apparatus which mutes audio after header parameter changes
CN1632862A (zh) * 2004-12-31 2005-06-29 苏州大学 一种低比特变速率语言编码器

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6144936A (en) * 1994-12-05 2000-11-07 Nokia Telecommunications Oy Method for substituting bad speech frames in a digital communication system
CN1273663A (zh) * 1998-05-26 2000-11-15 皇家菲利浦电子有限公司 具有改进的语音编码器的传输系统
CN1318187A (zh) * 1998-09-16 2001-10-17 艾利森电话股份有限公司 具备背景噪声再现的语音编码
CN1327574A (zh) * 1998-12-07 2001-12-19 三菱电机株式会社 声音解码装置和声音解码方法
CN1331826A (zh) * 1998-12-21 2002-01-16 高通股份有限公司 可变速率语音编码
US6631352B1 (en) * 1999-01-08 2003-10-07 Matushita Electric Industrial Co. Ltd. Decoding circuit and reproduction apparatus which mutes audio after header parameter changes
CN1367918A (zh) * 1999-06-07 2002-09-04 艾利森公司 用参数噪声模型统计量产生舒适噪声的方法及装置
CN1632862A (zh) * 2004-12-31 2005-06-29 苏州大学 一种低比特变速率语言编码器

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447601B2 (en) 2009-10-15 2013-05-21 Huawei Technologies Co., Ltd. Method and device for tracking background noise in communication system
US20190027154A1 (en) * 2014-07-28 2019-01-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for comfort noise generation mode selection
CN113140224A (zh) * 2014-07-28 2021-07-20 弗劳恩霍夫应用研究促进协会 用于舒适噪声生成模式选择的装置和方法
US11250864B2 (en) * 2014-07-28 2022-02-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for comfort noise generation mode selection
US20220208201A1 (en) * 2014-07-28 2022-06-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for comfort noise generation mode selection
CN113140224B (zh) * 2014-07-28 2024-02-27 弗劳恩霍夫应用研究促进协会 用于舒适噪声生成模式选择的装置和方法
US12009000B2 (en) 2014-07-28 2024-06-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for comfort noise generation mode selection
CN111783434A (zh) * 2020-07-10 2020-10-16 苏州思必驰信息科技有限公司 提升回复生成模型抗噪能力的方法及系统
CN111783434B (zh) * 2020-07-10 2023-06-23 思必驰科技股份有限公司 提升回复生成模型抗噪能力的方法及系统
CN114448957A (zh) * 2022-01-28 2022-05-06 上海小度技术有限公司 音频数据传输方法和装置
CN114448957B (zh) * 2022-01-28 2024-03-29 上海小度技术有限公司 音频数据传输方法和装置
CN118055442A (zh) * 2024-04-11 2024-05-17 中国电子科技集团公司第五十四研究所 一种手机直连卫星通信系统的非连续业务传输方法

Also Published As

Publication number Publication date
CN101320563A (zh) 2008-12-10
CN101320563B (zh) 2012-06-27

Similar Documents

Publication Publication Date Title
WO2008148321A1 (fr) Appareil de codage et de décodage et procédé de traitement du bruit de fond et dispositif de communication utilisant cet appareil
JP7124170B2 (ja) セカンダリチャンネルを符号化するためにプライマリチャンネルのコーディングパラメータを使用するステレオ音声信号を符号化するための方法およびシステム
KR100964402B1 (ko) 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
JP4444749B2 (ja) 減少レート、可変レートの音声分析合成を実行する方法及び装置
CA2833874C (en) Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium
KR100883656B1 (ko) 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
KR101698905B1 (ko) 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법
MXPA04011751A (es) Metodo y dispositivo para ocultamiento de borrado adecuado eficiente en codecs de habla de base predictiva lineal.
KR20030041169A (ko) 무성 음성의 코딩 방법 및 장치
US6424942B1 (en) Methods and arrangements in a telecommunications system
WO2005091273A2 (en) Method of comfort noise generation for speech communication
CN103680509B (zh) 一种语音信号非连续传输及背景噪声生成方法
CN1244090C (zh) 具备背景噪声再现的语音编码
CN102760441B (zh) 一种背景噪声编码/解码装置、方法和通信设备
CN110728986B (zh) 立体声信号的编码方法、解码方法、编码装置和解码装置
KR102677745B1 (ko) 2차 채널을 인코딩하기 위하여 1차 채널의 코딩 파라메타들을 이용하여 스테레오 사운드 신호를 인코딩하는 방법 및 시스템
Xinfu et al. AMR vocoder and its multi-channel implementation based on a single DSP chip

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08734242

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 08734242

Country of ref document: EP

Kind code of ref document: A1