WO2016024853A1 - 음질 향상 방법 및 장치, 음성 복호화방법 및 장치와 이를 채용한 멀티미디어 기기 - Google Patents

음질 향상 방법 및 장치, 음성 복호화방법 및 장치와 이를 채용한 멀티미디어 기기 Download PDF

Info

Publication number
WO2016024853A1
WO2016024853A1 PCT/KR2015/008567 KR2015008567W WO2016024853A1 WO 2016024853 A1 WO2016024853 A1 WO 2016024853A1 KR 2015008567 W KR2015008567 W KR 2015008567W WO 2016024853 A1 WO2016024853 A1 WO 2016024853A1
Authority
WO
WIPO (PCT)
Prior art keywords
low frequency
shape
frequency spectrum
signal
high frequency
Prior art date
Application number
PCT/KR2015/008567
Other languages
English (en)
French (fr)
Inventor
주기현
빅토로비치 포로브안톤
새르기비치 오시포브콘스탄틴
오은미
박우정
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to US15/504,213 priority Critical patent/US10304474B2/en
Priority to EP15832602.5A priority patent/EP3182412B1/en
Publication of WO2016024853A1 publication Critical patent/WO2016024853A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Definitions

  • the present disclosure relates to a method and apparatus for improving sound quality based on bandwidth extension, a voice decoding method and apparatus, and a multimedia apparatus employing the same.
  • the quality of the voice signal provided from the transmitter may be improved through preprocessing. Specifically, the sound quality may be improved by identifying the characteristics of the ambient noise and removing the noise from the voice signal provided by the transmitter. As another example, the sound quality may be improved by equalizing the received voice signal restored by the receiver in consideration of the characteristics of the user's ear. As another example, the receiver may include various presets in consideration of general ear characteristics, and may provide improved sound quality for the reconstructed voice signal by selecting and using the terminal user.
  • the call quality can be improved by extending the frequency bandwidth of the codec used for the call in the terminal, in particular, there is a demand for a technology that can expand the bandwidth without changing the configuration of the standardized codec.
  • Some embodiments may provide a method and apparatus for improving sound quality based on bandwidth extension.
  • some embodiments may provide a voice decoding method and apparatus for improving sound quality based on bandwidth extension.
  • some embodiments may provide a multimedia device employing a function of improving sound quality based on bandwidth extension.
  • a first aspect of the disclosure includes generating a high frequency signal utilizing a low frequency signal in the time domain; Combining the low frequency signal and the generated high frequency signal; Converting the combined signal into a frequency domain; Determining a class of the decoded voice signal; Predicting an envelope from the low frequency spectrum obtained in the transforming step, based on the class; And generating a final high frequency spectrum by applying the predicted envelope to the high frequency spectrum obtained in the converting step.
  • Predicting the envelope includes predicting energy from a low frequency spectrum of the speech signal; Predicting a shape from a low frequency spectrum of the speech signal; And calculating the envelope using the predicted energy and the predicted shape.
  • Predicting the energy may include applying a limiter to the predicted energy.
  • Predicting the shape may predict the voiced sound shape and the unvoiced sound shape, respectively, and predict the shape from the voiced sound shape and the unvoiced sound shape based on the class and the voicing level.
  • Predicting the shape comprises constructing an initial shape for a high frequency spectrum from a low frequency spectrum of the speech signal; And performing shape rotation with respect to the initial shape.
  • Predicting the shape may further include adjusting dynamics with respect to the rotated initial shape.
  • the method may further comprise equalizing the at least one of the low frequency spectrum and the high frequency spectrum.
  • the method includes equalizing at least one of a low frequency spectrum and a high frequency spectrum; Inversely converting the equalized spectrum into a time domain; And post-processing the signal converted into the time domain.
  • the equalizing and converting to the time domain may be performed in a sub-frame unit, and the post-processing may be performed in a sub-sub frame unit.
  • the post-processing step may include calculating low frequency energy and high frequency energy; Estimating a gain for matching the low frequency energy and the high frequency energy; And applying the estimated gain to a high frequency time domain signal.
  • the estimating of the gain may include limiting the gain to the threshold when the estimated gain is greater than a predetermined threshold.
  • a second aspect of the present disclosure includes the steps of determining the class of the speech signal from the features of the decoded speech signal; Generating a modified low frequency spectrum by mixing the low frequency spectrum and the random noise based on the class; Predicting an envelope of a high frequency band from the low frequency spectrum based on the class; Applying the predicted envelope to a high frequency spectrum generated from the modified low frequency spectrum; And generating a speech signal having an extended bandwidth by using the decoded speech signal and the high frequency spectrum to which the envelope is applied.
  • Generating the modified low frequency spectrum may include determining a first weight based on a prediction error; Predicting a second weight based on the first weight and the class; Whitening the low frequency spectrum based on the second weight; And mixing the whitened low frequency spectrum and random noise based on the second weight to generate the modified low frequency spectrum.
  • Each step may be performed in sub-frame units.
  • the class may be composed of a plurality of candidate classes based on low frequency energy.
  • a third aspect of the present disclosure includes a processor, wherein the processor determines a class of the speech signal from characteristics of a decoded speech signal, and based on the class, a low frequency spectrum modified by mixing the low frequency spectrum with random noise And predict the envelope of the high frequency band from the low frequency spectrum based on the class, apply the predicted envelope to the high frequency spectrum generated from the modified low frequency spectrum, and decode the speech signal and the envelope. It is possible to provide a sound quality improving apparatus for generating an audio signal having an extended bandwidth using the applied high frequency spectrum.
  • the speech decoding unit for decoding the encoded bitstream; And a post processor configured to generate wideband voice data having an extended bandwidth from the decoded voice data, wherein the post processor determines a class of the voice signal from a feature of the decoded voice signal, and based on the class, Mix the spectrum and the random noise to produce a modified low frequency spectrum, based on the class, predict the envelope of the high frequency band from the low frequency spectrum, and apply the predicted envelope to the high frequency spectrum generated from the modified low frequency spectrum.
  • a speech decoding apparatus for generating a speech signal having an extended bandwidth using the decoded speech signal and a high frequency spectrum to which the envelope is applied may be provided.
  • a fifth aspect of the present disclosure includes a communication unit for receiving an encoded voice packet; A voice decoder which decodes the received voice packet; And a post processor configured to generate wideband voice data having an extended bandwidth from the decoded voice data, wherein the post processor determines a class of the voice signal from a feature of the decoded voice signal, and based on the class, Mix the spectrum and the random noise to produce a modified low frequency spectrum, based on the class, predict the envelope of the high frequency band from the low frequency spectrum, and apply the predicted envelope to the high frequency spectrum generated from the modified low frequency spectrum
  • the apparatus may provide a multimedia device for generating a voice signal having an extended bandwidth by using the decoded voice signal and the high frequency spectrum to which the envelope is applied.
  • the decoder can obtain a wideband signal having an extended bandwidth from the narrowband voice signal, and as a result, can generate a reconstructed signal with improved sound quality.
  • FIG. 1 is a block diagram showing a configuration of a voice decoding apparatus according to an embodiment.
  • FIG. 2 is a block diagram illustrating some components of a device having a sound quality improving function according to an exemplary embodiment.
  • FIG. 3 is a block diagram illustrating a configuration of an apparatus for improving sound quality according to an exemplary embodiment.
  • FIG. 4 is a block diagram illustrating a configuration of a sound quality improving apparatus according to another embodiment.
  • FIG. 5 is a diagram illustrating an example of framing for bandwidth extension processing.
  • FIG. 6 is a diagram illustrating an example of a band configuration for bandwidth extension processing.
  • FIG. 7 is a block diagram illustrating a configuration of a signal classification module according to an embodiment.
  • FIG. 8 is a block diagram illustrating a configuration of an envelope prediction module according to an embodiment.
  • FIG. 9 is a block diagram illustrating a detailed configuration of an energy predictor illustrated in FIG. 8.
  • FIG. 10 is a block diagram illustrating a detailed configuration of a shape predictor illustrated in FIG. 8.
  • 11 is a diagram illustrating an example of a method of generating an unvoiced sound shape and a voiced sound shape.
  • FIG. 12 is a block diagram illustrating a configuration of a low frequency excitation strain module according to an embodiment.
  • FIG. 13 is a block diagram illustrating a configuration of a high frequency excitation generating module according to an exemplary embodiment.
  • FIG. 14 is a diagram illustrating an example of transposing and folding.
  • 15 is a block diagram illustrating a configuration of an equalization module according to an embodiment.
  • 16 is a block diagram illustrating a configuration of a time domain post-processing module according to an embodiment.
  • 17 is a block diagram showing a configuration of a sound quality improving apparatus according to another embodiment.
  • FIG. 18 is a block diagram illustrating a configuration of a shape predictor in FIG. 8.
  • FIG. 19 is a view for explaining the operation of the class determining unit in FIG. 7.
  • 20 is a flowchart illustrating a sound quality improving method according to an embodiment.
  • FIG. 1 is a block diagram showing a configuration of a voice decoding apparatus 100 according to an embodiment.
  • voice a sound including audio and / or voice may be referred to.
  • the apparatus 100 illustrated in FIG. 1 may include a decoder 110 and a post processor 130.
  • the decoder 110 and the post processor 130 may be implemented as separate processors or integrated into one processor.
  • the decoder 110 may perform decoding on a voice call packet received through an antenna (not shown).
  • the decoder 110 may decode the bitstream stored in the apparatus 100.
  • the decoder 110 may provide the decoded voice data to the post processor 130.
  • the decoder 110 may use a standardized codec, but is not limited thereto.
  • the decoder 110 may perform decoding using an adaptive multi-rate (AMR) codec, which is a narrowband codec.
  • AMR adaptive multi-rate
  • the post processor 130 may perform post processing for improving sound quality on the decoded voice data provided from the decoder 110.
  • the post processor 130 may include a broadband bandwidth expansion module.
  • the post processor 130 may increase the naturalness and the realism of sound by extending the bandwidth of the voice data decoded by the narrowband codec by the decoder 110 to a wide bandwidth.
  • the bandwidth extension processing applied to the post-processing unit 130 is largely a guided method for providing additional information for bandwidth extension processing at the transmitter and a non-guided that does not provide additional information for bandwidth extension processing at the transmitter. non-guided, or blind.
  • the guided method may require a configuration change of the call codec at the transmitting end.
  • the blind system can improve the sound quality by changing the post-processing portion at the receiving end without changing the configuration of the call codec at the transmitting end.
  • FIG. 2 is a block diagram illustrating a partial configuration of a device 200 having a sound quality improving function according to an exemplary embodiment.
  • the device 200 of FIG. 2 may correspond to various multimedia devices such as a mobile phone or a tablet.
  • the device 200 illustrated in FIG. 2 may include a communication unit 210, a storage unit 230, a decoder 250, a post processor 270, and an output unit 290.
  • the decoder 250 and the post processor 270 may be implemented as separate processors or integrated into one processor.
  • the device 200 may include a user interface.
  • the communication unit 210 may receive a voice call packet from the outside through a transmission / reception antenna.
  • the storage unit 230 may be connected to an external device to receive and store the encoded bitstream from the external device.
  • the decoder 250 may decode the received voice call packet or the encoded bitstream.
  • the decoder 250 may provide the decoded voice data to the post processor 270.
  • the decoder 250 may use a standardized codec, but is not limited thereto.
  • the decoder 250 may include a narrowband codec, and an example of a narrowband codec may include an adaptive multi-rate (AMR) codec.
  • AMR adaptive multi-rate
  • the post processor 270 may perform post processing for improving sound quality on the decoded voice data provided from the decoder 250.
  • the post processor 270 may include a broadband bandwidth expansion module.
  • the post processor 270 may increase the naturalness and the realism of sound by extending the bandwidth of the speech data decoded by the narrowband codec by the decoder 250 to a wide bandwidth.
  • the bandwidth extension processing performed by the post processor 270 is largely a guided method for providing additional information for bandwidth extension processing at the transmitting end and a non-guided that does not provide additional information for bandwidth extension processing at the transmitting end. non-guided, or blind.
  • the guided method may require a configuration change of the call codec at the transmitting end.
  • the blind system can improve the sound quality by changing the post-processing at the receiving end without changing the configuration of the call codec at the transmitting end.
  • the post processor 270 may convert the voice data subjected to the bandwidth extension process into an analog signal.
  • the output unit 290 may output an analog voice signal provided from the post processor 270.
  • the output unit 290 may be replaced by a receiver, a speaker, earphones, or headphones.
  • the output unit 290 may be connected to the post processor 270 by wire or wirelessly.
  • FIG. 3 is a block diagram illustrating a configuration of the sound quality improving apparatus 300 according to an exemplary embodiment, and may correspond to the post-processing units 130 and 270 of FIG. 1 or 2.
  • the apparatus 300 illustrated in FIG. 3 includes a converter 310, a signal classifier 320, a low frequency spectrum modifier 330, a high frequency spectrum generator 340, an equalizer 350, and a time domain post-processor ( 360).
  • Each component may be implemented as a separate processor or integrated into at least one processor.
  • the equalizer 350 and the time domain post processor 360 may be provided as an option.
  • the converter 310 may convert a decoded narrowband voice signal, for example, a core signal, into a frequency domain signal.
  • the converted frequency domain signal may be a low frequency spectrum.
  • the converted frequency domain signal may be referred to as a core spectrum.
  • the signal classifier 320 may classify the voice signal based on the feature of the voice signal to determine the type or class.
  • the feature of the voice signal one or both of a time domain feature and a frequency domain feature may be used.
  • the time domain feature and the frequency domain feature may include various known parameters.
  • the low frequency spectrum modifying unit 330 may modify the frequency domain signal, that is, the low frequency spectrum or the low frequency excitation spectrum, from the converter 310 based on the class of the voice signal.
  • the high frequency spectrum generator 340 obtains a high frequency excitation spectrum using the modified low frequency spectrum or the low frequency excitation spectrum, predicts an envelope from the low frequency spectrum based on the class of the speech signal, and applies the envelope predicted to the high frequency excitation spectrum.
  • a high frequency spectrum can be generated.
  • the equalizer 350 may perform an equalization process on the generated high frequency spectrum.
  • the time domain post processor 360 may convert the equalized high frequency spectrum into a high frequency time domain signal, combine the low frequency time domain signal to generate a wideband voice signal, that is, an improved voice signal, and perform post processing such as filtering. .
  • FIG. 4 is a block diagram illustrating a configuration of the sound quality improving apparatus 400 according to another exemplary embodiment, and may correspond to the post-processing units 130 and 270 of FIG. 1 or 2.
  • the apparatus 400 illustrated in FIG. 4 includes an upsampling unit 431, a converter 433, a signal classifier 435, a low frequency spectral transform unit 437, a high frequency excitation generator 439, and an envelope predictor ( 441, an envelope applying unit 443, an equalizer 445, an inverse transform unit 447, and a time domain post-processing unit 449.
  • the high frequency excitation generator 439, the envelope predictor 441, and the envelope applying unit 443 may correspond to the high frequency spectrum generator 340 of FIG. 3.
  • Each component may be implemented as a separate processor or integrated into at least one processor.
  • the upsampling unit 431 may upsample the decoded N KHz sampling rate signal. For example, upsampling can generate a 16 KHz sampling rate signal from a 8 KHz sampling rate signal.
  • the upsampling unit 431 may be provided as an option.
  • the upsampled signal may be provided directly to the converter 433 without passing through the upsampler 431.
  • the decoded N KHz sampling rate signal may be a narrowband time domain signal.
  • the converter 433 may generate a frequency domain signal, that is, a low frequency spectrum by converting the upsampled signal.
  • the conversion process may include, but is not limited to, Modified Discrete Cosine Transform (MDCT), Fast Fourier Transform (FFT), Modified Discrete Cosine Transform and Modified Discrete Sine Transform (MDCT + MDST), and Quadrature Mirror Filter (QMF).
  • MDCT Modified Discrete Cosine Transform
  • FFT Fast Fourier Transform
  • MDCT + MDST Modified Discrete Cosine Transform
  • QMF Quadrature Mirror Filter
  • the low frequency spectrum may mean a low band or a core spectrum.
  • the signal classifier 435 may extract a feature of the signal by using the upsampled signal and the frequency domain signal, and determine a class, that is, a type, of the voice signal based on the extracted feature. Since the upsampled signal is a time domain signal, the signal classifier 435 may extract a feature for each of the time domain signal and the frequency domain signal. The class information generated by the signal classifier 435 may be provided to the low frequency spectrum modifier 437 and the envelope predictor 441.
  • the low frequency spectrum modifying unit 437 may take a frequency domain signal provided from the converting unit 433 and convert it into a low frequency spectrum which is a signal suitable for bandwidth extension processing based on the class information provided from the signal classifying unit 435. have.
  • the low frequency spectrum modifying unit 437 may provide the modified low frequency spectrum to the high frequency excitation generating unit 439.
  • the low frequency excitation spectrum may be used instead of the low frequency spectrum.
  • the high frequency excitation generator 439 may generate a high frequency excitation spectrum using the modified low frequency spectrum.
  • the modified low frequency spectrum is obtained from the original low frequency spectrum, and the high frequency excitation spectrum may be a simulated spectrum based on the modified low frequency spectrum.
  • the high frequency excitation spectrum may mean a high band excitation spectrum.
  • the envelope predictor 441 may predict the envelope by inputting the frequency domain signal provided from the converter 433 and the class information provided from the signal classifier 435.
  • the envelope applying unit 443 may generate a high frequency spectrum by applying the predicted envelope provided from the envelope predicting unit 441 to the high frequency excitation spectrum provided from the high frequency excitation generating unit 439.
  • the equalizer 445 may perform an equalization process for the high frequency band by using the high frequency spectrum provided from the envelope applying unit 243 as an input. Meanwhile, the low frequency spectrum from the converter 433 may also be input to the equalizer 445 through various paths. In this case, the equalizer 445 may selectively perform an equalization process for the low frequency band and the high frequency band, or perform an equalization process for the entire band.
  • the equalizing process can use various known methods. For example, adaptive equalization may be performed for each band.
  • the inverse transformer 447 may inversely transform the high frequency spectrum provided from the equalizer 445 to generate a time domain signal. Meanwhile, the inverse transformer 447 may also be provided with the low frequency spectrum in which the equalization process is performed from the equalizer 445. In this case, the inverse transform unit 247 may generate the low frequency time domain signal and the high frequency time domain signal by inversely converting the low frequency spectrum and the high frequency spectrum separately. According to an embodiment, the low frequency time domain signal may use the signal of the upsampling unit 431 as it is, and the inverse transformer 447 may generate only the high frequency time domain signal. In this case, since the low frequency time domain signal is the same as the original speech signal, it can be processed without delay occurrence.
  • the time domain post processor 449 post-processes the low frequency time domain signal and the high frequency time domain signal provided from the inverse transformer 447 to suppress noise, and to postprocess the low frequency time domain signal and the high frequency time domain signal. Can be synthesized to produce a wideband time domain signal.
  • the signal generated from the time domain post processor 449 may be a signal of 2 * N or M * N (M is 2 or more) KHz sampling rate.
  • the time domain post processor 449 may be provided as an option.
  • both the low frequency time domain signal and the high frequency time domain signal may be signals that have been subjected to equalization processing.
  • the low frequency time domain signal may be an original narrowband voice signal
  • the high frequency time domain signal may be a signal on which equalization processing is performed.
  • the high frequency spectrum may be generated through prediction from the narrow band spectrum.
  • FIG. 5 is a diagram illustrating an example of framing for bandwidth extension processing.
  • one frame may consist of four sub-frames, for example.
  • one sub-frame may consist of 5 ms.
  • the block represented by the dotted line means the last sub-frame of the previous frame, that is, the last end frame, and the four blocks represented by the solid line may mean four sub-frames of the current frame.
  • windowing may be performed on the last sub-frame of the previous frame and the first sub-frame of the current frame.
  • the windowed signal can be applied to the bandwidth extension process.
  • the framing of FIG. 5 can be applied when performing a conversion process using MDCT. On the other hand, different framing may be applied in the case of another type of conversion process.
  • each sub-frame may be used as a basic unit of bandwidth extension processing.
  • the upsampling unit 431 to the time domain postprocessor 449 may operate in sub-frame units. That is, the bandwidth extension process for one frame may be completed through four operations.
  • the time domain post processor 449 may perform post processing on one sub-frame in units of sub-sub-frames.
  • One sub-frame may consist of four sub-sub-frames. According to this, one frame may consist of 16 sub-sub-frames. The number of subframes constituting the frame and the number of sub-subframes constituting the subframe may be changed.
  • FIG. 6 is a diagram illustrating an example of a band configuration for bandwidth extension processing, and assumes wide-band bandwidth expansion processing. Specifically, an example of generating a signal of 16 KHz sampling rate by upsampling a signal of 8 KHz sampling rate and generating a 4 to 8 KHz spectrum using a signal of 16 KHz sampling rate.
  • the envelope band B E is composed of 20 bands of the entire frequency band, and the whitening and weighting band B W is composed of 8 bands. At this time, each band may be configured uniformly or nonuniformly according to the frequency band.
  • FIG. 7 is a block diagram illustrating a signal classification module 700 according to an exemplary embodiment, and may correspond to the signal classification unit 435 of FIG. 4.
  • the module 700 illustrated in FIG. 7 may include a frequency domain feature extractor 710, a time domain feature extractor 730, and a class determiner 750. Each component may be implemented as a separate processor or integrated into at least one processor.
  • the frequency domain feature extractor 710 may extract the frequency domain feature from the frequency domain signal, that is, the spectrum, provided from the converter 433 of FIG. 4.
  • the time domain feature extractor 730 may extract the time domain feature from the time domain signal provided from the upsampling unit 431 of FIG. 2.
  • the class determiner 750 may generate the class information by determining the class of the voice signal, for example, the class of the current sub-frame, from the frequency domain feature and the time domain feature.
  • the class information may include a single class or a plurality of candidate classes.
  • the class determiner 750 may obtain the voicing level from the class determined for the current sub-frame.
  • the determined class may be a class having the highest probability value.
  • the voicing levels are mapped for each class, and a voicing level corresponding to the determined class may be obtained.
  • the final voice level of the current sub-frame may be obtained using the voice level of the current sub-frame and the voice level of at least one previous sub-frame.
  • Examples of the features extracted by the frequency domain feature extractor 710 may include Centroid (C) and Energy Quotient (E), but are not limited thereto.
  • Centroid (C) may be defined as in Equation 1 below.
  • Energy Quotient (E) may be defined as the ratio of short-term energy (E Short ) and long-term energy (E Long ), as shown in Equation 2 below.
  • both the short-term energy and the long-term energy may be determined based on the history up to the previous subframe.
  • the short section and the long section are divided according to the degree of contribution to the energy of the current subframe.
  • the long section is multiplied by a larger ratio with respect to the average energy up to the previous subframe.
  • an example of a feature extracted by the time domain feature extractor 730 may include a gradient index (G), but is not limited thereto.
  • G Gradient Index
  • t represents a time domain signal.
  • Sign represents +1 if the signal is greater than 0 and -1 if it is less than zero.
  • the class determiner 750 may determine the class of the voice signal from at least one frequency domain feature and at least one time domain feature.
  • a Gaussian Mixture Model (GMM) model which is widely known based on low frequency energy, may be used for class determination.
  • the class determiner 750 may determine one class for each sub-frame or derive a plurality of candidate classes based on soft decision.
  • the low frequency energy when the low frequency energy is less than or equal to a specific value, one class may be determined, and when more than that, a plurality of candidate classes may be derived.
  • the low frequency energy may mean a narrow band energy or energy below a specific frequency band.
  • the plurality of candidate classes may include, for example, a class having the highest probability value and a class adjacent thereto.
  • each class has a probability value, and thus a predicted value is calculated in consideration of the probability value.
  • the voicing level may be mapped to a single class or a class having the largest probability value.
  • energy prediction may be performed based on the candidate class and probability values of the candidate class. Prediction may be performed for each candidate class, and the final predicted value may be determined by multiplying the resulting predicted value by a probability value.
  • FIG. 8 is a block diagram illustrating a configuration of the envelope prediction module 800 according to an embodiment, and may correspond to the envelope prediction unit 441 of FIG. 4.
  • the module 800 illustrated in FIG. 8 may include an energy predictor 810, a shape predictor 830, an envelope calculator 850, and an envelope postprocessor 870. Each component may be implemented as a separate processor or integrated into at least one processor.
  • the energy predictor 810 may estimate energy of a high frequency spectrum from a frequency domain signal, that is, a low frequency spectrum, based on class information. An embodiment of the energy predictor 810 will be described in more detail with reference to FIG. 9.
  • the shape predictor 830 may predict the shape of the high frequency spectrum from the frequency domain signal, that is, the low frequency spectrum, based on the class information and the voicing level information.
  • the shape predictor 830 may predict shapes of voiced and unvoiced sounds, respectively. An embodiment of the shape predictor 830 will be described in more detail with reference to FIG. 10.
  • FIG. 9 is a block diagram illustrating a detailed configuration of the energy predicting unit 810 shown in FIG. 8.
  • the energy predictor 900 illustrated in FIG. 9 may include a first predictor 910, a limiter applier 930, and an energy smoothing unit 950.
  • the first predictor 910 may estimate energy of a high frequency spectrum from a frequency domain signal, that is, a low frequency spectrum, based on class information. Energy predicted by the first predictor 710 May be defined as Equation 4 below.
  • the low frequency envelope Env (i) may be defined as in Equation 5 below. That is, energy can be predicted using low frequency log energy and standard deviation of each subband.
  • the limiter applier 730 may estimate energy provided by the first predictor 710. By applying a limiter to Too large a value can suppress noise that can be generated. At this time, the energy to operate as a limiter may use a linear envelope as shown in Equation 6 below, not a log domain envelope.
  • the basis can be constructed by obtaining a plurality of centroids (C) as shown in Equation 7 below.
  • C LB is an average value
  • mL i is a low-band linear envelope values
  • mL is a low-band linear envelope calculated in the frequency domain feature extraction unit 710 of FIG. 7 is a constant
  • the maximum value of the Centroid .
  • the basis can be obtained using the obtained C i values and the standard deviation, and the centroid prediction value can be obtained through a plurality of predictors predicting by using a part of the basis.
  • the minimum and maximum centroids are obtained, and the average value of the minimum and maximum values is calculated using Equation 8 below.
  • the method for obtaining a plurality of centroid prediction values is described above. The method is similar to the method of predicting a, and may be performed by setting a codebook based on class information and multiplying the codebook with the obtained basis.
  • the energy smoothing unit 950 may perform energy smoothing by reflecting the predicted energy provided from the limiter applying unit 930 by reflecting the plurality of energy values predicted in the previous sub-frame. As an example of smoothing, the difference in the prediction energy between the previous sub-frame and the current sub-frame may be limited within a predetermined range.
  • the energy smoothing unit 950 may be provided as an option.
  • FIG. 10 is a block diagram illustrating a detailed configuration of the shape predictor 830 illustrated in FIG. 8.
  • the shape predictor 1000 illustrated in FIG. 10 may include a voiced sound shape predictor 1010, an unvoiced sound shape predictor 1030, and a second predictor 1050.
  • the voiced sound shape predictor 1010 may predict the voiced sound shape of the high frequency band by using a low frequency linear envelope, that is, a low frequency shape.
  • the unvoiced shape predictor 1030 may predict the unvoiced shape of the high frequency band by using a low frequency linear envelope, that is, a low frequency shape, and adjust the unvoiced shape according to a comparison result of the shape between the low frequency part and the high frequency part in the high frequency band.
  • the second predictor 1050 may predict the shape of the high frequency spectrum by mixing the voiced sound shape and the unvoiced sound shape at a ratio based on the voicing level.
  • the envelope calculator 850 predicts the energy predicted by the energy predictor 810. And the shape Sha (i) predicted by the shape predictor 830 as an input, an envelope Env (i) of a high frequency spectrum can be obtained.
  • the envelope of the high frequency spectrum may be obtained as in Equation 9 below.
  • the envelope post-processing unit 870 may perform post-processing on the envelope provided from the envelope calculating unit 850. As an example of the post-processing, the envelope at the beginning of the high frequency may be adjusted in consideration of the envelope at the end of the low frequency at the boundary between the low frequency and the high frequency.
  • the envelope post-processing unit 870 may be provided as an option.
  • FIG. 11 is a diagram illustrating an example of a method of generating voiced sound shapes and unvoiced sound shapes in a high frequency band.
  • a voiced sound shape 1130 may be generated by transposing a low frequency shape obtained in the low frequency shape generating step 1110 into a high frequency band.
  • the unvoiced shape generation step 1150 basically generates an unvoiced shape through transposing and compares the shape of the low frequency part and the high frequency part in the high frequency band to reduce the shape of the high frequency part when the shape of the high frequency part is large. .
  • the shape of the high frequency part in the high frequency band is relatively large, thereby reducing the possibility of noise.
  • the mixing step 1170 may generate the predicted shape of the high frequency spectrum by mixing the generated voiced sound shape and the unvoiced sound shape based on the voicing level.
  • the mixing ratio may be determined using the voicing level.
  • the predicted shape may be provided to the envelope calculator 850 of FIG. 8.
  • FIG. 12 is a block diagram illustrating a configuration of the low frequency spectral modification module 1200 according to an embodiment, and may correspond to the low frequency spectral deformation unit 437 of FIG. 4.
  • the module 1200 illustrated in FIG. 12 may include a weight calculator 1210, a weight predictor 1230, a whitening unit 1250, a random noise generator 1270, and a weight applying unit 1290.
  • Each component may be implemented as a separate processor or integrated into at least one processor.
  • the following description is used interchangeably.
  • the weight calculator 1210 may calculate a first weight of the low frequency spectrum from a linear prediction error of the low frequency spectrum.
  • the modified low frequency spectrum may be generated by mixing random noise with a signal obtained by whitening the low frequency spectrum.
  • a second weight of the high frequency spectrum is applied for the mixing ratio, and the second weight of the high frequency spectrum may be obtained from the first weight of the low frequency spectrum.
  • the first weight may be calculated based on the predictability of the signal. Specifically, when the predictability of the signal is high, the linear prediction error may be small, and when the signal predictability is low, the linear prediction error may be large.
  • the first weight when the linear prediction error increases, the first weight is set to a small value, and as a result, a value (1-W) multiplied by random noise becomes larger than a value (W) multiplied by the low frequency spectrum. It can be included to generate a modified low frequency spectrum.
  • the linear prediction error is small, the first weight is set to a large value, and as a result, the value (1-W) multiplied by the random noise becomes smaller than the value (W) multiplied by the low frequency spectrum, so that relatively less random noise It can be included to generate a modified low frequency spectrum.
  • the relationship between the linear prediction error and the first weight may be mapped in advance through simulation or experiment.
  • the weight predictor 1030 may predict the second weight of the high frequency spectrum based on the first weight of the low frequency spectrum provided from the weight calculator 1010.
  • the base source band is determined in consideration of the relationship between the source frequency band and the target frequency band, and the weight of the determined source band
  • the second weight of the high frequency spectrum may be predicted by multiplying the first weight by a constant set for each class.
  • the second weight of the high-frequency band i predicted (w i) may be defined to calculate for each band by the equation (10) below.
  • g i, midx is a constant to be multiplied by the i band determined by the class index midx
  • w j represents the calculated first weight of the source band j.
  • the whitening unit 1250 may whiten the low frequency spectrum by defining a whitening envelope with respect to the frequency domain signal, that is, the frequency spectrum, for each frequency bin, and multiplying the inverse of the defined whitening envelope by the low frequency spectrum.
  • the range of the considered ambient spectrum may be determined by the second weight of the high frequency spectrum provided from the weight predictor 1230.
  • the range of the surrounding spectrum under consideration is determined as a window obtained by multiplying the size of the base window by a second weight, and the second weight may be obtained from the corresponding target band based on the mapping relationship between the source band and the target band. have.
  • the basic window may use a rectangular window, but is not limited thereto.
  • the whitening process can be performed by finding the energy within the determined window and scaling the low frequency spectrum corresponding to the frequency bin using the square root of the energy.
  • the random noise generator 1270 may generate random noise by various known methods.
  • the weight applying unit 1290 may generate the modified low frequency spectrum by inputting the whitened low frequency spectrum and the random noise as an input and applying and mixing the second weight of the high frequency spectrum. As a result, the weight applying unit 1290 may provide the modified low frequency spectrum to the envelope applying unit 443.
  • FIG. 13 is a block diagram illustrating a configuration of the high frequency excitation generating module 1300 according to an embodiment and may correspond to the high frequency excitation generating unit 439 of FIG. 4.
  • the module 1300 illustrated in FIG. 13 may include a spectral folding / transposing unit 1310.
  • the spectral folding / transposing unit 1310 may generate a spectrum in a high frequency band using the modified low frequency excitation spectrum.
  • the modified low frequency spectrum may be used instead of the modified low frequency excitation spectrum.
  • the low frequency excitation spectrum can be transposed or folded to move to a specific location in the high frequency band.
  • FIG. 15 is a block diagram illustrating a configuration of the equalization module 1500 according to an embodiment, and may correspond to the equalizer 445 of FIG. 4.
  • the module 1500 illustrated in FIG. 15 may include a silence detector 1510, a noise reducer 1530, and a spectrum equalizer 1550. Each component may be implemented as a separate processor or integrated into at least one processor.
  • the silence sub-frame may be detected as the silence section.
  • the threshold and the number of repetitions may be preset through simulation or experiment.
  • the noise reduction unit 1530 may reduce the noise generated in the silent section by gradually decreasing the size of the high frequency spectrum of the current sub-frame. To this end, the noise reduction unit 1530 may apply the noise reduction gain on a sub-frame basis. In the case of progressively reducing the signals of the entire band including low and high frequencies, the noise reduction gain can be made to converge to a value close to zero. In addition, when the sub-frame, which is the silent period, is changed to a sub-frame that is not the silent period, the signal is gradually increased. In this case, the noise reduction gain may be set to converge to one.
  • the noise reduction unit 1530 can process such that the reduction can be made slowly while the increase can be made rapidly by making the ratio of the noise reduction gain which gradually decreases, compared to the noise reduction gain which gradually increases.
  • the ratio may mean the size of the increase or decrease for each sub-frame when the gain increases or decreases for each sub-frame.
  • the silence detector 1510 and the noise reduction unit 1530 may be selectively applied.
  • the spectrum equalizer 1550 may change the voice to a user's preferred voice by applying different equalizer gains for each frequency band or subband to the noise reduced signal provided from the noise reduction unit 1530. Meanwhile, the same equalizer gain may be applied to a specific frequency band or subband.
  • the spectral equalizer 1550 may apply the same equalizer gain to all signals, that is, the frequency band. Meanwhile, the equalizer gain for voiced sound and the equalizer gain for unvoiced sound may be set differently, and two equalizer gains may be mixed and applied to the two equalizer gains based on the voicing level of the current sub-frame. As a result, the spectral equalizer 1550 may provide the inverse transform unit 447 of FIG. 4 to improve the sound quality and remove the noise.
  • FIG. 16 is a block diagram illustrating a configuration of a time domain post-processing module 1600 according to an embodiment, and may correspond to the time domain post-processing unit 449 of FIG. 4.
  • the module 1600 illustrated in FIG. 16 may include a first energy calculator 1610, a second energy calculator 1630, a gain estimator 1650, a gain applier 1670, and a combiner 1690. Can be. Each component may be implemented as a separate processor or integrated into at least one processor. Each component of the time domain post-processing module 1600 may operate in a smaller unit than each component of the sound quality improving apparatus 400 illustrated in FIG. 4. For example, when all components of FIG. 4 operate on a sub-frame basis, each component of the time domain post-processing module 1600 may operate on a sub-sub-frame basis.
  • the first energy calculator 1610 may calculate energy from a low frequency time domain signal in sub-sub frame units.
  • the second energy calculator 1630 may calculate high frequency energy from a high frequency time domain signal in sub-sub frame units.
  • the gain estimator 1650 adjusts the current sub-sub frame to the ratio between the current sub-sub frame and the previous sub-sub frame at high frequency energy to the ratio between the current sub-sub frame and the previous sub-sub frame at low frequency energy.
  • the gain to apply can be estimated.
  • the estimated gain g (i) may be defined by Equation 11 below.
  • E H (i) and E L (i) mean high frequency energy and low frequency energy of the i-th sub-sub frame, respectively.
  • a predetermined threshold g th can be used. That is, as shown in Equation 12 below, when the gain g (i) is larger than the predetermined threshold g th , the threshold g th may be estimated as the gain g (i).
  • the gain applying unit 1670 may apply the gain estimated by the gain estimating unit 1650 to the high frequency time domain signal.
  • the combiner 1690 may combine the low frequency time domain signal with the gain-applied high frequency time domain signal to generate a bandwidth extended time domain signal, that is, a wideband time domain signal.
  • FIG. 17 is a block diagram illustrating a configuration of an apparatus 1700 for improving sound quality according to another exemplary embodiment, and may correspond to the post-processing units 130 and 250 of FIG. 1 or 2.
  • the biggest difference from the sound quality improving apparatus 400 shown in FIG. 4 is the position of the high frequency excitation generator 1733.
  • the apparatus 1700 illustrated in FIG. 17 includes an upsampling unit 1731, a high frequency excitation generating unit 1733, a coupling unit 1735, a transform unit 1737, a signal classifier 1739, and an envelope predictor 1741. , An envelope applying unit 1743, an equalizer 1745, an inverse transform unit 1747, and a time domain post-processing unit 1749. Each component may be implemented as a separate processor or integrated into at least one processor.
  • the operations of the upsampling unit 1731, the envelope prediction unit 1741, the envelope applying unit 1743, the equalizer 1745, the inverse transform unit 1747, and the time domain post-processor 1749 correspond to the corresponding components of FIG. 4. Since it is substantially the same as or similar to the detailed description thereof will be omitted.
  • the high frequency excitation generator 1733 may generate a high frequency excitation signal by shifting an upsampled signal, that is, a low frequency signal into a high band.
  • the high frequency excitation generator 1733 may generate the high frequency excitation signal by using the low frequency excitation signal instead of the low frequency signal.
  • a spectral shifting method may be used. Specifically, the low frequency signal may be shifted to the high band through cosine modulation in the time domain.
  • the combiner 1735 may combine the shifted time domain signal provided from the high frequency excitation generator 1733, that is, the high frequency excitation signal and the upsampled signal, that is, the low frequency signal, to provide the converted unit 1735.
  • the converter 1735 may generate a frequency domain signal by converting the low frequency and high frequency signals provided from the combiner 1735.
  • the conversion process may include, but is not limited to, Modified Discrete Cosine Transform (MDCT), Fast Fourier Transform (FFT), Modified Discrete Cosine Transform and Modified Discrete Sine Transform (MDCT + MDST), and Quadrature Mirror Filter (QMF). .
  • MDCT Modified Discrete Cosine Transform
  • FFT Fast Fourier Transform
  • MDCT + MDST Modified Discrete Sine Transform
  • QMF Quadrature Mirror Filter
  • the signal classifier 1739 may use a low frequency signal provided from the upsampling unit 1731 for time domain feature extraction, or may use a signal obtained by combining the low frequency and high frequency provided by the combiner 1735.
  • the signal classifier 1739 may use the full-band spectrum provided from the converter 1735 for frequency domain feature extraction. In this case, the low frequency spectrum can be selectively used from the full band spectrum.
  • the other operation of the signal classifier 1739 may be the same as the signal classifier 435 of FIG. 4.
  • the envelope predictor 1741 predicts the high frequency envelope using the low frequency spectrum, and the envelope applying unit 1743 may be applied to the envelope predicted in the high frequency spectrum as in FIG. 4.
  • a high frequency excitation signal may be generated in the frequency domain, and according to the embodiment of FIG. 17, a high frequency excitation signal may be generated in the time domain.
  • the high frequency excitation signal is generated in the time domain as shown in FIG. 17, the low frequency time characteristic can be easily reflected to the high frequency.
  • the speech signal mainly included in the call packet may be more suitable since the time domain coding method is generally used.
  • the signal control can be freely performed for each band.
  • FIG. 18 is a block diagram illustrating a configuration of the shape predicting unit 830 in FIG. 8.
  • the shape predictor 1800 illustrated in FIG. 18 may include an initial shape constructer 1810, a shape rotation processor 1830, and a shape dynamics adjuster 1850.
  • the initial shape configuration unit 1810 may extract envelope information Env (b) at a low frequency, and configure an initial shape for high frequency shapes.
  • Shape information may be extracted using a mapping relationship between a low frequency band and a high frequency band.
  • a high frequency of 4 kHz to 4.4 kHz may define a mapping relationship as corresponding to a low frequency of 1 kHz to 1.4 kHz. Meanwhile, some low frequencies may be overlapped with high frequencies.
  • the shape rotation processing unit 1830 may perform shape rotation with respect to the initial shape.
  • a slow may be defined as shown in Equation 13.
  • Env means an envelope value for each band
  • N I means an initial starting plurality of bands
  • N B means an entire band.
  • the shape rotation processing unit 1830 may extract an envelope value from the initial shape, calculate a slow shape using the envelope value, and perform shape rotation. Meanwhile, the shape rotation may be performed by calculating the slow in the low frequency envelope.
  • the shape dynamics controller 1850 may adjust the dynamics of the rotated shape. Dynamic control can be achieved using Equation 15 below.
  • the dynamic control factor d 0.5 slp can be defined.
  • FIG. 19 is a view for explaining the operation of the class determining unit 750 in FIG. 7.
  • a class may be determined using a plurality of stages.
  • the first stage can be divided into four classes using the looping information
  • the second stage can be divided into four subclasses using additional features. That is, 16 subclasses may be determined, which may have the same meaning as a class defined by the class determiner 750.
  • a Gaussian Mixture Model (GMM) may be used, and in the second stage, a gradient index, centroid, and energy quotient may be used. Details are described in the article "Artificial bandwidth extension of narrowband speech-enhanced speech quality and intelligibility in mobile" (L. Laaksonen, doctoral dissertation, Aalto University, 2013).
  • FIG. 20 is a flowchart illustrating a sound quality improving method according to an exemplary embodiment.
  • a corresponding operation may be performed by a component of each device described above or may be performed by a separate processor.
  • a voice signal may be decoded using a codec built in a receiver.
  • the decoded voice signal may be a narrow band signal, that is, a low band signal.
  • a high band excitation signal or a high band excitation spectrum may be generated using the decoded low band signal.
  • the high band excitation signal may be generated from a narrow band time domain signal.
  • the high band excitation spectrum can be generated from the modified low band spectrum.
  • the envelope of the high band excitation spectrum may be predicted from the low band spectrum based on the class of the decoded speech signal.
  • each class may mean silence, background noise, weak voice signal, strong voice signal, voiced sound or unvoiced sound, but is not limited thereto.
  • the predicted envelope may be applied to the high band excitation spectrum to generate the high band spectrum.
  • an equalization process may be performed on at least one of the low band signal and the high band signal. According to the embodiment, it may be performed only on the high band signal or on the full band signal.
  • the low band signal and the high band signal may be combined to obtain a wideband voice signal.
  • the low band signal may be a decoded speech signal or a signal converted to a time domain after the equalization process is performed.
  • the high band signal may be a signal converted to the time domain after the predicted envelope is applied or a signal converted to the time domain after the equalization process is performed.
  • the frequency domain signal can be separated for each frequency band, it can be used for envelope prediction or envelope application by separating the low frequency band or the high frequency band from the full band spectrum as necessary.
  • Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media.
  • Computer readable media may include both computer storage media and communication media.
  • Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
  • Communication media typically includes computer readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave, or other transmission mechanism, and includes any information delivery media.
  • a “unit” or “module” may be a hardware component such as a processor or a circuit, and / or a software component executed by a hardware component such as a processor.

Abstract

음질 향상 방법은 시간 도메인에서 저주파 신호를 활용하여 고주파 신호를 생성하는 단계, 저주파 신호와 상기 생성된 고주파 신호를 결합하는 단계, 결합된 신호를 주파수 도메인으로 변환하는 단계, 복호화된 음성신호의 클래스를 결정하는 단계, 클래스에 근거하여, 변환단계에서 얻어지는 저주파 스펙트럼으로부터 엔벨로프를 예측하는 단계, 및 변환단계에서 얻어지는 고주파 스펙트럼에 예측된 엔벨로프를 적용하여 최종 고주파 스펙트럼을 생성하는 단계를 포함한다.

Description

음질 향상 방법 및 장치, 음성 복호화방법 및 장치와 이를 채용한 멀티미디어 기기
본 개시는 대역폭 확장에 기반하여 음질을 향상시키기 위한 방법 및 장치, 음성 복호화방법 및 장치와 이를 채용한 멀티미디어 기기에 관한 것이다.
모바일폰 혹은 태블릿 등과 같은 단말기에 있어서 음성 통화 품질을 높이기 위한 다양한 기술들이 개발되고 있다. 일예로는 송신단에서 제공되는 음성신호의 품질을 전처리를 통하여 좋게 만들 수 있다. 구체적으로, 주변 잡음의 특성을 파악하여 송신단에서 제공되는 음성신호로부터 잡음을 제거함으로써 음질을 향상시킬 수 있다. 다른 예로는 수신단에서 복원된 음성신호에 대하여 단말기 사용자의 귀의 특성을 고려하여 이퀄라이징 처리함으로써 음질을 향상시킬 수 있다. 또 다른 예로는 수신단에 일반적인 귀의 특성을 고려한 여러가지의 프리셋(pre-set)을 구비하고 단말기 사용자가 선택하여 사용함으로써 복원된 음성신호에 대하여 향상된 음질을 제공할 수 있다.
한편, 단말기에서 통화에 활용되는 코덱의 주파수 대역폭을 확장시킴으로써 통화 품질을 향상시킬 수 있는데, 특히 표준화된 코덱의 구성을 변경할 필요없이 대역폭을 확장할 수 있는 기술이 요구되고 있다.
일부 실시예는, 대역폭 확장에 기반하여 음질을 향상시키기 위한 방법 및 장치를 제공할 수 있다.
또한, 일부 실시예는, 대역폭 확장에 기반하여 음질을 향상시키는 음성 복호화방법 및 장치를 제공할 수 있다.
또한, 일부 실시예는 대역폭 확장에 기반하여 음질을 향상시키는 기능을 채용한 멀티미디어 기기를 제공할 수 있다.
본 개시의 제 1 측면은, 시간 도메인에서 저주파 신호를 활용하여 고주파 신호를 생성하는 단계; 상기 저주파 신호와 상기 생성된 고주파 신호를 결합하는 단계; 상기 결합된 신호를 주파수 도메인으로 변환하는 단계; 복호화된 음성신호의 클래스를 결정하는 단계; 상기 클래스에 근거하여, 상기 변환단계에서 얻어지는 저주파 스펙트럼으로부터 엔벨로프를 예측하는 단계; 및 상기 변환단계에서 얻어지는 고주파 스펙트럼에 상기 예측된 엔벨로프를 적용하여 최종 고주파 스펙트럼을 생성하는 단계를 포함하는 음질 향상방법을 제공할 수 있다.
상기 엔벨로프를 예측하는 단계는 상기 음성신호의 저주파 스펙트럼으로부터 에너지를 예측하는 단계; 상기 음성신호의 저주파 스펙트럼으로부터 쉐이프를 예측하는 단계; 및 상기 예측된 에너지와 예측된 쉐이프를 이용하여 상기 엔벨로프를 산출하는 단계를 포함할 수 있다.
상기 에너지를 예측하는 단계는 상기 예측된 에너지에 리미터를 적용하는 단계를 포함할 수 있다.
상기 쉐이프를 예측하는 단계는 유성음 쉐이프와 무성음 쉐이프를 각각 예측하고, 상기 클래스와 보이싱 레벨에 근거하여, 상기 유성음 쉐이프와 무성음 쉐이프로부터 상기 쉐이프를 예측할 수 있다.
상기 쉐이프를 예측하는 단계는 상기 음성신호의 저주파 스펙트럼으로부터 고주파 스펙트럼을 위한 초기 쉐이프를 구성하는 단계; 및 상기 초기 쉐이프에 대하여 쉐이프 로테이션을 수행하는 단계를 포함할 수 있다.
상기 쉐이프를 예측하는 단계는 상기 로테이션된 초기 쉐이프에 대하여 역동성을 조절하는 단계를 더 포함할 수 있다.
상기 방법은 저주파 스펙트럼과 고주파 스펙트럼 중 적어도 하나에 대하여 이퀄라이징 처리하는 단계를 더 포함할 수 있다.
상기 방법은 저주파 스펙트럼과 고주파 스펙트럼 중 적어도 하나에 대하여 이퀄라이징 처리하는 단계; 상기 이퀄라이징 처리된 스펙트럼을 시간 도메인으로 역변환하는 단계; 및 상기 시간 도메인으로 변환된 신호를 후처리하는 단계를 더 포함할 수 있다.
상기 이퀄라이징 처리하는 단계와 상기 시간 도메인으로 변환하는 단계는 서브-프레임 단위로 수행되고, 상기 후처리하는 단계는 서브-서브 프레임 단위로 수행될 수 있다.
상기 후처리하는 단계는 저주파 에너지와 고주파 에너지를 산출하는 단계; 상기 저주파 에너지와 상기 고주파 에너지를 매칭시키기 위한 게인을 추정하는 단계; 및 고주파 시간 도메인 신호에 상기 추정된 게인을 적용하는 단계를 포함할 수 있다.
상기 게인을 추정하는 단계는 상기 추정된 게인이 소정 문턱치보다 큰 경우 상기 문턱치로 제한하는 단계를 포함할 수 있다.
본 개시의 제 2 측면은, 복호화된 음성신호의 특징으로부터 상기 음성신호의 클래스를 결정하는 단계; 상기 클래스에 근거하여, 저주파 스펙트럼과 랜덤 노이즈를 혼합하여 변형된 저주파 스펙트럼을 생성하는 단계; 상기 클래스에 근거하여, 상기 저주파 스펙트럼으로부터 고주파 대역의 엔벨로프를 예측하는 단계; 상기 변형된 저주파 스펙트럼로부터 생성된 고주파 스펙트럼에 상기 예측된 엔벨로프를 적용하는 단계; 및 상기 복호화된 음성신호와 상기 엔벨로프가 적용된 고주파 스펙트럼을 이용하여 대역폭이 확장된 음성신호를 생성하는 단계를 포함하는 음질 향상방법을 제공할 수 있다.
상기 변형된 저주파 스펙트럼을 생성하는 단계는 예측 에러에 근거하여 제1 가중치를 결정하는 단계; 상기 제1 가중치와 상기 클래스에 근거하여 제2 가중치를 예측하는 단계; 상기 제2 가중치에 근거하여 상기 저주파 스펙트럼을 화이트닝하는 단계; 및 상기 화이트닝된 저주파 스펙트럼과 랜덤 노이즈를 상기 제2 가중치에 근거하여 혼합하여, 상기 변형된 저주파 스펙트럼을 생성하는 단계를 포함할 수 있다.
상기 각 단계는 서브-프레임 단위로 수행될 수 있다.
상기 클래스는 저주파 에너지에 근거하여 복수의 후보 클래스로 이루어질 수 있다.
본 개시의 제 3 측면은, 프로세서를 포함하며, 상기 프로세서는 복호화된 음성신호의 특징으로부터 상기 음성신호의 클래스를 결정하고, 상기 클래스에 근거하여, 저주파 스펙트럼과 랜덤 노이즈를 혼합하여 변형된 저주파 스펙트럼을 생성하고, 상기 클래스에 근거하여, 상기 저주파 스펙트럼으로부터 고주파 대역의 엔벨로프를 예측하고, 상기 변형된 저주파 스펙트럼로부터 생성된 고주파 스펙트럼에 상기 예측된 엔벨로프를 적용하고, 상기 복호화된 음성신호와 상기 엔벨로프가 적용된 고주파 스펙트럼을 이용하여 대역폭이 확장된 음성신호를 생성하는 음질 향상장치를 제공할 수 있다.
본 개시의 제 4 측면은, 부호화된 비트스트림을 복호화하는 음성 복호화부; 및 상기 복호화된 음성 데이터로부터 대역폭이 확장된 광대역 음성 데이터를 생성하는 후처리부를 포함하며, 상기 후처리부는 복호화된 음성신호의 특징으로부터 상기 음성신호의 클래스를 결정하고, 상기 클래스에 근거하여, 저주파 스펙트럼과 랜덤 노이즈를 혼합하여 변형된 저주파 스펙트럼을 생성하고, 상기 클래스에 근거하여, 상기 저주파 스펙트럼으로부터 고주파 대역의 엔벨로프를 예측하고, 상기 변형된 저주파 스펙트럼로부터 생성된 고주파 스펙트럼에 상기 예측된 엔벨로프를 적용하고, 상기 복호화된 음성신호와 상기 엔벨로프가 적용된 고주파 스펙트럼을 이용하여 대역폭이 확장된 음성신호를 생성하는 음성 복호화장치를 제공할 수 있다.
본 개시의 제 5 측면은, 부호화된 음성 패킷을 수신하는 통신부; 상기 수신된 음성 패킷을 복호화하는 음성 복호화부; 및 상기 복호화된 음성 데이터로부터 대역폭이 확장된 광대역 음성 데이터를 생성하는 후처리부를 포함하며, 상기 후처리부는 복호화된 음성신호의 특징으로부터 상기 음성신호의 클래스를 결정하고, 상기 클래스에 근거하여, 저주파 스펙트럼과 랜덤 노이즈를 혼합하여 변형된 저주파 스펙트럼을 생성하고, 상기 클래스에 근거하여, 상기 저주파 스펙트럼으로부터 고주파 대역의 엔벨로프를 예측하고, 상기 변형된 저주파 스펙트럼로부터 생성된 고주파 스펙트럼에 상기 예측된 엔벨로프를 적용하고, 상기 복호화된 음성신호와 상기 엔벨로프가 적용된 고주파 스펙트럼을 이용하여 대역폭이 확장된 음성신호를 생성하는 멀티미디어 기기를 제공할 수 있다.
표준화된 코덱의 구성을 변경할 필요없이, 복호화단에서 협대역 음성신호로부터 대역폭이 확장된 광대역 신호를 얻을 수 있고, 그 결과 음질이 향상된 복원신호를 생성할 수 있다.
도 1은 일실시예에 따른 음성 복호화장치의 구성을 나타낸 블록도이다.
도 2는 일실시예에 따른 음질 향상 기능을 갖는 기기의 일부 구성을 나타낸 블록도이다.
도 3은 일실시예에 따른 음질 향상 장치의 구성을 나타낸 블록도이다.
도 4는 다른 실시예에 따른 음질 향상 장치의 구성을 나타낸 블록도이다.
도 5는 대역폭 확장처리를 위한 프레이밍의 예를 보여주는 도면이다.
도 6은 대역폭 확장처리를 위한 밴드 구성의 예를 보여주는 도면이다.
도 7은 일실시예에 따른 신호분류모듈의 구성을 나타낸 블록도이다.
도 8은 실시예에 따른 엔벨로프 예측모듈의 구성을 나타낸 블록도이다.
도 9는 도 8에 도시된 에너지 예측부의 세부 구성을 나타낸 블록도이다.
도 10은 도 8에 도시된 쉐이프 예측부의 세부 구성을 나타낸 블록도이다.
도 11은 무성음 쉐이프와 유성음 쉐이프를 생성하는 방법의 예를 나타내는 도면이다.
도 12는 일실시예에 따른 저주파여기 변형모듈의 구성을 나타낸 블록도이다.
도 13은 일실시예에 따른 고주파여기 생성모듈의 구성을 나타낸 블록도이다.
도 14는 트랜스포징 및 폴딩의 예를 나타낸 도면이다.
도 15는 일실시예에 따른 등화 모듈의 구성을 나타낸 블록도이다.
도 16은 일실시예에 따른 시간 도메인 후처리 모듈의 구성을 나타낸 블록도이다.
도 17은 다른 실시예에 따른 음질 향상 장치의 구성을 나타낸 블록도이다.
도 18은 도 8에 있어서 쉐이프 예측부의 구성을 나타낸 블록도이다.
도 19는 도 7에 있어서 클래스 결정부의 동작을 설명하는 도면이다.
도 20은 일실시예에 따른 음질 향상 방법을 설명하는 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 실시예들을 상세히 설명한다. 그러나 실시예들은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 실시예들을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 본 개시 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 개시 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 혹은 물리적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하, 첨부된 도면을 참고하여 실시예들을 상세히 설명하기로 한다.
도 1은 일실시예에 따른 음성 복호화장치(100)의 구성을 나타낸 블록도이다. 여기서는 설명의 편의를 위하여, 음성으로 기재하였으나, 오디오 및/혹은 보이스를 포함하는 사운드를 칭할 수 있다.
도 1에 도시된 장치(100)는 복호화부(110)와 후처리부(130)를 포함할 수 있다. 복호화부(110)와 후처리부(130)는 별개의 프로세서로 구현되거나, 하나의 프로세서로 통합될 수 있다.
도 1을 참조하면, 복호화부(110)는 안테나(미도시)를 통하여 수신된 음성 통화 패킷에 대하여 복호화를 수행할 수 있다. 복호화부(110)는 장치(100)에 저장되어 있는 비트스트림에 대하여 복호화를 수행할 수 있다. 복호화부(110)는 복호화된 음성 데이터를 후처리부(130)로 제공할 수 있다. 복호화부(110)는 표준화된 코덱을 사용할 수 있으나, 이에 한정되지는 않는다. 실시예에 따르면, 복호화부(110)는 협대역 코덱인 AMR(Adaptive Multi-Rate) 코덱을 사용하여 복호화를 수행할 수 있다.
후처리부(130)는 복호화부(110)로부터 제공되는 복호화된 음성 데이터에 대하여 음질 향상을 위한 후처리를 수행할 수 있다. 실시예에 따르면 후처리부(130)는 광대역 대역폭 확장모듈을 포함할 수 있다. 후처리부(130)는 복호화부(110)에서 협대역 코덱을 이용하여 복호화한 음성 데이터의 대역폭을 광대역으로 확장시킴으로써 음의 자연성 및 현장감을 높여줄 수 있다. 후처리부(130)에 적용되는 대역폭 확장처리는 크게 송신단에서 대역폭 확장처리를 위한 부가정보를 제공하는 가이디드(guided) 방식과 송신단에서 대역폭 확장처리를 위한 부가정보를 제공하지 않는 넌-가이디드(non-guided) 즉, 블라인드(blind) 방식으로 나눌 수 있다. 가이디드 방식은 송신단에서 통화용 코덱의 구성 변경을 필요로 할 수 있다. 한편, 블라인드 방식은 송신단에서 통화용 코덱의 구성 변경없이, 수신단에서 후처리 부분을 변경하여 음질 향상을 도모할 수 있다.
도 2는 일실시예에 따른 음질 향상 기능을 갖는 기기(200)의 일부 구성을 나타낸 블록도이다. 도 2의 기기(200)는 모바일폰 혹은 태블릿과 같은 다양한 멀티미디어 기기에 해당할 수 있다.
도 2에 도시된 기기(200)는 통신부(210), 저장부(230), 복호화부(250), 후처리부(270) 및 출력부(290)를 포함할 수 있다. 복호화부(250) 및 후처리부(270)는 별개의 프로세서로 구현되거나, 하나의 프로세서로 통합될 수 있다. 도시되지 않았으나, 기기(200)는 사용자 인터페이스를 포함할 수 있다.
도 2를 참조하면, 통신부(210)는 송수신 안테나를 통하여 외부에서 음성 통화 패킷을 수신할 수 있다. 저장부(230)는 외부 기기와 연결되어, 외부 기기로부터 부호화된 비트스트림을 수신하여 저장할 수 있다.
복호화부(250)는 수신된 음성 통화 패킷 혹은 부호화된 비트스트림에 대하여 복호화를 수행할 수 있다. 복호화부(250)는 복호화된 음성 데이터를 후처리부(270)로 제공할 수 있다. 복호화부(250)는 표준화된 코덱을 사용할 수 있으나, 이에 한정되지는 않는다. 실시예에 따르면, 복호화부(250)는 협대역 코덱을 탑재할 수 있으며, 협대역 코덱의 예로는 AMR(Adaptive Multi-Rate) 코덱을 들 수 있다.
후처리부(270)는 복호화부(250)로부터 제공되는 복호화된 음성 데이터에 대하여 음질 향상을 위한 후처리를 수행할 수 있다. 실시예에 따르면 후처리부(270)는 광대역 대역폭 확장모듈을 포함할 수 있다. 후처리부(270)는 복호화부(250)에서 협대역 코덱을 이용하여 복호화한 음성 데이터의 대역폭을 광대역으로 확장시킴으로써 음의 자연성 및 현장감을 높여줄 수 있다. 후처리부(270)에서 수행되는 대역폭 확장처리는 크게 송신단에서 대역폭 확장처리를 위한 부가정보를 제공하는 가이디드(guided) 방식과 송신단에서 대역폭 확장처리를 위한 부가정보를 제공하지 않는 넌-가이디드(non-guided) 즉, 블라인드(blind) 방식으로 나눌 수 있다. 가이디드 방식은 송신단에서 통화용 코덱의 구성 변경을 필요로 할 수 있다. 한편, 블라인드 방식은 송신단에서 통화용 코덱의 구성 변경없이, 수신단에서 후처리를 변경하여 음질 향상을 도모할 수 있다. 후처리부(270)는 대역폭 확장처리가 수행된 음성데이터를 아날로그 신호로 변환할 수 있다.
출력부(290)는 후처리부(270)로부터 제공되는 아날로그 음성신호를 출력할 수 있다. 출력부(290)는 리시버, 스피커, 이어폰 혹은 헤드폰으로 대체될 수 있다. 출력부(290)는 후처리부(270)와 유선 혹은 무선으로 접속될 수 있다.
도 3은 일실시예에 따른 음질 향상 장치(300)의 구성을 나타낸 블록도로서, 도 1 혹은 도 2의 후처리부(130, 270)에 대응될 수 있다.
도 3에 도시된 장치(300)는 변환부(310), 신호 분류부(320), 저주파 스펙트럼 변형부(330), 고주파 스펙트럼 생성부(340), 등화부(350)와 시간도메인 후처리부(360)를 포함할 수 있다. 각 구성요소는 별개의 프로세서로 구현되거나, 적어도 하나의 프로세서로 통합될 수 있다. 여기서, 등화부(350)와 시간도메인 후처리부(360)는 옵션으로 구비될 수 있다.
도 3을 참조하면, 변환부(310)는 복호화된 협대역 음성신호, 예를 들면 코어 신호를 주파수 도메인 신호로 변환할 수 있다. 변환된 주파수 도메인 신호는 저주파 스펙트럼일 수 있다. 변환된 주파수 도메인 신호는 코어 스펙트럼으로 칭할 수 있다.
신호 분류부(320)는 음성신호의 특징에 근거하여 음성신호를 분류하여 타입 혹은 클래스를 결정할 수 있다. 음성신호의 특징으로는 시간 도메인 특징과 주파수 도메인 특징 중 어느 하나 혹은 모두를 사용할 수 있다. 시간 도메인 특징과 주파수 도메인 특징에는 공지된 여러가지 파라미터가 포함될 수 있다.
저주파 스펙트럼 변형부(330)는 음성신호의 클래스에 근거하여, 변환부(310)로부터의 주파수 도메인 신호 즉, 저주파 스펙트럼 혹은 저주파 여기 스펙트럼을 변형할 수 있다.
고주파 스펙트럼 생성부(340)는 변형된 저주파 스펙트럼 혹은 저주파 여기 스펙트럼을 이용하여 고주파 여기 스펙트럼을 얻고, 음성신호의 클래스에 근거하여 저주파 스펙트럼으로부터 엔벨로프를 예측하고, 고주파 여기 스펙트럼에 예측된 엔벨로프를 적용하여 고주파 스펙트럼을 생성할 수 있다.
등화부(350)는 생성된 고주파 스펙트럼에 대하여 등화 처리를 수행할 수 있다.
시간도메인 후처리부(360)는 등화 처리된 고주파 스펙트럼을 고주파 시간 도메인 신호로 변환하고, 저주파 시간 도메인 신호와 결합하여 광대역 음성신호 즉 향상된 음성신호를 생성하고, 필터링과 같은 후처리를 수행할 수 있다.
도 4은 다른 실시예에 따른 음질 향상 장치(400)의 구성을 나타낸 블록도로서, 도 1 혹은 도 2의 후처리부(130, 270)에 대응될 수 있다.
도 4에 도시된 장치(400)는 업샘플링부(431), 변환부(433), 신호분류부(435), 저주파 스펙트럼 변형부(437), 고주파 여기 생성부(439), 엔벨로프 예측부(441), 엔벨로프 적용부(443), 등화부(445), 역변환부(447) 및 시간도메인 후처리부(449)를 포함할 수 있다. 여기서, 고주파 여기 생성부(439), 엔벨로프 예측부(441)와 엔벨로프 적용부(443)는 도 3의 고주파 스펙트럼 생성부(340)에 대응될 수 있다. 각 구성요소는 별개의 프로세서로 구현되거나, 적어도 하나의 프로세서로 통합될 수 있다.
도 4를 참조하면, 업샘플링부(431)는 복호화된 N KHz 샘플링 레이트의 신호를 업샘플링할 수 있다. 예를 들어, 업샘플링을 통하여 8 KHz 샘플링 레이트의 신호로부터 16 KHz 샘플링 레이트의 신호를 생성할 있다. 업샘플링부(431)는 옵션으로 구비될 수 있다. 도 1 혹은 도 2의 복호화부(110, 250)로부터 업샘플링된 신호가 제공되는 경우, 업샘플링부(431)를 거치지 않고 바로 변환부(433)로 제공될 수 있다. 복호화된 N KHz 샘플링 레이트의 신호는 협대역 시간 도메인 신호일 수 있다.
변환부(433)는 업샘플링된 신호를 변환하여 주파수 도메인 신호 즉 저주파 스펙트럼을 생성할 수 있다. 변환처리에는 MDCT(Modified Discrete Cosine Transform), FFT(Fast Fourier Transform), MDCT+MDST (Modified Discrete Cosine Transform and Modified Discrete Sine Transform), QMF(Quadrature Mirror Filter) 등을 들 수 있으나, 이에 한정되는 것은 아니다. 여기서 저주파 스펙트럼은 저대역 혹은 코어 스펙트럼을 의미할 수 있다.
신호분류부(435)는 업샘플링된 신호와 주파수 도메인 신호를 입력으로 하여 신호의 특징을 추출하고, 추출된 특징에 근거하여 음성신호의 클래스 즉, 타입을 결정할 수 있다. 업샘플링된 신호는 시간 도메인 신호이므로, 신호분류부(435)는 시간 도메인 신호와 주파수 도메인 신호 각각에 대하여 특징을 추출할 수 있다. 신호분류부(435)에서 생성된 클래스 정보는 저주파 스펙트럼 변형부(437)와 엔벨로프 예측부(441)로 제공될 수 있다.
저주파 스펙트럼 변형부(437)는 변환부(433)로부터 제공되는 주파수 도메인 신호를 입력으로 하여, 신호분류부(435)로부터 제공된 클래스 정보에 근거하여 대역폭 확장처리에 적합한 신호인 저주파 스펙트럼으로 변형할 수 있다. 저주파 스펙트럼 변형부(437)는 변형된 저주파 스펙트럼을 고주파 여기 생성부(439)로 제공할 수 있다. 여기서, 저주파 스펙트럼 대신 저주파 여기 스펙트럼을 사용할 수도 있다.
고주파 여기 생성부(439)는 변형된 저주파 스펙트럼을 이용하여 고주파 여기 스펙트럼을 생성할 수 있다. 구체적으로, 변형된 저주파 스펙트럼은 원래의 저주파 스펙트럼으로부터 얻어지며, 고주파 여기 스펙트럼은 변형된 저주파 스펙트럼에 근거하여 시뮬레이션된 스펙트럼일 수 있다. 여기서 고주파 여기 스펙트럼은 고대역 여기 스펙트럼을 의미할 수 있다.
엔벨로프 예측부(441)는 변환부(433)로부터 제공되는 주파수 도메인 신호와 신호분류부(435)로부터 제공된 클래스 정보를 입력으로 하여, 엔벨로프를 예측할 수 있다.
엔벨로프 적용부(443)는 고주파 여기 생성부(439)로부터 제공된 고주파 여기 스펙트럼에 엔벨로프 예측부(441)로부터 제공된 예측된 엔벨로프를 적용하여 고주파 스펙트럼을 생성할 수 있다.
등화부(445)는 엔벨로프 적용부(243)로부터 제공된 고주파 스펙트럼을 입력으로 하여 고주파 대역에 대한 이퀄라이징 처리를 수행할 수 있다. 한편, 변환부(433)로부터의 저주파 스펙트럼 역시 다양한 경로를 통하여 등화부(445)로 입력될 수 있다. 이 경우, 등화부(445)는 저주파 대역과 고주파 대역에 대하여 선택적으로 이퀄라이징 처리를 수행하거나, 전대역에 대하여 이퀄라이징 처리를 수행할 수 있다. 이퀄라이징 처리는 공지된 다양한 방법을 사용할 수 있다. 일예로 들면, 대역별로 적응적 이퀄라이징 처리가 가능하다.
역변환부(447)는 등화부(445)로부터 제공되는 고주파 스펙트럼을 역변환하여 시간 도메인 신호를 생성할 수 있다. 한편, 등화부(445)로부터 이퀄라이징 처리가 수행된 저주파 스펙트럼 역시 역변환부(447)도 제공될 수 있다. 이 경우, 역변환부(247)는 저주파 스펙트럼과 고주파 스펙트럼을 별개로 역변환하여 저주파 시간 도메인 신호와 고주파 시간 도메인 신호를 생성할 수 있다. 일실시예에 따르면, 저주파 시간 도메인 신호는 업샘플링부(431)의 신호를 그대로 사용하고, 역변환부(447)는 고주파 시간 도메인 신호만 생성할 수 있다. 이 경우, 저주파 시간 도메인 신호는 원래의 음성신호와 동일하기 때문에, 딜레이 발생 없이 처리될 수 있다.
시간도메인 후처리부(449)는 역변환부(447)로부터 제공되는 저주파 시간 도메인 신호와 고주파 시간 도메인 신호에 대하여 후처리를 수행하여 잡음을 억제하고, 후처리된 저주파 시간 도메인 신호와 고주파 시간 도메인 신호를 합성하여 광대역 시간 도메인 신호를 생성할 수 있다. 시간도메인 후처리부(449)로부터 생성되는 신호는 2*N 혹은 M*N(M은 2 이상) KHz 샘플링 레이트의 신호일 수 있다. 시간도메인 후처리부(449)는 옵션으로 구비될 수 있다. 일실시예에 따르면, 저주파 시간 도메인 신호와 고주파 시간 도메인 신호는 모두 이퀄라이징 처리가 수행된 신호일 수 있다. 다른 실시예에 따르면, 저주파 시간 도메인 신호는 원래의 협대역 음성신호이고, 고주파 시간 도메인 신호는 이퀄라이징 처리가 수행된 신호일 수 있다.
실시예에 따르면, AMR 비트스트림으로부터 고주파 대역에 대하여 아무런 정보가 전송되지 않더라도, 협대역 스펙트럼으로부터의 예측을 통하여 고주파 스펙트럼을 생성할 수 있다.
도 5는 대역폭 확장처리를 위한 프레이밍의 예를 보여주는 도면이다.
도 5를 참조하면, 하나의 프레임은 예를 들면 4개의 서브-프레임으로 구성될 수 있다. 하나의 프레임이 통상적인 음성 코덱이 동작되는 20ms로 구성되는 경우, 하나의 서브-프레임은 5ms로 구성될 수 있다. 점선으로 표현된 블록은 이전 프레임 중 마지막 서브-프레임 즉, 라스트 엔드 프레임을 의미하고, 실선으로 표현된 4개의 블록은 현재 프레임의 4개의 서브-프레임을 의미할 수 있다. 변환처리시, 이전 프레임의 마지막 서브-프레임과 현재 프레임의 첫번째 서브-프레임에 대하여 윈도윙 처리할 수 있다. 윈도윙 처리된 신호를 대역폭 확장처리에 적용할 수 있다. 도 5의 프레이밍은 MDCT를 이용하여 변환처리를 수행하는 경우 적용할 수 있다. 한편, 다른 방식의 변환처리인 경우 다른 프레이밍이 적용될 수 있다. 여기서, 각 서브-프레임을 대역폭 확장 처리의 기본 단위로 사용할 수 있다. 구체적으로, 도 4에 있어서 업샘플링부(431)에서부터 시간도메인 후처리부(449)까지 서브-프레임 단위로 동작할 수 있다. 즉, 4회의 동작을 통하여 하나의 프레임에 대한 대역폭 확장 처리가 완료될 수 있다. 한편, 시간도메인 후처리부(449)에서는 하나의 서브-프레임에 대하여 서브-서브-프레임 단위로 후처리를 수행할 수 있다. 하나의 서브-프레임은 4개의 서브-서브-프레임으로 구성될 수 있다. 이에 따르면, 하나의 프레임은 16개의 서브-서브-프레임으로 구성될 수 있다. 프레임을 구성하는 서브 프레임의 갯수, 서브 프레임을 구성하는 서브-서브 프레임의 갯수는 변경될 수 있다.
도 6은 대역폭 확장처리를 위한 밴드 구성의 예를 보여주는 도면으로서, 광대역(Wide-band) 대역폭 확장처리를 가정한 것이다. 구체적으로, 8 KHz 샘플링 레이트의 신호를 업샘플링하여 16 KHz 샘플링 레이트의 신호를 얻고, 16 KHz 샘플링 레이트의 신호를 이용하여 4 ~ 8 KHz 스펙트럼을 생성하는 예이다.
도 6을 참조하면, 엔벨로프 밴드(BE)는 전체 주파수 대역을 20개의 밴드로 구성한 것이고, 화이트닝 및 웨이팅 밴드(BW)는 8개의 밴드로 구성한 것이다. 이때, 각 밴드는 주파수 대역에 따라서 균일하거나 불균일하게 구성할 수 있다.
도 7은 일실시예에 따른 신호분류모듈(700)의 구성을 나타낸 블록도로서, 도 4의 신호분류부(435)에 대응될 수 있다.
도 7에 도시된 모듈(700)은 주파수 도메인 특징 추출부(710), 시간 도메인 특징 추출부(730) 및 클래스 결정부(750)을 포함할 수 있다. 각 구성요소는 별개의 프로세서로 구현되거나, 적어도 하나의 프로세서로 통합될 수 있다.
도 7에 있어서, 주파수 도메인 특징 추출부(710)는 변환부(도 4의 433)로부터 제공되는 주파수 도메인 신호 즉, 스펙트럼으로부터 주파수 도메인 특징을 추출할 수 있다.
시간 도메인 특징 추출부(730)는 업샘플링부(도 2의 431)로부터 제공되는 시간 도메인 신호로부터 시간 도메인 특징을 추출할 수 있다.
클래스 결정부(750)는 주파수 도메인 특징과 시간 도메인 특징으로부터 음성신호의 클래스, 예를 들면 현재 서브-프레임의 클래스를 결정하여 클래스 정보를 생성할 수 있다. 클래스 정보는 단일한 클래스 혹은 복수의 후보 클래스를 포함할 수 있다. 또한, 클래스 결정부(750)는 현재 서브-프레임에 대하여 결정된 클래스로부터 보이싱 레벨을 얻을 수 있다. 결정된 클래스는 가장 높은 확률값을 갖는 클래스일 수 있다. 실시예에 따르면, 클래스별로 보이싱 레벨이 매핑되어 있고, 결정된 클래스에 대응되는 보이싱 레벨을 얻을 수 있다. 한편, 현재 서브-프레임의 보이싱 레벨과 적어도 하나의 이전 서브-프레임의 보이싱 레벨을 이용하여 현재 서브-프레임의 최종 보이싱 레벨을 구할 수 있다.
각 구성요소의 동작에 대하여 좀 더 구체적으로 설명하면 다음과 같다.
주파수 도메인 특징 추출부(710)에서 추출된 특징의 예로는 Centroid(C)와 Energy Quotient(E)를 들 수 있으나, 이에 한정되는 것은 아니다.
Centroid(C)는 하기 수학식 1에서와 같이 정의될 수 있다.
수학식 1
Figure PCTKR2015008567-appb-M000001
여기서, x는 스펙트럼 계수를 나타낸다.
한편, Energy Quotient(E)는 하기 수학식 2에서와 같이 단구간 에너지(EShort)와 장구간 에너지(ELong)의 비율로 정의될 수 있다.
수학식 2
Figure PCTKR2015008567-appb-M000002
여기서, 단구간 에너지와 장구간 에너지는 모두 이전 서브 프레임까지의 히스토리를 기반으로 결정될 수 있다. 이때, 단구간과 장구간은 현재 서브 프레임의 에너지에 대한 기여분의 정도에 따라서 구분되며, 예를 들어 단구간에 비하여 장구간은 이전 서브 프레임까지의 에너지의 평균에 대해서 더 큰 비율을 곱하는 방식으로 정의될 수 있다. 구체적으로, 장구간은 현재 서브 프레임의 에너지를 적게 반영하고, 단구간은 장구간에 비하여 상대적으로 현재 서브 프레임의 에너지를 많이 반영하도록 설계된다.
한편, 시간 도메인 특징 추출부(730)에서 추출된 특징의 예로는 Gradient Index (G)를 들 수 있으나, 이에 한정되는 것은 아니다.
Gradient Index(G) 는 하기 수학식 3에서와 같이 정의될 수 있다.
수학식 3
Figure PCTKR2015008567-appb-M000003
여기서, t는 시간 도메인 신호를 나타낸다. Sign은 신호가 0이상일 경우에는 +1을, 0보다 작은 경우에는 -1을 표현한다.
클래스 결정부(750)는 적어도 하나 이상의 주파수 도메인 특징과 적어도 하나 이상의 시간 도메인 특징으로부터 음성신호의 클래스를 결정할 수 있다. 실시예에 따르면, 클래스 결정에는 저주파 에너지를 기준으로 널리 알려진 GMM(Gaussian Mixture Model) 모델을 이용할 수 있다. 클래스 결정부(750)는 서브-프레임별로 하나의 클래스를 확정하거나, 소프트 디시젼 기반으로 복수의 후보 클래스를 도출할 수 있다. 실시예에 따르면, 저주파 에너지를 기반으로 하며, 저주파 에너지가 특정 값 이하이면, 하나의 클래스를 확정하고, 그 이상인 경우에는 복수개의 후보 클래스를 도출할 수 있다. 여기서, 저주파 에너지는 협대역 에너지 혹은 특정 주파수 대역 이하의 에너지를 의미할 수 있다. 복수개의 후보 클래스는 예를 들면 가장 높은 확률값을 갖는 클래스와 이에 인접하는 클래스로 구성될 수 있다. 복수개의 후보 클래스가 선택된 경우에는 각 클래스 별로 확률값을 갖게 되므로, 확률값을 고려하여 예측값을 계산하게 된다. 보이싱 레벨(voicing level)은 단일한 클래스 혹은 가장 큰 확률값을 갖는 클래스에 매핑된 것을 사용할 수 있다. 한편, 에너지 예측은 후보 클래스와 후보 클래스의 확률값을 기반으로 수행할 수 있다. 후보 클래스별로 예측을 수행하고, 그 결과 얻어진 예측값에 확률값을 곱하여 최종 예측값을 결정할 수 있다.
도 8은 실시예에 따른 엔벨로프 예측모듈(800)의 구성을 나타낸 블록도로서, 도 4의 엔벨로프 예측부(441)에 대응될 수 있다.
도 8에 도시된 모듈(800)은 에너지 예측부(810), 쉐이프 예측부(830), 엔벨로프 산출부(850) 및 엔벨로프 후처리부(870)를 포함할 수 있다. 각 구성요소는 별개의 프로세서로 구현되거나, 적어도 하나의 프로세서로 통합될 수 있다.
도 8에 있어서, 에너지 예측부(810)는 클래스 정보를 기반으로, 주파수 도메인 신호, 즉 저주파 스펙트럼으로부터 고주파 스펙트럼의 에너지를 예측할 수 있다. 에너지 예측부(810)의 일실시예에 대해서는 도 9를 참조하여 좀 더 구체적으로 설명하기로 한다.
쉐이프 예측부(830)는 클래스 정보와 보이싱 레벨 정보를 기반으로, 주파수 도메인 신호, 즉 저주파 스펙트럼으로부터 고주파 스펙트럼의 쉐이프를 예측할 수 있다. 쉐이프 예측부(830)는 유성음과 무성음에 대하여 각각 쉐이프를 예측할 수 있다. 쉐이프 예측부(830)의 일실시예에 대해서는 도 10을 참조하여 좀 더 구체적으로 설명하기로 한다.
도 9은 도 8에 도시된 에너지 예측부(810)의 세부 구성을 나타낸 블록도이다.
도 9에 도시된 에너지 예측부(900)는 제1 예측부(910), 리미터 적용부(930) 및 에너지 스무딩부(950)를 포함할 수 있다.
도 9에 있어서, 제1 예측부(910)는 클래스 정보를 기반으로, 주파수 도메인 신호, 즉 저주파 스펙트럼으로부터 고주파 스펙트럼의 에너지를 예측할 수 있다. 제1 예측부(710)에서 예측된 에너지
Figure PCTKR2015008567-appb-I000001
는 하기의 수학식 4와 같이 정의될 수 있다.
수학식 4
Figure PCTKR2015008567-appb-M000004
구체적으로, 도 4의 신호분류부(435)에서 결정된 복수개의 후보 클래스 각각에 대해서
Figure PCTKR2015008567-appb-I000002
를 예측하고, 이를 결정된 확률값(probj)과 곱한 후, 이들의 합으로 최종 예측된 에너지
Figure PCTKR2015008567-appb-I000003
를 구할 수 있다. 이를 위하여, 클래스별로 설정되어 있는 코드북과 현재 서브-프레임에서 추출된 저주파 엔벨로프와 저주파 엔벨로프의 표준편차로 구성된 베이시스를 구하고, 클래스 별로 저장되어 있는 매트릭스를 곱하여
Figure PCTKR2015008567-appb-I000004
를 예측할 수 있다.
한편, 저주파 엔벨로프 Env(i)는 하기의 수학식 5와 같이 정의할 수 있다. 즉, 저주파의 서브밴드별 로그 에너지와 표준편차를 이용하여 에너지를 예측할 수 있다.
수학식 5
Figure PCTKR2015008567-appb-M000005
이와 같이 구해진
Figure PCTKR2015008567-appb-I000005
들을 이용하여 상기 수학식 4에서와 같이
Figure PCTKR2015008567-appb-I000006
를 구할 수 있다.
리미터 적용부(730)는 제1 예측부(710)에서 제공되는 예측된 에너지
Figure PCTKR2015008567-appb-I000007
에 리미터를 적용함으로써,
Figure PCTKR2015008567-appb-I000008
값이 너무 클 경우 발생될 수 있는 잡음을 억제할 수 있다. 이때, 리미터로 동작할 에너지는 로그 도메인 엔벨로프가 아니라, 하기의 수학식 6에서와 같은 선형 엔벨로프를 이용할 수 있다.
수학식 6
Figure PCTKR2015008567-appb-M000006
이와 같이 구해진 선형 엔벨로프를 하기의 수학식 7에서와 같이 복수개의 Centroid(C)를 구하여 베이시스를 구성할 수 있다.
수학식 7
Figure PCTKR2015008567-appb-M000007
여기서, CLB 는 도 7의 주파수 도메인 특징 추출부(710)에서 계산된 Centroid 값, mL 은 저대역 선형 엔벨로프의 평균값, mLi 는 저대역 선형 엔벨로프 값, Cmax 는 Centroid의 최대값으로 상수이다. 이와 같이 구해진 Ci 값들 및 표준 편차를 사용하여 베이시스를 구하고, 베이시스의 일부를 활용하여 예측하는 복수개의 predictor들을 통해 centroid 예측값을 구할 수 있다. centroid 예측값들 중에서 최소와 최대 centroid를 구하고, 하기의 수학식 8을 이용하여 최소값과 최대값의 평균값(
Figure PCTKR2015008567-appb-I000009
)을 에너지로 변환하여 변환된 에너지값을 리미터로 활용할 수 있다. 복수개의 centroid 예측값을 구하는 방법은 전술한
Figure PCTKR2015008567-appb-I000010
를 예측하는 방법과 유사하며, 클래스 정보에 기반하여 코드북을 설정하고, 코드북과 구해진 베이시스를 곱하여 수행될 수 있다.
수학식 8
Figure PCTKR2015008567-appb-M000008
에너지 스무딩부(950)는 리미터 적용부(930)로부터 제공되는 예측 에너지를 이전 서브-프레임에서 예측된 복수개의 에너지값들을 반영하여 에너지 스무딩을 수행할 수 있다. 스무딩의 일예로서, 이전 서브-프레임과 현재 서브-프레임간 예측 에너지의 차이를 소정 범위 이내로 제한할 수 있다. 에너지 스무딩부(950)는 옵션으로 구비될 수 있다.
도 10은 도 8에 도시된 쉐이프 예측부(830)의 세부 구성을 나타낸 블록도이다.
도 10에 도시된 쉐이프 예측부(1000)는 유성음 쉐이프 예측부(1010), 무성음 쉐이프 예측부(1030) 및 제2 예측부(1050)을 포함할 수 있다.
도 10에 있어서, 유성음 쉐이프 예측부(1010)는 저주파 선형 엔벨로프 즉, 저주파 쉐이프를 이용하여 고주파 대역의 유성음 쉐이프를 예측할 수 있다
무성음 쉐이프 예측부(1030)는 저주파 선형 엔벨로프 즉, 저주파 쉐이프를 이용하여 고주파 대역의 무성음 쉐이프를 예측하고, 고주파 대역에서 저주파 부분과 고주파 부분간 쉐이프의 비교 결과에 따라서 무성음 쉐이프를 조정할 수 있다.
제2 예측부(1050)는 유성음 쉐이프와 무성음 쉐이프를 보이싱 레벨에 근거한 비율로 믹싱하여 고주파 스펙트럼의 쉐이프를 예측할 수 있다.
다시 도 8로 돌아가서, 엔벨로프 산출부(850)는 에너지 예측부(810)에서 예측된 에너지
Figure PCTKR2015008567-appb-I000011
와 쉐이프 예측부(830)에서 예측된 쉐이프 Sha(i)를 입력으로 하여, 고주파 스펙트럼의 엔벨로프 Env(i)를 얻을 수 있다. 고주파 스펙트럼의 엔벨로프는 하기의 수학식 9에서와 같이 구해질 수 있다.
수학식 9
Figure PCTKR2015008567-appb-M000009
엔벨로프 후처리부(870)는 엔벨로프 산출부(850)로부터 제공되는 엔벨로프에 대하여 후처리를 수행할 수 있다. 후처리의 예로는 저주파수와 고주파수의 경계에서 저주파수 끝 부분의 엔벨로프를 고려하여, 고주파수의 시작 부분의 엔벨로프를 조절할 수 있다. 엔벨로프 후처리부(870)는 옵션으로 구비될 수 있다.
도 11은 고주파 대역에서 유성음 쉐이프와 무성음 쉐이프를 생성하는 방법의 예를 나타내는 도면이다.
도 11을 참조하면, 유성음 쉐이프 생성 단계(1130)는 저주파 선형 엔벨로프 즉, 저주파 쉐이프 생성단계(1110)에서 얻어진 저주파 쉐이프를 고주파 대역으로 트랜스포징하여 유성음 쉐이프(1130)를 생성할 수 있다.
무성음 쉐이프 생성 단계(1150)는 기본적으로는 트랜스포징을 통하여 무성음 쉐이프를 생성하며, 고주파 대역에서 저주파 부분과 고주파 부분의 쉐이프를 비교하여 고주파 부분의 쉐이프가 큰 경우 고주파 부분의 쉐이프를 줄여줄 수 있다. 그 결과, 고주파 대역내 고주파 부분의 쉐이프가 상대적으로 커짐으로써 잡음이 발생할 가능성을 줄여줄 수 있다.
혼합 단계(1170)는 생성된 유성음 쉐이프와 무성음 쉐이프를 보이싱 레벨에 근거하여 믹싱하여 고주파 스펙트럼의 예측된 쉐이프를 생성할 수 있다. 여기서, 보이싱 레벨을 이용하여 믹싱 비율을 결정할 수 있다. 예측된 쉐이프는 도 8의 엔벨로프 산출부(850)로 제공될 수 있다.
도 12는 일실시예에 따른 저주파 스펙트럼 변형모듈(1200)의 구성을 나타낸 블록도로서, 도 4의 저주파 스펙트럼 변형부(437)에 대응될 수 있다.
도 12에 도시된 모듈(1200)은 가중치 산출부(1210), 가중치 예측부(1230), 화이트닝부(1250), 랜덤 노이즈 생성부(1270) 및 가중치 적용부(1290)를 포함할 수 있다. 각 구성요소는 별개의 프로세서로 구현되거나, 적어도 하나의 프로세서로 통합될 수 있다. 한편, 저주파 스펙트럼 대신 저주파 여기 스펙트럼에 대하여 변형이 이루어질 수도 있기 때문에, 이하에서는 구별없이 혼용하여 사용하기로 한다.
도 12에 있어서, 가중치 산출부(1210)는 저주파 스펙트럼의 선형 예측 에러로부터 저주파 스펙트럼의 제1 가중치를 산출할 수 있다. 구체적으로, 저주파 스펙트럼을 화이트닝한 신호에 랜덤 노이즈를 혼합하여 변형된 저주파 스펙트럼을 생성할 수 있다. 이때, 혼합 비율을 위하여 고주파 스펙트럼의 제2 가중치가 적용되며, 고주파 스펙트럼의 제2 가중치는 저주파 스펙트럼의 제1 가중치로부터 얻어질 수 있다. 여기서, 제1 가중치는 신호의 예측 가능성에 기반하여 산출될 수 있다. 구체적으로, 신호의 예측 가능성이 높으면 선형 예측 에러가 작아지고, 신호의 예측 가능성이 낮으면 선형 예측 에러가 커질 수 있다. 즉, 선형 예측 에러가 커지면 제1 가중치를 작은 값으로 설정하고, 그 결과 저주파 스펙트럼에 곱해지는 값(W)보다 랜덤 노이즈에 곱해지는 값(1-W)이 커지므로, 상대적으로 많은 랜덤 노이즈가 포함되어 변형된 저주파 스펙트럼을 생성할 수 있다. 한편, 선형 예측 에러가 작아지면 제1 가중치를 큰 값으로 설정하고, 그 결과 저주파 스펙트럼에 곱해지는 값(W)보다 랜덤 노이즈에 곱해지는 값(1-W)이 작아지므로, 상대적으로 적은 랜덤 노이즈가 포함되어 변형된 저주파 스펙트럼을 생성할 수 있다. 여기서, 선형 예측 에러와 제1 가중치간의 관계는 시뮬레이션 혹은 실험을 통하여 미리 매핑시킬 수 있다.
가중치 예측부(1030)는 가중치 산출부(1010)로부터 제공되는 저주파 스펙트럼의 제1 가중치에 근거하여 고주파 스펙트럼의 제2 가중치를 예측할 수 있다.
구체적으로, 도 4의 고주파여기 생성부(439)에서 고주파 여기 스펙트럼을 생성할 때, 소스 주파수 대역과 타겟 주파수 대역간의 관계를 고려하여 기본이 되는 소스 밴드를 결정하고, 결정된 소스 밴드의 가중치 즉, 저주파 스펙트럼의 제1 가중치가 결정되면, 제1 가중치에 클래스별로 설정된 상수를 곱하여 고주파 스펙트럼의 제2 가중치를 예측할 수 있다. 고주파 밴드 i의 예측된 제2 가중치(wi)는 하기의 수학식 10에 의해 밴드별로 계산하는 것으로 정의될 수 있다.
수학식 10
Figure PCTKR2015008567-appb-M000010
여기서, gi,midx 는 클래스 인덱스(midx)에 의해 결정되는 i 밴드에 곱해 줄 상수이고, wj 는 소스 밴드 j의 산출된 제1 가중치를 나타낸다.
화이트닝부(1250)는 주파수 도메인 신호 즉, 저주파 스펙트럼에 대하여 주파수 빈별로 주변 스펙트럼을 고려하여 화이트닝 엔벨로프를 정의하고, 정의된 화이트닝 엔벨로프의 역수를 저주파 스펙트럼에 곱함으로써, 저주파 스펙트럼을 화이트닝시킬 수 있다. 이때, 고려되는 주변 스펙트럼의 범위는 가중치 예측부(1230)로부터 제공되는 고주파 스펙트럼의 제2 가중치에 의해 결정될 수 있다. 구체적으로, 고려되는 주변 스펙트럼의 범위는 기본 윈도우의 크기에 제2 가중치를 곱하여 얻어지는 윈도우로 결정되며, 제2 가중치는 소스 밴드와 타겟 밴드간의 매핑 관계에 근거하여, 해당하는 타겟 밴드로부터 얻어질 수 있다. 기본 윈도우는 사각 윈도우(rectangular window)를 사용할 수 있으나, 이에 한정되는 것은 아니다. 화이트닝 처리는 결정된 윈도우 내에서 에너지를 구하고, 에너지의 제곱근(square root)을 이용하여 주파수 빈에 해당하는 저주파 스펙트럼을 스케일링함으로써 수행될 수 있다.
랜덤 노이즈 생성부(1270)는 공지된 다양한 방법으로 랜덤 노이즈를 생성할 수 있다.
가중치 적용부(1290)는 화이트닝된 저주파 스펙트럼과 랜덤 노이즈를 입력으로 하여, 고주파 스펙트럼의 제2 가중치를 적용하여 혼합함으로써, 변형된 저주파 스펙트럼을 생성할 수 있다. 그 결과, 가중치 적용부(1290)는 변형된 저주파 스펙트럼을 엔벨로프 적용부(443)로 제공할 수 있다.
도 13은 일실시예에 따른 고주파여기 생성모듈(1300)의 구성을 나타낸 블록도로서, 도 4의 고주파여기 생성부(439)에 대응될 수 있다.
도 13에 도시된 모듈(1300)은 스펙트럼 폴딩/트랜스포징부(1310)을 포함할 수 있다.
도 13에 있어서, 스펙트럼 폴딩/트랜스포징부(1310)는 변형된 저주파 여기 스펙트럼을 이용하여 고주파 대역에 스펙트럼을 생성할 수 있다. 변형된 저주파 여기 스펙트럼 대신 변형된 저주파 스펙트럼을 사용할 수도 있다. 저주파 여기 스펙트럼을 트랜스포징 혹은 폴딩하여 고주파 대역의 특정 위치로 이동시킬 수 있다.
도 14에 도시된 트랜스포징 및 폴딩의 예를 살펴보면, 4 ~ 7 KHz 대역까지는 1 ~ 4 KHz 대역의 스펙트럼을 트랜스포징하여 생성하고, 7 ~ 8 KHz 대역은 3 ~ 4 KHz 대역의 스펙트럼을 폴딩하여 생성할 수 있다.
도 15는 일실시예에 따른 등화 모듈(1500)의 구성을 나타낸 블록도로서, 도 4의 등화부(445)에 대응될 수 있다.
도 15에 도시된 모듈(1500)은 묵음 검출부(1510), 노이즈 저감부(1530) 및 스펙트럼 이퀄라이저(1550)를 포함할 수 있다. 각 구성요소는 별개의 프로세서로 구현되거나, 적어도 하나의 프로세서로 통합될 수 있다.
도 15에 있어서, 묵음 검출부(1510)는 현재 서브-프레임에서 저주파 에너지가 소정 문턱치보다 작은 경우가 수회 반복될 때, 현재 서브-프레임은 묵음 구간으로 검출될 수 있다. 여기서, 문턱치와 반복 횟수는 시뮬레이션 혹은 실험을 통하여 미리 설정될 수 있다.
노이즈 저감부(1530)는 묵음 검출부(1510)에서 현재 서브-프레임이 묵음 구간으로 검출되면, 현재 서브-프레임의 고주파 스펙트럼의 크기를 점진적으로 감소시킴으로써 묵음 구간에서 발생되는 잡음을 줄일 수 있다. 이를 위하여, 노이즈 저감부(1530)는 서브-프레임 단위로 노이즈 저감 게인을 적용할 수 있다. 저주파와 고주파를 포함하는 전대역의 신호를 점진적으로 감소시키는 경우 노이즈 저감 게인은 0에 가까운 값으로 수렴되도록 만들 수 있다. 또한, 묵음 구간인 서브-프레임에서 묵음 구간이 아닌 서브-프레임으로 바뀌는 경우, 점진적으로 신호의 크기를 증가시키는데, 이 경우 노이즈 저감 게인을 1로 수렴되도록 설정할 수 있다. 한편, 노이즈 저감부(1530)은 점진적으로 감소시키는 노이즈 저감 게인의 비율을 점진적으로 증가시키는 노이즈 저감 게인에 비하여 적게 만듦으로써, 감소는 천천히 이루어지는 한편, 증가는 신속하게 이루어질 수 있도록 처리할 수 있다. 여기서, 비율은 게인을 서브-프레임별로 점점 증가시키거나 혹은 점점 감소시킬 경우, 서브-프레임별 증가분 혹은 감소분의 크기를 의미할 수 있다. 묵음 검출부(1510) 및 노이즈 저감부(1530)는 선택적으로 적용할 수 있다.
스펙트럼 이퀄라이저(1550)는 노이즈 저감부(1530)로부터 제공되는 노이즈 저감된 신호에 주파수 대역 혹은 서브밴드별로 서로 다른 이퀄라이저 게인을 적용함으로써, 사용자가 보다 선호하는 음성으로 변경시킬 수 있다. 한편, 특정 주파수 대역 혹은 서브밴드에 대해서는 동일한 이퀄라이저 게인을 적용하는 것도 가능하다. 스펙트럼 이퀄라이저(1550)는 모든 신호 즉 주파수대역에 대해서 동일한 이퀄라이저 게인을 적용할 수 있다. 한편, 유성음인 경우의 이퀄라이저 게인과 무성음인 경우의 이퀄라이저 게인을 다르게 설정하고, 현재 서브-프레임의 보이싱 레벨에 근거하여 두개의 이퀄라이저 게인에 대하여 가중합(weighted sum)으로 믹싱하여 적용할 수 있다. 그 결과, 스펙트럼 이퀄라이저(1550)는 음질이 향상되고 잡음이 제거된 스펙트럼을 역변환부(도 4의 447)로 제공할 수 있다.
도 16은 일실시예에 따른 시간 도메인 후처리 모듈(1600)의 구성을 나타낸 블록도로서, 도 4의 시간 도메인 후처리부(449)에 대응될 수 있다.
도 16에 도시된 모듈(1600)은 제1 에너지 산출부(1610), 제2 에너지 산출부(1630), 게인 추정부(1650), 게인 적용부(1670) 및 결합부(1690)를 포함할 수 있다. 각 구성요소는 별개의 프로세서로 구현되거나, 적어도 하나의 프로세서로 통합될 수 있다. 시간 도메인 후처리 모듈(1600)의 각 구성요소는 도 4에 도시된 음질 향상 장치(400)의 각 구성요소보다 작은 단위로 동작할 수 있다. 예를 들어, 도 4의 전체 구성요소가 서브-프레임 단위로 동작하는 경우, 시간 도메인 후처리 모듈(1600)의 각 구성요소는 서브-서브-프레임 단위로 동작할 수 있다.
도 16에 있어서, 제1 에너지 산출부(1610)는 서브-서브 프레임 단위로, 저주파 시간 도메인 신호로부터 에너지를 산출할 수 있다.
제2 에너지 산출부(1630)는 서브-서브 프레임 단위로, 고주파 시간 도메인 신호로부터 고주파 에너지를 산출할 수 있다.
게인 추정부(1650)는 저주파 에너지에서 현재 서브-서브 프레임과 이전 서브-서브 프레임간의 비율에 고주파 에너지에서 현재 서브-서브 프레임과 이전 서브-서브 프레임간의 비율을 맞추기 위하여, 현재 서브-서브 프레임에 적용할 게인을 추정할 수 있다. 추정되는 게인 g(i)는 하기의 수학식 11로 정의될 수 있다.
수학식 11
Figure PCTKR2015008567-appb-M000011
여기서, EH(i), EL(i)는 각각 i번째 서브-서브 프레임의 고주파 에너지와 저주파 에너지를 의미한다.
한편, 게인 g(i)이 너무 큰 값을 갖는 것을 방지하기 위하여, 소정 문턱치 gth를 이용할 수 있다. 즉, 하기 수학식 12에서와 같이 게인 g(i)이 소정 문턱치 gth 보다 크면 문턱치 gth 를 게인 g(i)으로 추정할 수 있다.
수학식 12
Figure PCTKR2015008567-appb-M000012
게인 적용부(1670)는 게인 추정부(1650)에서 추정된 게인을 고주파 시간 도메인 신호에 적용할 수 있다.
결합부(1690)는 저주파 시간 도메인 신호와 게인이 적용된 고주파 시간 도메인 신호를 결합하여, 대역폭 확장된 시간 도메인 신호 즉, 광대역 시간 도메인 신호를 생성할 수 있다.
도 17는 다른 일실시예에 따른 음질 향상 장치(1700)의 구성을 나타낸 블록도로서, 도 1 혹은 도 2의 후처리부(130, 250)에 대응될 수 있다. 도 4에 도시된 음질 향상 장치(400)와는 가장 큰 차이점으로는 고주파여기 생성부(1733)의 위치를 들 수 있다.
도 17에 도시된 장치(1700)는 업샘플링부(1731), 고주파여기 생성부(1733), 결합부(1735), 변환부(1737), 신호분류부(1739), 엔벨로프 예측부(1741), 엔벨로프 적용부(1743), 등화부(1745), 역변환부(1747) 및 시간도메인 후처리부(1749)를 포함할 수 있다. 각 구성요소는 별개의 프로세서로 구현되거나, 적어도 하나의 프로세서로 통합될 수 있다. 업샘플링부(1731), 엔벨로프 예측부(1741), 엔벨로프 적용부(1743), 등화부(1745), 역변환부(1747) 및 시간도메인 후처리부(1749)의 동작은 도 4의 해당하는 구성요소와 실질적으로 동일하거나 유사하므로 세부적인 설명을 생략하기로 한다.
도 17을 참조하면, 고주파여기 생성부(1733)는 업샘플링된 신호 즉, 저주파 신호를 고대역으로 쉬프팅시킴으로써 고주파여기 신호를 생성할 수 있다. 고주파여기 생성부(1733)는 저주파 신호 대신 저주파여기 신호를 이용하여 고주파여기 신호를 생성할 수 있다. 일실시예에 따르면, 스펙트럼 쉬프팅 방식을 사용할 수 있다. 구체적으로, 시간 도메인에서 코사인 모듈레이션을 통하여 저주파 신호를 고대역으로 쉬프팅시킬 수 있다.
결합부(1735)는 고주파여기 생성부(1733)로부터 제공되는 쉬프팅된 시간 도메인 신호 즉, 고주파여기 신호와 업샘플링된 신호 즉, 저주파 신호를 결합하여 변환부(1737)로 제공할 수 있다.
변환부(1737)는 결합부(1735)로부터 제공되는 저주파와 고주파가 결합된 신호를 변환하여 주파수 도메인 신호를 생성할 수 있다. 변환처리에는 MDCT(Modified Discrete Cosine Transform), FFT(Fast Fourier Transform), MDCT+MDST (Modified Discrete Cosine Transform and Modified Discrete Sine Transform), QMF(Quadrature Mirror Filter) 등을 들 수 있으나, 이에 한정되는 것은 아니다.
신호 분류부(1739)는 시간 도메인 특징 추출을 위하여 업샘플링부(1731)로부터 제공되는 저주파 신호를 사용할 수도 있고, 결합부(1735)에서 제공되는 저주파와 고주파가 합쳐진 신호를 사용할 수도 있다. 신호 분류부(1739)는 주파수 도메인 특징 추출을 위하여 변환부(1737)로부터 제공되는 전대역 스펙트럼을 사용할 수 있다. 이 경우, 전대역 스펙트럼으로부터 저주파 스펙트럼을 선택적으로 사용할 수 있다. 그외 신호 분류부(1739)의 동작은 도 4의 신호 분류부(435)와 동일할 수 있다.
엔벨로프 예측부(1741)는 도 4에서와 마찬가지로 저주파 스펙트럼을 이용하여 고주파의 엔벨로프를 예측하고, 엔벨로프 적용부(1743)는 도 4에서와 마찬가지로 고주파 스펙트럼에 예측된 엔벨로프에 적용할 수 있다.
도 4의 실시예에 따르면 주파수 도메인에서 고주파 여기신호를 생성할 수 있고, 도 17의 실시예에 따르면 시간 도메인에서 고주파 여기신호를 생성할 수 있다. 도 17에서와 같이 시간 도메인에서 고주파 여기신호를 생성하게 되면, 저주파 시간특성을 고주파에 용이하게 반영할 수 있다. 이에 따르면, 통화패킷에 주로 포함되는 음성신호의 경우 일반적으로 시간도메인 코딩방법을 사용하기 때문에 보다 적합할 수 있다. 한편, 도 4에서와 같이 주파수 도메인에서 고주파 여기신호를 생성하게 되면, 신호 컨트롤이 대역별로 자유롭게 행해질 수 있다.
도 18은 도 8에 있어서 쉐이프 예측부(830)의 구성을 나타낸 블록도이다.
도 18에 도시된 쉐이프 예측부(1800)는 초기 쉐이프 구성부(1810), 쉐이프 로테이션 처리부(1830) 및 쉐이프 역동성 조절부(1850)을 포함할 수 있다.
도 18을 참조하면, 초기 쉐이프 구성부(1810)는 저주파에서 엔벨로프 정보(Env(b))를 추출하고, 이로부터 고주파 쉐이프를 위한 초기 쉐이프로 구성할 수 있다. 쉐이프 정보는 저주파 밴드와 고주파 밴드간의 매핑 관계를 이용하여 추출될 수 있다. 이를 위하여, 예를 들어 고주파의 4kHz~4.4kHz는 저주파의 1kHz~1.4kHz에 해당하는 것과 같은 매핑 관계를 정의할 수 있다. 한편, 일부 저주파는 고주파에 중복되어 매핑될 수 있다.
쉐이프 로테이션 처리부(1830)는 초기 쉐이프에 대하여 쉐이프 로테이션을 수행할 수 있다. 쉐이프 로테이션을 위해서는 하기 수학식 13과 같이 슬로우프를 정의할 수 있다.
수학식 13
Figure PCTKR2015008567-appb-M000013
여기서, Env는 밴드별 엔벨로프 값을 의미하며, NI는 초기 시작 복수개의 밴드, NB는 전체 밴드를 의미한다.
쉐이프 로테이션 처리부(1830)는 초기 쉐이프에서 엔벨로프 값을 추출하고, 엔벨로프값을 이용해서 슬로우프를 계산하여 쉐이프 로테이션을 수행할 수 있다. 한편, 저주파 엔벨로프에서 슬로우프를 계산하여 쉐이프 로테이션을 수행할 수도 있다.
쉐이프 로테이션은 하기 수학식 14와 같이 수행할 수 있는데 여기서 로테이션 팩터인 ρ=1-slp lf 로 로테이션을 수행할 수 있다.
수학식 14
Figure PCTKR2015008567-appb-M000014
쉐이프 역동성 조절부(1850)는 로테이션된 쉐이프에 대하여 역동성을 조절할 수 있다. 역동성 조절은 하기 수학식 15를 이용하여 이루어질 수 있다.
수학식 15
Figure PCTKR2015008567-appb-M000015
여기에서 역동성 조절 팩터인 d = 0.5 slp 로 정의할 수 있다.
이와 같이 저주파의 쉐이프를 유지하면서 로테이션을 수행하기 때문에, 자연스러운 음색을 만들수 있다. 특히, 무성음의 경우는 저주파와 고주파간 쉐이프가 차이가 많이 발생할 수 있으므로, 이를 해결해주기 위해서 역동성(dynamics) 조절을 수행할 수 있다.
도 19는 도 7에 있어서 클래스 결정부(750)의 동작을 설명하는 도면이다.
도 19를 참조하면, 복수의 스테이지를 이용하여 클래스를 결정할 수 있다. 예를 들어, 첫번째 스테이지에서는 슬로우프 정보를 이용하여 4개의 클래스로 구분하고, 두번째 스테이지에서는 추가 특징을 활용하여 각각의 4개의 서브클래스로 분류할 수 있다. 즉, 16개의 서브클래스를 결정할 수 있으며, 이는 클래스 결정부(750)에서 정의한 클래스와 동일한 의미를 가질 수 있다. 제1 및 제2 스테이지에서는 GMM(Gaussian Mixture Model)을 특징으로 이용하고, 제2 스테이지에서는 Gradient index, Centroid, Energy quotient를 특징으로 활용할 수 있다. 구체적인 내용은 문헌 “Artificial bandwidth extension of narrowband speech - enhanced speech quality and intelligibility in mobile” (L. Laaksonen, doctoral dissertation, Aalto University, 2013)에 개시되어 있다.
도 20은 일실시예에 따른 음질 향상 방법을 설명하는 흐름도로서, 전술한 각 장치의 구성요소에 의해 해당 동작이 수행되거나, 별도의 프로세서에 의해 수행될 수 있다.
도 20을 참조하면, 2010 단계는 수신기에 내장된 코덱을 이용하여 음성신호를 복호화할 수 있다. 여기서, 복호화된 음성신호는 협대역 신호 즉, 저대역 신호일 수 있다.
2030 단계에서는 복호화된 저대역 신호를 이용하여 고대역 여기 신호 혹은 고대역 여기 스펙트럼을 생성할 수 있다. 여기서, 고대역 여기 신호는 협대역 시간 도메인 신호로부터 생성될 수 있다. 한편, 고대역 여기 스펙트럼은 변형된 저대역 스펙트럼으로부터 생성될 수 있다.
2050 단계에서는 복호화된 음성신호의 클래스에 근거하여 저대역 스펙트럼으로부터 고대역 여기 스펙트럼의 엔벨로프를 예측할 수 있다. 여기서, 각 클래스는 묵음, 배경잡음, 약한 음성신호, 강한 음성신호, 유성음 혹은 무성음 등을 의미할 수 있으나, 이에 한정되는 것은 아니다.
2070 단계에서는 고대역 여기 스펙트럼에 예측된 엔벨로프를 적용하여 고대역 스펙트럼을 생성할 수 있다.
2090 단계에서는 저대역 신호와 고대역 신호 중 적어도 하나에 대하여 등화 처리를 수행할 수 있다. 실시예에 따르면, 고대역 신호에 대해서만 수행되거나, 전 대역 신호에 대하여 수행될 수 있다.
저대역 신호와 고대역 신호가 합성되어 광대역 음성신호가 얻어질 수 있다. 여기서, 저대역 신호는 복호화된 음성신호이거나 등화 처리가 수행된 다음 시간도메인으로 변환된 신호일 수 있다. 고대역 신호는 예측된 엔벨로프가 적용된 다음 시간 도메인으로 변환된 신호이거나 등화 처리가 수행된 다음 시간도메인으로 변환된 신호일 수 있다.
상기 실시예에 있어서, 주파수 도메인 신호는 주파수 대역별로 분리될 수 있기 때문에, 필요에 따라서 전대역 스펙트럼으로부터 저주파 대역 혹은 고주파 대역을 분리하여 엔벨로프 예측 혹은 엔벨로프 적용에 이용할 수 있다.
일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
또한, 본 개시에서, “부” 혹은 “모듈”은 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
전술한 설명은 예시를 위한 것이며, 실시예들이 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 개시의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함되는 것으로 해석되어야 한다.

Claims (20)

  1. 시간 도메인에서 저주파 신호를 활용하여 고주파 신호를 생성하는 단계;
    상기 저주파 신호와 상기 생성된 고주파 신호를 결합하는 단계;
    상기 결합된 신호를 주파수 도메인으로 변환하는 단계;
    복호화된 음성신호의 클래스를 결정하는 단계;
    상기 클래스에 근거하여, 상기 변환단계에서 얻어지는 저주파 스펙트럼으로부터 엔벨로프를 예측하는 단계; 및
    상기 변환단계에서 얻어지는 고주파 스펙트럼에 상기 예측된 엔벨로프를 적용하여 최종 고주파 스펙트럼을 생성하는 단계를 포함하는 음질 향상방법.
  2. 제1 항에 있어서, 각 단계는 서브-프레임 단위로 수행되는 음질 향상 방법.
  3. 제1 항에 있어서, 상기 클래스는 저주파 에너지에 근거한 복수의 후보 클래스로부터 결정되는 음질 향상 방법.
  4. 제1 항에 있어서, 상기 엔벨로프를 예측하는 단계는
    상기 음성신호의 저주파 스펙트럼으로부터 에너지를 예측하는 단계;
    상기 음성신호의 저주파 스펙트럼으로부터 쉐이프를 예측하는 단계; 및
    상기 예측된 에너지와 예측된 쉐이프를 이용하여 상기 엔벨로프를 구하는 단계를 포함하는 음질 향상 방법.
  5. 제4 항에 있어서, 상기 에너지를 예측하는 단계는 상기 예측된 에너지에 리미터를 적용하는 단계를 포함하는 음질 향상 방법.
  6. 제4 항 또는 제5 항에 있어서, 상기 쉐이프를 예측하는 단계는 유성음 쉐이프와 무성음 쉐이프를 각각 예측하고, 상기 클래스와 보이싱 레벨에 근거하여, 상기 유성음 쉐이프와 무성음 쉐이프로부터 상기 쉐이프를 예측하는 음질 향상 방법.
  7. 제4 항에 있어서, 상기 쉐이프를 예측하는 단계는
    상기 음성신호의 저주파 스펙트럼으로부터 고주파 스펙트럼을 위한 초기 쉐이프를 구성하는 단계; 및
    상기 초기 쉐이프에 대하여 쉐이프 로테이션을 수행하는 단계를 포함하는 음질 향상 방법.
  8. 제7 항에 있어서, 상기 쉐이프를 예측하는 단계는
    상기 로테이션된 초기 쉐이프에 대하여 역동성을 조절하는 단계를 더 포함하는 음질 향상 방법.
  9. 제1 항에 있어서, 상기 방법은 저주파 스펙트럼과 고주파 스펙트럼 중 적어도 하나에 대하여 이퀄라이징 처리하는 단계를 더 포함하는 음질 향상 방법.
  10. 제1 항에 있어서, 상기 방법은
    저주파 스펙트럼과 고주파 스펙트럼 중 적어도 하나에 대하여 이퀄라이징 처리하는 단계;
    상기 이퀄라이징 처리된 스펙트럼을 시간 도메인으로 역변환하는 단계; 및
    상기 시간 도메인으로 변환된 신호를 후처리하는 단계를 더 포함하는 음질 향상 방법.
  11. 제10 항에 있어서, 상기 이퀄라이징 처리하는 단계와 상기 시간 도메인으로 변환하는 단계는 서브-프레임 단위로 수행되고, 상기 후처리하는 단계는 서브-서브 프레임 단위로 수행되는 음질 향상 방법.
  12. 제10 항에 있어서, 상기 후처리하는 단계는
    저주파 에너지와 고주파 에너지를 산출하는 단계;
    상기 저주파 에너지와 상기 고주파 에너지를 매칭시키기 위한 게인을 추정하는 단계; 및
    고주파 시간 도메인 신호에 상기 추정된 게인을 적용하는 단계를 포함하는 음질 향상 방법.
  13. 제12 항에 있어서, 상기 게인을 추정하는 단계는 상기 추정된 게인이 소정 문턱치보다 큰 경우 상기 문턱치로 제한하는 단계를 포함하는 음질 향상 방법.
  14. 입력되는 음성신호의 특징으로부터 상기 음성신호의 클래스와 보이싱 레벨을 결정하는 단계;
    상기 클래스와 보이싱 레벨에 근거하여, 상기 음성신호의 저주파 스펙트럼으로부터 엔벨로프를 예측하는 단계;
    상기 클래스에 근거하여, 상기 음성신호의 저주파 스펙트럼과 랜덤 노이즈를 혼합하여 변형된 저주파 스펙트럼을 생성하는 단계; 및
    상기 변형된 저주파 스펙트럼로부터 생성된 고주파여기 스펙트럼에 상기 예측된 엔벨로프를 적용하여 고주파 스펙트럼을 생성하는 단계를 포함하는 음질 향상방법.
  15. 제14 항에 있어서, 상기 변형된 저주파 스펙트럼을 생성하는 단계는
    예측 에러에 근거하여 제1 가중치를 결정하는 단계;
    상기 제1 가중치와 상기 클래스에 근거하여 제2 가중치를 예측하는 단계;
    상기 제2 가중치에 근거하여 상기 저주파 스펙트럼을 화이트닝하는 단계; 및
    상기 화이트닝된 저주파 스펙트럼과 랜덤 노이즈를 상기 제2 가중치에 근거하여 혼합하여, 상기 변형된 저주파 스펙트럼을 생성하는 단계를 포함하는 음질 향상 방법.
  16. 제14 항에 있어서, 상기 엔벨로프를 예측하는 단계는
    상기 음성신호의 저주파 스펙트럼으로부터 에너지를 예측하는 단계;
    상기 음성신호의 저주파 스펙트럼으로부터 쉐이프를 예측하는 단계; 및
    상기 예측된 에너지와 예측된 쉐이프를 이용하여 상기 엔벨로프를 산출하는 단계를 포함하는 음질 향상 방법.
  17. 제16 항에 있어서, 상기 에너지를 예측하는 단계는 상기 예측된 에너지에 리미터를 적용하는 단계를 포함하는 음질 향상 방법.
  18. 제16 항에 있어서, 상기 쉐이프를 예측하는 단계는 유성음 쉐이프와 무성음 쉐이프를 각각 예측하고, 상기 클래스와 보이싱 레벨에 근거하여, 상기 유성음 쉐이프와 무성음 쉐이프로부터 상기 쉐이프를 예측하는 음질 향상 방법.
  19. 제16 항에 있어서, 상기 쉐이프를 예측하는 단계는
    상기 음성신호의 저주파 스펙트럼으로부터 고주파 스펙트럼을 위한 초기 쉐이프를 구성하는 단계; 및
    상기 초기 쉐이프에 대하여 쉐이프 로테이션을 수행하는 단계를 포함하는 음질 향상 방법.
  20. 제19 항에 있어서, 상기 방법은 상기 쉐이프를 예측하는 단계는
    상기 로테이션된 초기 쉐이프에 대하여 역동성을 조절하는 단계를 더 포함하는 음질 향상 방법.
PCT/KR2015/008567 2014-08-15 2015-08-17 음질 향상 방법 및 장치, 음성 복호화방법 및 장치와 이를 채용한 멀티미디어 기기 WO2016024853A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/504,213 US10304474B2 (en) 2014-08-15 2015-08-17 Sound quality improving method and device, sound decoding method and device, and multimedia device employing same
EP15832602.5A EP3182412B1 (en) 2014-08-15 2015-08-17 Sound quality improving method and device, sound decoding method and device, and multimedia device employing same

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20140106601 2014-08-15
KR10-2014-0106601 2014-08-15
US201562114752P 2015-02-11 2015-02-11
US62/114,752 2015-02-11

Publications (1)

Publication Number Publication Date
WO2016024853A1 true WO2016024853A1 (ko) 2016-02-18

Family

ID=55304395

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/008567 WO2016024853A1 (ko) 2014-08-15 2015-08-17 음질 향상 방법 및 장치, 음성 복호화방법 및 장치와 이를 채용한 멀티미디어 기기

Country Status (3)

Country Link
US (1) US10304474B2 (ko)
EP (1) EP3182412B1 (ko)
WO (1) WO2016024853A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106856623A (zh) * 2017-02-20 2017-06-16 鲁睿 基带语音信号通讯噪声抑制方法及系统
CN109887515A (zh) * 2019-01-29 2019-06-14 北京市商汤科技开发有限公司 音频处理方法及装置、电子设备和存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10043531B1 (en) * 2018-02-08 2018-08-07 Omnivision Technologies, Inc. Method and audio noise suppressor using MinMax follower to estimate noise
US10043530B1 (en) 2018-02-08 2018-08-07 Omnivision Technologies, Inc. Method and audio noise suppressor using nonlinear gain smoothing for reduced musical artifacts
US10692515B2 (en) * 2018-04-17 2020-06-23 Fortemedia, Inc. Devices for acoustic echo cancellation and methods thereof
WO2020041497A1 (en) * 2018-08-21 2020-02-27 2Hz, Inc. Speech enhancement and noise suppression systems and methods
CN110827852B (zh) * 2019-11-13 2022-03-04 腾讯音乐娱乐科技(深圳)有限公司 一种有效语音信号的检测方法、装置及设备
WO2023234963A1 (en) * 2022-06-02 2023-12-07 Microchip Technology Incorporated Device and methods for phase noise measurement

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004064041A1 (en) * 2003-01-09 2004-07-29 Dilithium Networks Pty Limited Method and apparatus for improved quality voice transcoding
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
KR20070118167A (ko) * 2005-04-01 2007-12-13 콸콤 인코포레이티드 고대역 여기 생성을 위한 시스템들, 방법들, 및 장치들
KR101172326B1 (ko) * 2009-04-03 2012-08-14 가부시키가이샤 엔.티.티.도코모 음성 복호 장치, 음성 복호 방법, 및 음성 복호 프로그램이 기록된 컴퓨터로 판독 가능한 기록매체
US20130030797A1 (en) * 2008-09-06 2013-01-31 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
KR20130107257A (ko) * 2012-03-21 2013-10-01 삼성전자주식회사 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
KR101398189B1 (ko) * 2012-03-27 2014-05-22 광주과학기술원 음성수신장치 및 음성수신방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6574593B1 (en) * 1999-09-22 2003-06-03 Conexant Systems, Inc. Codebook tables for encoding and decoding
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
KR101244310B1 (ko) 2006-06-21 2013-03-18 삼성전자주식회사 광대역 부호화 및 복호화 방법 및 장치
EP2657933B1 (en) * 2010-12-29 2016-03-02 Samsung Electronics Co., Ltd Coding apparatus and decoding apparatus with bandwidth extension

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004064041A1 (en) * 2003-01-09 2004-07-29 Dilithium Networks Pty Limited Method and apparatus for improved quality voice transcoding
KR20070118167A (ko) * 2005-04-01 2007-12-13 콸콤 인코포레이티드 고대역 여기 생성을 위한 시스템들, 방법들, 및 장치들
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
US20130030797A1 (en) * 2008-09-06 2013-01-31 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
KR101172326B1 (ko) * 2009-04-03 2012-08-14 가부시키가이샤 엔.티.티.도코모 음성 복호 장치, 음성 복호 방법, 및 음성 복호 프로그램이 기록된 컴퓨터로 판독 가능한 기록매체
KR20130107257A (ko) * 2012-03-21 2013-10-01 삼성전자주식회사 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
KR101398189B1 (ko) * 2012-03-27 2014-05-22 광주과학기술원 음성수신장치 및 음성수신방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3182412A4 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106856623A (zh) * 2017-02-20 2017-06-16 鲁睿 基带语音信号通讯噪声抑制方法及系统
CN106856623B (zh) * 2017-02-20 2020-02-11 鲁睿 基带语音信号通讯噪声抑制方法及系统
CN109887515A (zh) * 2019-01-29 2019-06-14 北京市商汤科技开发有限公司 音频处理方法及装置、电子设备和存储介质
CN109887515B (zh) * 2019-01-29 2021-07-09 北京市商汤科技开发有限公司 音频处理方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
EP3182412C0 (en) 2023-06-07
EP3182412A1 (en) 2017-06-21
US20170236526A1 (en) 2017-08-17
EP3182412A4 (en) 2018-01-17
EP3182412B1 (en) 2023-06-07
US10304474B2 (en) 2019-05-28

Similar Documents

Publication Publication Date Title
WO2016024853A1 (ko) 음질 향상 방법 및 장치, 음성 복호화방법 및 장치와 이를 채용한 멀티미디어 기기
WO2013141638A1 (ko) 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
WO2013058635A2 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
KR100726960B1 (ko) 음성 처리에서의 인위적인 대역폭 확장 방법 및 장치
RU2641224C2 (ru) Адаптивное расширение полосы пропускания и устройство для этого
US8271292B2 (en) Signal bandwidth expanding apparatus
WO2013002623A2 (ko) 대역폭 확장신호 생성장치 및 방법
WO2013183977A1 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
WO2012157932A2 (en) Bit allocating, audio encoding and decoding
US10043533B2 (en) Method and device for boosting formants from speech and noise spectral estimation
WO2012036487A2 (en) Apparatus and method for encoding and decoding signal for high frequency bandwidth extension
KR20010101422A (ko) 매핑 매트릭스에 의한 광대역 음성 합성
WO2017222356A1 (ko) 잡음 환경에 적응적인 신호 처리방법 및 장치와 이를 채용하는 단말장치
KR20090122142A (ko) 오디오 신호 처리 방법 및 장치
WO2018174310A1 (ko) 잡음 환경에 적응적인 음성 신호 처리방법 및 장치
WO2020145472A1 (ko) 화자 적응형 모델을 구현하고 합성 음성 신호를 생성하는 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법
WO2019083055A1 (ko) 기계학습을 이용한 오디오 복원 방법 및 장치
US20140365212A1 (en) Receiver Intelligibility Enhancement System
WO2015065137A1 (ko) 광대역 신호 생성방법 및 장치와 이를 채용하는 기기
US10269361B2 (en) Encoding device, decoding device, encoding method, decoding method, and non-transitory computer-readable recording medium
KR100633213B1 (ko) 불가청 정보를 포함함으로써 적응형 필터 성능을개선시키는 방법 및 장치
EP3069337A1 (en) Method and apparatus for encoding/decoding an audio signal
US8868418B2 (en) Receiver intelligibility enhancement system
WO2015126228A1 (ko) 신호 분류 방법 및 장치, 및 이를 이용한 오디오 부호화방법 및 장치
WO2015037969A1 (ko) 신호 부호화방법 및 장치와 신호 복호화방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15832602

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

REEP Request for entry into the european phase

Ref document number: 2015832602

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2015832602

Country of ref document: EP