WO2019004592A1 - 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 - Google Patents
생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 Download PDFInfo
- Publication number
- WO2019004592A1 WO2019004592A1 PCT/KR2018/005647 KR2018005647W WO2019004592A1 WO 2019004592 A1 WO2019004592 A1 WO 2019004592A1 KR 2018005647 W KR2018005647 W KR 2018005647W WO 2019004592 A1 WO2019004592 A1 WO 2019004592A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- feature vector
- neural network
- signal
- wideband signal
- deepened
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 239000004606 Fillers/Extenders Substances 0.000 title abstract description 6
- 239000013598 vector Substances 0.000 claims abstract description 159
- 238000013528 artificial neural network Methods 0.000 claims abstract description 145
- 238000013145 classification model Methods 0.000 claims abstract description 72
- 238000013527 convolutional neural network Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 19
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 10
- 238000003062 neural network model Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Definitions
- the embodiments described below relate to a voice bandwidth expander and a method for expanding a narrowband voice signal to a wideband voice signal to improve voice call quality.
- DNN Deep Neural Network
- One is the simple replacement of the existing machine learning classification model with the deepening neural network classification model, and the other is the method using the deepening neural network model to directly apply the components of the high- .
- Korean Patent Registration No. 10-0762596 relates to a speech signal preprocessing system and a speech signal feature information extracting method, and describes a technique of preprocessing a speech signal using a neural network recognition method.
- Embodiments describe a speech bandwidth extender and an extension method, and more specifically, provide a speech bandwidth extender and an extension method for estimating a high frequency band of a speech signal using a generative opposition network.
- the classification model is sufficiently learned so as to be able to distinguish between the wideband signal as the real data and the fake data generated by the high frequency band through the generation model
- the classification model is fixed and the generation model estimates the high frequency band close to the actual wideband signal
- a method for expanding a voice bandwidth based on a contingent network includes extracting a feature vector from a narrowband (NB) signal and a wideband (WB) signal of a voice; Estimating a feature vector of a wideband signal from a feature vector of the narrowband signal; And learning a deepening neural network classification model for discriminating a feature vector of the extracted wideband signal and a feature vector of a wideband signal estimated from the narrowband signal feature vector.
- NB narrowband
- WB wideband
- the step of estimating the feature vector of the wideband signal from the feature vector of the narrowband signal may output the feature vector of the broadband signal estimated by learning the deepened neural network generation model by inputting the feature vector of the narrowband signal.
- the step of re-learning the deepened neural network generation model so that the feature vector of the estimated wideband signal is misidentified as a feature vector of the actual wideband signal in the deepened neural network classification model is characterized in that the deepened neural network classification model includes a feature of the estimated wideband signal It is possible to design and learn a cost function for the purpose of discriminating a vector as a feature vector of the actual wideband signal.
- the step of learning the feature vector of the extracted actual broadband signal and the feature vector of the wideband signal estimated from the feature vector of the narrowband signal includes learning the feature vector of the extracted actual wideband signal, It is possible to design the cost function so that the feature vector of the wideband signal estimated from the feature vector of the narrowband signal can be discriminated to learn the deepened neural network classification model.
- the deepened neural network generation model or the deepened neural network classification model may be at least one of DNN (Deep Neural Networks), CNN (Convolutional Neural Networks), RNN (Recurrent Neural Networks), and LSTM (Long-Short Term Memory).
- DNN Deep Neural Networks
- CNN Convolutional Neural Networks
- RNN Recurrent Neural Networks
- LSTM Long-Short Term Memory
- the deepened neural network generation model includes a convolutional layer that performs encoding and a de-convolutional layer that performs decoding, and the CNN (Convolutional Layer) of a symmetric structure of a de- Neural Networks).
- the deepened neural network classification model is sufficiently learned to distinguish the feature vector of the actual wideband signal and the feature vector of the estimated wideband signal generated by generating the high frequency band through the deepened neural network generation model,
- the speech bandwidth can be extended through a generative opposition network in which the deepened neural network model is fixed and the deepened neural network classification model is estimated to be misclassified by estimating a high frequency band close to the feature vector of the actual wideband signal.
- an apparatus for expanding a speech bandwidth based on a neural network comprising: a feature vector extractor for extracting a feature vector from a Narrowband (NB) signal and a Wideband (WB) signal; A generation modeling unit for outputting the feature vector of the wideband signal estimated by learning the deepening neural network generation model by inputting the feature vector of the narrowband signal; And a classification modeling unit that learns a deepening neural network classifying model for discriminating a feature vector of the extracted actual broadband signal and a characteristic vector of a wideband signal estimated from the narrowband signal feature vector.
- NB Narrowband
- WB Wideband
- the generation modeling unit may re-learn the deepened neural network generation model so that the feature vector of the estimated wideband signal is misidentified as the feature vector of the actual wideband signal in the learned deepened network classification model.
- the generation modeling unit may design and learn a cost function for the purpose of the deepening neural network classification model to determine the feature vector of the estimated wideband signal as a feature vector of the actual wideband signal.
- the classification modeling unit may design the cost function to discriminate the characteristic vector of the extracted wideband signal and the characteristic vector of the wideband signal estimated from the characteristic vector of the narrowband signal to learn the deepened neural network classification model .
- the deepened neural network generation model or the deepened neural network classification model may be at least one of DNN (Deep Neural Networks), CNN (Convolutional Neural Networks), RNN (Recurrent Neural Networks), and LSTM (Long-Short Term Memory).
- DNN Deep Neural Networks
- CNN Convolutional Neural Networks
- RNN Recurrent Neural Networks
- LSTM Long-Short Term Memory
- the deepened neural network generation model includes a convolutional layer that performs encoding and a de-convolutional layer that performs decoding, and the CNN (Convolutional Layer) of a symmetric structure of a de- Neural Networks).
- the deepened neural network classification model is sufficiently learned to distinguish the feature vector of the actual wideband signal and the feature vector of the estimated wideband signal generated by generating the high frequency band through the deepened neural network generation model,
- the speech bandwidth can be extended through a generative opposition network in which the deepened neural network model is fixed and the deepened neural network classification model is estimated to be misclassified by estimating a high frequency band close to the feature vector of the actual wideband signal.
- Embodiments of the present invention can provide a voice bandwidth expander and an extension method based on a generative opposition network capable of listening to a voice of a wider bandwidth without changing a codec or a transmission bit rate in a voice communication environment.
- a person who is caused by the limitation of the method using the existing deepening neural network based generation model can improve the voice call quality without synthesizing an artificial sound
- FIG. 1 is a flow diagram illustrating a method for extending a voice bandwidth based on a generative opposition network according to an embodiment.
- FIG. 2 is a block diagram illustrating a generative opposition-based voice bandwidth extension device in accordance with one embodiment.
- FIG. 3 is a diagram for explaining a learning method of a deepened neural network generation model for expanding a voice bandwidth according to an embodiment.
- FIG. 4 is a diagram illustrating an example of a deepened neural network generation model (DNN) structure for voice bandwidth extension according to an embodiment.
- DNN deepened neural network generation model
- FIG. 5 is a diagram illustrating an example of a deepened neural network generation model (CNN) structure for extending voice bandwidth according to another embodiment.
- CNN deepened neural network generation model
- FIG. 6 is a diagram for explaining a learning method of a deepened neural network classification model for voice broadening based on a generative opposition network according to an exemplary embodiment.
- FIG. 7 is a diagram for explaining a re-learning method of a deepened neural network generation model for generating a speech based on a virtual opposition network according to an embodiment of the present invention.
- the following embodiments relate to a speech bandwidth extender and an extension method, and more particularly, to a speech bandwidth expander and an extension method for estimating a high frequency band of a speech signal using a generative opposition network.
- the generated allelic network technique is introduced and the generated allelic network technique has especially improved performance in the deepening neural network model.
- Generation of opposing networks maximizes the performance of the generation model by letting the classification model and generation model learn and compete with each other.
- the classification model can be fixed and the generation model can learn to make the classification model as misclassified as possible.
- the FFT Fast Fourier Transform
- the STFT Short Time Fourier Transform
- ISTFT Inverse Short Time Fourier Transform
- IFT Inverse Discrete Fourier Transform
- IFFT Inverse Fast Fourier Transform
- FIG. 1 is a flow diagram illustrating a method for extending a voice bandwidth based on a generative opposition network according to an embodiment.
- a method of expanding a speech bandwidth based on a generative opposition network includes extracting a feature vector from a narrowband (NB) signal and a wideband (WB) A step 120 of estimating a feature vector of the wideband signal from the feature vector of the narrowband signal and a step 120 of discriminating the feature vector of the broadband signal estimated from the feature vector of the extracted real broadband signal and the feature vector of the narrowband signal And a step 130 of learning a neural network classification model.
- NB narrowband
- WB wideband
- the step 140 may include re-learning the deepened neural network generation model so that the feature vector of the broadband signal estimated in the learned deepened neural network classification model is misidentified as the feature vector of the actual wideband signal.
- the estimation value is smoothed because the actual value can not be estimated correctly. Due to these limitations, there is a problem that undesirable noise is generated when over-estimation occurs in the high-frequency band spectrum.
- the feature vector may be various feature vectors extracted from the spectrum or spectrum of the frequency axis, or the wideband signal itself of the time axis may be used.
- the next step is to learn the model of the deepened neural network using the narrowband signal and the wideband signal to determine the broadband signal
- the deepening neural network classification model previously learned using the narrowband signal and the wideband signal can be sufficiently learned (incorrect learning) using the narrowband signal and the estimated wideband signal .
- the learning for improving the feature vector estimation performance of the wideband signal can proceed in the direction of causing the deepened neural network classification model to be deceived and classified as a broadband signal (correct answer).
- the high frequency band feature vector estimation performance based on the deepened neural network generation model sufficiently learned to falsify the deepening neural network classification model can show improved estimation performance than the conventional deepening neural network generation model.
- the classification model is sufficiently learned so as to distinguish between the broadband signal, which is real data, and the fake data generated by the generation model, the classification model is fixed, It is possible to provide an improved voice bandwidth extension method by applying a generative opposition network to a voice bandwidth extension method as a method of learning to classify a classification model as much as possible by estimating a band.
- FIG. 2 is a block diagram illustrating a generative opposition-based voice bandwidth extension device in accordance with one embodiment.
- each of the steps 110 to 140 may be performed by a feature vector extracting unit 210, a generating modeling unit 220, and a classification modeling unit 230, which are components of FIG.
- the generated speech bandwidth extension apparatus 200 may include a feature vector extraction unit 210, a generation modeling unit 220, and a classification modeling unit 230 .
- the feature vector extraction unit 210 may extract a feature vector from a narrowband (NB) signal and a wideband (WB) signal of a voice.
- NB narrowband
- WB wideband
- a narrowband signal can be generated by down-sampling a wideband signal.
- a narrowband codec AMR
- AMR-NB adaptive multi-rate narrow band
- the generation modeling unit 220 may estimate the feature vector of the wideband signal from the feature vector of the narrowband signal.
- the generation modeling unit 220 can output the feature vector of the wideband signal estimated by learning the deepening neural network generation model by inputting the feature vector of the narrowband signal.
- the deepening neural network generation model may be at least one of DNN (Deep Neural Networks), CNN (Convolutional Neural Networks), RNN (Recurrent Neural Networks), and LSTM (Long-Short Term Memory).
- DNN Deep Neural Networks
- CNN Convolutional Neural Networks
- RNN Recurrent Neural Networks
- LSTM Long-Short Term Memory
- the deeper neural network generation model includes a Convolutional Layer that performs an encoding function and a Convolutional Neural (CNN) of a symmetric structure of a De-Convolutional Layer that performs a decoding function. Networks.
- CNN Convolutional Neural Networks
- CNN Convolutional Neural Networks
- RNN Recurrent Neural Networks
- LSTM Long-Short Term Memory
- the classification modeling unit 230 may learn a deepening neural network classification model for discriminating the feature vector of the extracted wideband signal from the feature vector of the extracted wideband signal and the feature vector of the narrowband signal.
- the deepened neural network classification model may be at least one of DNN (Deep Neural Networks), CNN (Convolutional Neural Networks), RNN (Recurrent Neural Networks), and LSTM (Long-Short Term Memory).
- DNN Deep Neural Networks
- CNN Convolutional Neural Networks
- RNN Recurrent Neural Networks
- LSTM Long-Short Term Memory
- the classification modeling unit 230 can learn the deepened neural network classification model by designing the cost function so that the feature vector of the wideband signal estimated from the feature vector of the extracted actual wideband signal and the feature vector of the narrowband signal can be discriminated.
- step 140 the generation modeling unit 220 can re-learn the deepening neural network generation model so that the feature vector of the broadband signal estimated in the learned deepening network classification model is misidentified as the feature vector of the actual wideband signal.
- the generation modeling unit 220 can design and learn the cost function for the purpose of determining that the feature vector of the estimated wideband signal is a feature vector of the actual wideband signal.
- the deepening neural network classification model is sufficiently learned to distinguish the feature vectors of the estimated wideband signals generated from the high-frequency bands through the feature vector of the actual wideband signal and the deepening neural network generation model.
- the speech bandwidth can be extended through a generative opposition network which learns to classify the deepened neural network classification model by estimating the high frequency band close to the feature vector of the actual wideband signal.
- the learning method of the generated opposing network proposed in the present embodiment is as follows. First, we can learn the deepening neural network generation model which can estimate the wideband signal using the feature vector of the narrowband signal. At this time, the feature vector generally uses the feature vector of the frequency axis, but it is also possible to use the signal of the time axis. Next, we can fully learn the deepening neural network classification model that can discriminate the estimated broadband signal using real broadband signal and deepening neural network generation model. Once the deepened neural network classification model is sufficiently learned to distinguish the actual broadband signal and the estimated broadband signal, the broadband signal estimated using the deepening neural network generation model can be deceived into the deepening neural network classification model, The generation model can be learned.
- the feature vector extracting unit 210 can extract a feature vector from a narrowband (NB) signal and a wideband (WB) signal of speech.
- the narrowband signal is generated by downsampling a wideband signal and may be degraded using a narrowband codec to reflect performance degradation due to the codec in an actual communication environment.
- the narrowband signal may be modified using a narrowband codec (Adaptive Multi-Rate (AMR) or Adaptive Multi-Rate Narrowband (AMR-NB)) to reflect performance degradation in an actual communication environment.
- AMR Adaptive Multi-Rate
- AMR-NB Adaptive Multi-Rate Narrowband
- the feature vector to be extracted from the narrowband signal and the wideband signal may be the voice signal itself on the time axis or the log power spectrum (LPS) of the frequency axis.
- LPS log power spectrum
- a narrow-band speech signal can be up-sampled into a wideband signal and then divided into frames of a predetermined length. For example, a 1-second-long frame can be extracted as a feature vector by dividing it by 0.5 second.
- the narrowband speech signal is subjected to up-flipping to a wideband signal, and then divided into frames of a predetermined length to obtain a frequency component value using STFT (Short Time Fourier Transform).
- STFT Short Time Fourier Transform
- frequency component values can be separated into magnitudes and phases, and only magnitude values can be used as feature vectors. Since the phase value does not greatly affect the voice quality of the voice signal, the phase value of the narrow band can be symmetrically zero-pointed to the broadband phase value according to the general characteristics of the phase value.
- the size value used as the feature vector may be used as a feature vector after taking the logarithm after squaring. This is to change the value to reflect the human auditory characteristics and to improve the estimation performance of the deepening neural network model. In general, the deeper neural network model can not be estimated well if the range of values is too wide.
- FIG. 3 is a diagram for explaining a learning method of a deepened neural network generation model for expanding a voice bandwidth according to an embodiment.
- the generation modeling unit 220 may learn the deepened neural network generation model 310 that receives the feature vector 301 of the narrowband signal and estimates the feature vector 302 of the wideband signal. That is, the generation modeling unit 220 can input the feature vector 301 of the narrowband signal to the deepening neural network generation model 310 to estimate the feature vector 302 of the wideband signal.
- the estimated broadband signal feature vector 302 is a signal in which a speech bandwidth extension (BWE) is processed.
- the deepened neural network generation model 310 can be designed to be one of DNN (Deep Neural Networks), CNN (Convolutional Neural Networks), RNN (Recurrent Neural Networks) and LSTM (Long-Short Term Memory).
- DNN Deep Neural Networks
- CNN Convolutional Neural Networks
- RNN Recurrent Neural Networks
- LSTM Long-Short Term Memory
- the cost function of the deepening neural network model 310 can be designed so that learning can be performed in a direction in which the average of the squares of the actual value and the estimated value becomes smaller using a mean squared error (MSE).
- MSE mean squared error
- FIG. 4 is a diagram illustrating an example of a deepened neural network generation model (DNN) structure for voice bandwidth extension according to an embodiment.
- DNN deepened neural network generation model
- the deepening neural network generation model 410 may be Deep Neural Networks (DNN).
- DNN Deep Neural Networks
- the feature vector 402 of the estimated wideband signal is a signal in which a speech bandwidth extension (BWE) is processed, and 403 is an actual wideband signal.
- BWE speech bandwidth extension
- FIG. 5 is a diagram illustrating an example of a deepened neural network generation model (CNN) structure for extending voice bandwidth according to another embodiment.
- CNN deepened neural network generation model
- an advanced neural network generation model 510 for estimating a broadband signal feature vector 502 by inputting a feature vector 501 of a narrowband signal can be learned.
- the deepening neural network generation model 510 may be Convolutional Neural Networks (CNN).
- the deepened neural network generation model 510 unlike the CNN classification model, which is generally composed of a Convolutional Layer, a Pooling Layer, and a Fully Connected Layer, a Convolutional Layer 511, A symmetric structure of a layer (De-Convolutional Layer) 512 can be used.
- the convolutional layer 511 performs an encoding function and the de-convolutional layer 512 performs a decoding function.
- FIG. 6 is a diagram for explaining a learning method of a deepened neural network classification model for voice broadening based on a generative opposition network according to an exemplary embodiment.
- the classification modeling unit 230 classifies the characteristic vector 601 of the wideband signal by using the characteristic vector 601 of the actual wideband signal and the characteristic vector 603 of the broadband signal estimated using the deepening-
- the neural network classification model 620 can be learned.
- the feature vector 603 of the estimated wideband signal is a signal obtained by processing the speech bandwidth extension (BWE) from the feature vector 602 of the narrowband signal.
- the deepened neural network generation model 610 or the deepened neural network classification model 620 may be one of DNN (Deep Neural Networks), CNN (Convolutional Neural Networks), RNN (Recurrent Neural Networks), and LSTM It is also possible to design it.
- DNN Deep Neural Networks
- CNN Convolutional Neural Networks
- RNN Recurrent Neural Networks
- LSTM LSTM
- the cost function can be designed to determine D (G (z)), which is the classification result of the estimated wideband signal G (z) to be 0, as D (x), which is the classification result of the actual wideband signal x, .
- z is the feature vector of the narrowband signal and x can be the feature vector of the actual wideband signal.
- D (x) represents the result of the deepening neural network classification model
- G (z) represents the result of the deepening neural network model.
- x ⁇ p (x) and z ⁇ p (z) represent sampling of data
- E can represent an expected value.
- LSGAN stands for Least-Square Generative Adversarial Networks. It is the process of learning the model so that the deepened neural network classification model minimizes the above cost function.
- FIG. 7 is a diagram for explaining a re-learning method of a deepened neural network generation model for generating a speech based on a virtual opposition network according to an embodiment of the present invention.
- the generation modeling unit 220 adds the deepened neural network generation model 710 so that the feature vector 702 of the wideband signal estimated by the learned deepened neural network classification model 720 is misidentified as an actual wideband signal Can learn. That is, the generation modeling unit 220 can re-learn the deepened neural network generation model 710 so that the feature vector 702 of the broadband signal estimated by the learned deepened network classification model 720 is misidentified as an actual wideband signal .
- the generation modeling unit 220 determines that the deepened neural network classification model 720 is in a fixed state without updating, and only the deepened neural network generation model 710 learns in a direction that the deepened neural network classification model 720 can be deceived .
- the cost function can be designed so that D (G (z)), which is the classification result of G (z), is close to 1 as shown below.
- z is the feature vector of the narrowband signal and x can be the feature vector of the actual wideband signal.
- D (x) represents the result of the deepening neural network classification model
- G (z) represents the result of the deepening neural network model.
- x ⁇ p (x) and z ⁇ p (z) represent sampling of data
- E can represent an expected value.
- LSGAN stands for Least-Square Generative Adversarial Networks. It is a process that learns the model so that the result of the deepening neural network model is discriminated from the real broadband signal in the deepening neural network classification model, so that the above cost function is minimized.
- the evaluation method of the high frequency band extension method is described below.
- the main evaluation method of the high frequency band extension method is MOS (Mean Opinion Score). It is a method of listening and evaluating broadband signals that are actual target signals, broadband speech signals based on wideband codecs, narrowband speech signals based on narrowband codecs, reference high frequency band extension methods, and proposed high frequency band extension methods.
- the MOS evaluation can be roughly divided into ACR (Absolute Category Rating) and DCR (Degradation Category Rating).
- ACR is a method of evaluating how well the sound sounds with a score of 1 to 5, It is a method of listening to a voice signal (5 points) once, listening to a sound to be evaluated, and evaluating how bad the sound is compared to a broadband signal with a score of 1 to 5 points.
- Table 1 shows an example of the subjective bandwidth evaluation method (MOS) according to one embodiment.
- Perceptual Evaluation of Speech Quality is a sub-evaluation method of the high frequency band extension method.
- This method is an objective evaluation method, in which a voice signal is input to an algorithm and evaluated by a score. For example, a speech signal may be input to the algorithm and evaluated at a score of -0.5 to 4.5.
- the scores obtained by the objective evaluation method tend to be not proportional to the score and sound quality in the high frequency band extension method, and are used as an auxiliary evaluation method. Segmental SNR and the like other than PESQ can be used.
- Table 2 shows an example of the voice bandwidth extension method objective evaluation method (PESQ) according to one embodiment.
- a voice bandwidth expander and an extension method can be used to hear a wider bandwidth voice in a voice communication environment without changing the codec conversion or the transmission bit rate.
- a person who is caused by the limitation of the method using the existing deepening neural network based generation model can improve the voice call quality without synthesizing an artificial sound
- the technology according to this embodiment can be applied to a wired / wireless voice communication terminal, an internet network voice call service, a mobile internet network voice call service, a voice recognition application, a smartphone Bluetooth communication system, a voice enhancement system,
- the present invention can be applied to a smart phone application requiring a wired / wireless telephone, a smart phone, a VoIP, a Bluetooth voice transmission / reception system, and a voice recognition device based on a narrowband communication network.
- the apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components.
- the apparatus and components described in the embodiments may be implemented within a computer system, such as, for example, a processor, controller, arithmetic logic unit (ALU), digital signal processor, microcomputer, field programmable array (FPA) A programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions.
- the processing device may execute an operating system (OS) and one or more software applications running on the operating system.
- the processing device may also access, store, manipulate, process, and generate data in response to execution of the software.
- the processing apparatus may be described as being used singly, but those skilled in the art will recognize that the processing apparatus may have a plurality of processing elements and / As shown in FIG.
- the processing apparatus may comprise a plurality of processors or one processor and one controller.
- Other processing configurations are also possible, such as a parallel processor.
- the software may include a computer program, code, instructions, or a combination of one or more of the foregoing, and may be configured to configure the processing device to operate as desired or to process it collectively or collectively Device can be commanded.
- the software and / or data may be in the form of any type of machine, component, physical device, virtual equipment, computer storage media, or device As shown in FIG.
- the software may be distributed over a networked computer system and stored or executed in a distributed manner.
- the software and data may be stored on one or more computer readable recording media.
- the method according to an embodiment may be implemented in the form of a program command that can be executed through various computer means and recorded in a computer-readable medium.
- the computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination.
- the program instructions to be recorded on the medium may be those specially designed and configured for the embodiments or may be available to those skilled in the art of computer software.
- Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like.
- Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Telephonic Communication Services (AREA)
Abstract
생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법이 제시된다. 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 방법은, 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 단계; 상기 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정하는 단계; 및 추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 단계를 포함하여 이루어질 수 있다.
Description
아래의 실시예들은 음성 대역폭 확장기 및 확장 방법에 관한 것으로, 협대역 음성 신호를 광대역 음성 신호로 확장하여 음성 통화 품질을 향상시키는 기술에 관한 것이다.
기존의 음성 대역폭 확장기 기술은 다양한 기계학습 기법을 기반으로 하여 고주파 대역의 정보를 추정하는 방법들이 시도되어 왔으며, 특히 최근에는 심화 신경망을 이용한 방법들이 많이 시도되고 있다. 심화 신경망(Deep Neural Network, DNN)은 머신 러닝(machine learning) 기법으로서, 다수의 은닉 층(layer)과 은닉 노드들을 이용하여 입력과 출력 간의 비선형적인 관계를 효과적으로 모델링하는 것이 가능하며, 최근 음성뿐 아니라 다양한 분야에서 뛰어난 성능을 보이고 있는 기술이다.
심화 신경망을 이용한 방법은 크게 두 가지로 나눠지는데, 하나는 기존의 기계학습 분류 모델을 심화 신경망 분류 모델로 단순 대체하는 방법이고, 다른 하나는 심화 신경망 생성 모델을 이용하여 고주파 대역의 성분을 직접적으로 추정하는 방법이다.
심화 신경망 분류 모델을 사용한 경우 기존의 기계학습 분류 모델을 사용했을 때 보다는 성능이 향상되었으나 모든 음성의 특징을 몇 개의 등급으로 나눠서 추정하는 방법에서 오는 추정 성능의 한계점이 있으며, 심화 신경망 생성 모델을 사용한 경우 실제 값을 제대로 추정하지 못하고 추정 값들이 평활화(smoothing)되는 한계점을 보여 왔다. 이러한 한계점들을 원인으로, 특히 고주파 대역 스펙트럼에 대해 과추정이 발생하는 경우 듣기 싫은 잡음을 발생시키는 문제점이 있다.
한국등록특허 10-0762596호는 음성 신호 전처리 시스템 및 음성 신호 특징 정보 추출 방법에 관한 것으로, 신경망 인식 방법을 이용하여 음성 신호를 전처리하는 기술을 기재하고 있다.
실시예들은 음성 대역폭 확장기 및 확장 방법에 관하여 기술하며, 보다 구체적으로 생성적 대립 망을 이용하여 음성 신호의 고주파 대역을 추정하는 음성 대역폭 확장기 및 확장 방법을 제공한다.
실시예들은 분류 모델을 진짜 데이터인 광대역 신호와 생성 모델을 통해 고주파 대역을 생성해 낸 가짜 데이터를 구분할 수 있도록 충분히 학습시킨 후에, 분류 모델을 고정시키고 생성 모델이 실제 광대역 신호와 가까운 고주파 대역을 추정하여 분류 모델을 최대한 오분류하게 만들 수 있도록 학습하는 방법으로 생성적 대립 망을 음성 대역폭 확장 방법에 적용하여 향상된 음성 대역폭 확장 방법을 제공하는데 있다.
일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 방법은, 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 단계; 상기 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정하는 단계; 및 추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 단계를 포함하여 이루어질 수 있다.
상기 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정하는 단계는, 상기 협대역 신호의 특징벡터를 입력으로 심화 신경망 생성 모델을 학습시켜 추정된 광대역 신호의 특징벡터를 출력할 수 있다.
학습된 상기 심화 신경망 분류 모델에서 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별되도록 상기 심화 신경망 생성 모델 재학습시키는 단계를 더 포함할 수 있다.
상기 심화 신경망 분류 모델에서 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별되도록 상기 심화 신경망 생성 모델 재학습시키는 단계는, 상기 심화 신경망 분류 모델이 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별하는 것을 목적으로 비용함수를 설계하여 학습시킬 수 있다.
상기 추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 단계는, 추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별할 수 있도록 비용함수를 설계하여 상기 심화 신경망 분류 모델을 학습시킬 수 있다.
상기 심화 신경망 생성 모델 또는 상기 심화 신경망 분류 모델은, DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 적어도 어느 하나일 수 있다.
상기 심화 신경망 생성 모델은, 엔코딩(Encoding) 역할을 수행하는 컨벌루셔널 레이어(Convolutional Layer)와 디코딩(Decoding) 역할을 수행하는 디컨벌루셔널 레이어(De-Convolutional Layer)의 대칭 구조의 상기 CNN(Convolutional Neural Networks)일 수 있다.
상기 심화 신경망 분류 모델을 상기 실제 광대역 신호의 특징벡터와 상기 심화 신경망 생성 모델을 통해 고주파 대역을 생성해 낸 상기 추정된 광대역 신호의 특징벡터를 구분할 수 있도록 충분히 학습시킨 후, 상기 심화 신경망 분류 모델을 고정시키고 상기 심화 신경망 생성 모델이 상기 실제 광대역 신호의 특징벡터와 가까운 고주파 대역을 추정하여 상기 심화 신경망 분류 모델을 오분류하도록 학습시키는 생성적 대립 망을 통해 음성 대역폭을 확장시킬 수 있다.
다른 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 장치는, 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 특징벡터 추출부; 상기 협대역 신호의 특징벡터를 입력으로 심화 신경망 생성 모델을 학습시켜 추정된 광대역 신호의 특징벡터를 출력하는 생성 모델링부; 및 추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 분류 모델링부를 포함하여 이루어질 수 있다.
상기 생성 모델링부는, 학습된 상기 심화 신경망 분류 모델에서 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별되도록 상기 심화 신경망 생성 모델을 재학습시킬 수 있다.
상기 생성 모델링부는, 상기 심화 신경망 분류 모델이 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별하는 것을 목적으로 비용함수를 설계하여 학습시킬 수 있다.
상기 분류 모델링부는, 추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별할 수 있도록 비용함수를 설계하여 상기 심화 신경망 분류 모델을 학습시킬 수 있다.
상기 심화 신경망 생성 모델 또는 상기 심화 신경망 분류 모델은, DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 적어도 어느 하나일 수 있다.
상기 심화 신경망 생성 모델은, 엔코딩(Encoding) 역할을 수행하는 컨벌루셔널 레이어(Convolutional Layer)와 디코딩(Decoding) 역할을 수행하는 디컨벌루셔널 레이어(De-Convolutional Layer)의 대칭 구조의 상기 CNN(Convolutional Neural Networks)일 수 있다.
상기 심화 신경망 분류 모델을 상기 실제 광대역 신호의 특징벡터와 상기 심화 신경망 생성 모델을 통해 고주파 대역을 생성해 낸 상기 추정된 광대역 신호의 특징벡터를 구분할 수 있도록 충분히 학습시킨 후, 상기 심화 신경망 분류 모델을 고정시키고 상기 심화 신경망 생성 모델이 상기 실제 광대역 신호의 특징벡터와 가까운 고주파 대역을 추정하여 상기 심화 신경망 분류 모델을 오분류하도록 학습시키는 생성적 대립 망을 통해 음성 대역폭을 확장시킬 수 있다.
실시예들에 따르면 음성 통신 환경에서 코덱 변환이나 전송비트율의 확장 없이 더 넓은 대역폭의 음성을 들을 수 있는 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법을 제공할 수 있다. 특히, 생성적 대립 망을 이용하여 심화 신경망 기반 생성 모델의 추정 성능을 극대화함으로써 기존 심화 신경망 기반 생성 모델을 이용한 방법의 한계로 인해 발생되는 사람이 듣기 불편한 인위적인 소리의 합성 없이 향상된 음성 통화 품질을 기대할 수 있으며, 나아가서 음성인식기에 적용되어 기존 협대역 코덱을 사용했을 때와 같은 전송속도로 더 높은 수준의 음성인식률을 제공할 수 있다.
도 1은 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 방법을 나타내는 흐름도이다.
도 2는 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 장치를 나타내는 블록도이다.
도 3은 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델의 학습 방법을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델(DNN) 구조의 예를 나타내는 도면이다.
도 5는 다른 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델(CNN) 구조의 예를 나타내는 도면이다.
도 6은 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장을 위한 심화 신경망 분류 모델의 학습 방법을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장을 위한 심화 신경망 생성 모델의 재학습 방법을 설명하기 위한 도면이다.
이하, 첨부된 도면을 참조하여 실시예들을 설명한다. 그러나, 기술되는 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시예들에 의하여 한정되는 것은 아니다. 또한, 여러 실시예들은 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다. 도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
아래의 실시예들은 음성 대역폭 확장기 및 확장 방법에 관한 것으로, 보다 구체적으로는 생성적 대립 망을 이용하여 음성 신호의 고주파 대역을 추정하는 음성 대역폭 확장기 및 확장 방법에 관한 것이다.
심화 신경망 기반 모델의 한계점을 극복하기 위하여 생성적 대립 망 기법이 도입되었으며, 생성적 대립 망 기법은 특히 심화 신경망 생성 모델에서 향상된 성능을 도출하였다. 생성적 대립 망 기법은 분류 모델과 생성 모델을 학습시켜 서로 경쟁하게 함으로써 생성 모델의 성능을 극대화 하는 방법이다. 먼저, 분류 모델을 진짜 데이터와 생성 모델을 통해 생성해 낸 가짜 데이터를 구분할 수 있도록 충분히 학습시킨 후에, 분류 모델을 고정시키고 생성 모델이 분류 모델을 최대한 오분류하게 만들 수 있도록 학습시킬 수 있다.
본 실시예들에서는 FFT(Fast Fourier Transform) 및 STFT(Short Time Fourier Transform) 변환을 이용하는 경우를 예로 들어 설명하나, 이는 실시예에 해당되며, FFT 및 STFT 이외에 ISTFT(Inverse Short Time Fourier Transform), DFT(Discrete Fourier Transform), IDFT(Inverse Discrete Fourier Transform) 변환, IFFT(Inverse Fast Fourier Transform) 변환 등이 이용될 수도 있다.
도 1은 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 방법을 나타내는 흐름도이다.
도 1을 참조하면, 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 방법은, 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 단계(110), 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정하는 단계(120), 및 추출된 실제 광대역 신호의 특징벡터와 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 단계(130)를 포함하여 이루어질 수 있다.
여기에서, 학습된 심화 신경망 분류 모델에서 추정된 광대역 신호의 특징벡터가 실제 광대역 신호의 특징벡터로 오판별되도록 심화 신경망 생성 모델 재학습시키는 단계(140)를 더 포함하여 이루어질 수 있다.
종래에는 심화 신경망 생성 모델을 사용한 경우 실제 값을 제대로 추정하지 못하고 추정 값들이 평활화(smoothing)되는 한계점을 보여 왔다. 이러한 한계점들을 원인으로, 특히 고주파 대역 스펙트럼에 대해 과추정이 발생하는 경우 듣기 싫은 잡음을 발생시키는 문제점이 있다.
실제 값의 분포를 제대로 추정하지 못하는 문제점을 해결하기 위하여, 첫 번째로 광대역 신호(정답)에서 특징벡터를 추출하여 심화 신경망 분류 모델을 학습시킬 수 있다. 이 때, 특징벡터는 주파수 축의 스펙트럼 또는 스펙트럼에서 추출한 여러 가지 특징벡터가 되거나 시간 축의 광대역 신호 자체도 가능하다.
광대역 신호를 이용하여 분류 모델을 충분히 학습(정답 학습) 시킨 후에, 다음으로는 협대역 신호와 광대역 신호를 이용하여 심화 신경망 생성 모델을 학습시켜 협대역 신호를 입력으로 추정된 광대역 신호(오답)를 만들어 낼 수 있는 심화 신경망 생성 모델을 만들어 낼 수 있다. 심화 신경망 생성 모델이 충분히 학습된 후, 이전에 협대역 신호와 광대역 신호를 이용하여 학습한 심화 신경망 분류 모델을 이번에는 협대역 신호와 추정된 광대역 신호를 이용하여 충분히 학습(오답 학습)시킬 수 있다.
마지막으로 정답과 오답을 충분히 학습시킨 심화 신경망 분류 모델은 고정시킨 상태로, 심화 신경망 생성 모델을 이용하여 협대역 신호의 특징벡터를 입력으로 하여 광대역 신호의 특징벡터 추정 성능을 향상시킬 수 있다. 이 때, 광대역 신호의 특징벡터 추정 성능을 향상시키는 학습은 심화 신경망 분류 모델을 속이고 광대역 신호(정답)로 분류하게 만드는 방향으로 진행될 수 있다.
심화 신경망 분류 모델을 속일 수 있도록 충분히 학습된 심화 신경망 생성 모델 기반의 고주파 대역 특징벡터 추정 성능은 종래의 심화 신경망 생성 모델보다 향상된 추정 성능을 보이게 될 수 있다.
이와 같이, 실시예들은 분류 모델을 진짜 데이터인 광대역 신호와 생성 모델을 통해 고주파 대역을 생성해 낸 가짜 데이터를 구분할 수 있도록 충분히 학습시킨 후에, 분류 모델을 고정시키고 생성 모델이 실제 광대역 신호와 가까운 고주파 대역을 추정하여 분류 모델을 최대한 오분류하게 만들 수 있도록 학습하는 방법으로 생성적 대립 망을 음성 대역폭 확장 방법에 적용하여 향상된 음성 대역폭 확장 방법을 제공할 수 있다.
아래에서는 생성적 대립 망 기반의 음성 대역폭 확장 방법에 대해 하나의 예를 들어 보다 구체적으로 설명한다.
도 2는 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 장치를 나타내는 블록도이다.
도 1에서 각 단계들(110~140)은 도 2의 구성요소인 특징벡터 추출부(210), 생성 모델링부(220) 및 분류 모델링부(230)에 의해 수행될 수 있다.
도 2에 따르면, 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 장치(200)는 특징벡터 추출부(210), 생성 모델링부(220) 및 분류 모델링부(230)를 포함할 수 있다.
단계(110)에서, 특징벡터 추출부(210)는 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출할 수 있다.
이 때, 광대역 신호를 다운샘플링(Down Sampling)하여 협대역 신호를 생성할 수 있으며, 실제 통신 환경에서의 성능 저하를 반영하기 위해 협대역 코덱(Adaptive Multi-Rate(AMR) 또는 Adaptive Multi-Rate Narrowband(AMR-NB))을 이용하여 협대역 신호를 변형시킬 수도 있다.
단계(120)에서, 생성 모델링부(220)는 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정할 수 있다. 생성 모델링부(220)는 협대역 신호의 특징벡터를 입력으로 심화 신경망 생성 모델을 학습시켜 추정된 광대역 신호의 특징벡터를 출력할 수 있다.
여기에서, 심화 신경망 생성 모델은 DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 적어도 어느 하나일 수 있다. 예컨대, 심화 신경망 생성 모델은 엔코딩(Encoding) 역할을 수행하는 컨벌루셔널 레이어(Convolutional Layer)와 디코딩(Decoding) 역할을 수행하는 디컨벌루셔널 레이어(De-Convolutional Layer)의 대칭 구조의 CNN(Convolutional Neural Networks)일 수 있다.
단계(130)에서, 분류 모델링부(230)는 추출된 실제 광대역 신호의 특징벡터와 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시킬 수 있다.
여기에서, 심화 신경망 분류 모델은 DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 적어도 어느 하나일 수 있다.
분류 모델링부(230)는 추출된 실제 광대역 신호의 특징벡터와 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별할 수 있도록 비용함수를 설계하여 심화 신경망 분류 모델을 학습시킬 수 있다.
단계(140)에서, 생성 모델링부(220)는 학습된 심화 신경망 분류 모델에서 추정된 광대역 신호의 특징벡터가 실제 광대역 신호의 특징벡터로 오판별되도록 심화 신경망 생성 모델 재학습시킬 수 있다.
여기에서, 생성 모델링부(220)는 심화 신경망 분류 모델이 추정된 광대역 신호의 특징벡터가 실제 광대역 신호의 특징벡터로 오판별하는 것을 목적으로 비용함수를 설계하여 학습시킬 수 있다.
실시예들에 따르면 심화 신경망 분류 모델을 실제 광대역 신호의 특징벡터와 심화 신경망 생성 모델을 통해 고주파 대역을 생성해 낸 추정된 광대역 신호의 특징벡터를 구분할 수 있도록 충분히 학습시킨 후, 심화 신경망 분류 모델을 고정시키고 심화 신경망 생성 모델이 실제 광대역 신호의 특징벡터와 가까운 고주파 대역을 추정하여 심화 신경망 분류 모델을 오분류하도록 학습시키는 생성적 대립 망을 통해 음성 대역폭을 확장시킬 수 있다.
본 실시예에서 제안하는 생성적 대립 망의 학습 방법은 다음과 같다. 먼저 협대역 신호의 특징벡터를 이용하여 광대역 신호를 추정할 수 있는 심화 신경망 생성 모델을 학습할 수 있다. 이 때, 특징벡터는 일반적으로 주파수 축의 특징벡터를 사용하나, 시간 축의 신호를 사용하는 것도 가능하다. 다음으로 실제 광대역 신호와 심화 신경망 생성 모델을 이용하여 추정된 광대역 신호를 판별할 수 있는 심화 신경망 분류 모델을 충분히 학습할 수 있다. 심화 신경망 분류 모델이 실제 광대역 신호와 추정된 광대역 신호를 판별 가능하도록 충분히 학습되고 나면, 심화 신경망 생성 모델을 이용하여 추정된 광대역 신호가 심화 신경망 분류 모델을 속이고 실제 광대역 신호로 판별될 수 있도록 심화 신경망 생성 모델을 학습시킬 수 있다.
이하에서는 생성적 대립 망 기반의 음성 대역폭 확장 기술에 대해 보다 상세히 설명하기로 한다.
먼저, 특징벡터 추출부(210)는 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출할 수 있다. 협대역 신호는 광대역 신호를 다운샘플링(Down Sampling)하여 생성하며, 실제 통신 환경에서의 코덱으로 인한 성능 저하를 반영하기 위해 협대역 코덱을 이용하여 성능 저하를 시킬 수 있다. 예컨대, 실제 통신 환경에서의 성능 저하를 반영하기 위해 협대역 코덱(Adaptive Multi-Rate(AMR) 또는 Adaptive Multi-Rate Narrowband(AMR-NB))을 이용하여 협대역 신호를 변형시킬 수도 있다.
협대역 신호와 광대역 신호에서 추출할 특징벡터는 시간 축의 음성 신호 자체가 될 수도 있고, 주파수 축의 로그 파워 스펙트럼(Log Power Spectrum, LPS)이 될 수도 있다.
시간 축의 음성 신호를 특징벡터로 사용할 경우, 협대역 음성 신호를 광대역 신호로 업샘플링(Up Sampling)한 후에 일정한 길이의 프레임으로 나눠서 사용할 수 있다. 예를 들어, 1초 길이의 프레임을 0.5초 길이로 겹치게 나눠서 추출한 후 특징벡터로 사용할 수 있다.
그리고 주파수 축의 로그 파워 스펙트럼을 특징벡터로 사용할 경우, 협대역 음성 신호를 광대역 신호로 업생플링한 후에 일정한 길이의 프레임으로 나눠서 STFT(Short Time Fourier Transform)을 이용하여 주파수 성분의 값을 구할 수 있다.
고주파 대역 확장 방법에 주파수 축의 값을 사용할 경우, 주파수 성분 값을 크기와 위상으로 분리하여 크기 값만을 특징벡터로 사용할 수 있다. 위상 값은 음성 신호의 음질에 크게 영향을 주지 않기 때문에, 위상 값의 일반적인 특성에 따라 협대역의 위상 값을 영점 대칭하여 광대역의 위상 값으로 추정해 사용할 수 있다. 특징벡터로 사용되는 크기 값은 제곱한 후 로그를 취하여 최종적으로 특징벡터로 사용하게 될 수 있다. 이는 사람의 청각적 특성을 잘 반영할 수 있는 범위로 값을 변환해 주기 위함이기도 하며, 심화 신경망 생성 모델의 추정 성능을 향상시키기 위함이기도 하다. 일반적으로 심화 신경망 생성 모델은 값의 범위가 너무 넓을 경우 추정이 잘 되지 않는다.
도 3은 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델의 학습 방법을 설명하기 위한 도면이다.
도 3을 참조하면, 생성 모델링부(220)는 협대역 신호의 특징벡터(301)를 입력으로 광대역 신호의 특징벡터(302)를 추정하는 심화 신경망 생성 모델(310)을 학습시킬 수 있다. 즉, 생성 모델링부(220)는 협대역 신호의 특징벡터(301)를 심화 신경망 생성 모델(310)에 입력하여 광대역 신호의 특징벡터(302)를 추정할 수 있다. 여기에서, 추정된 광대역 신호의 특징벡터(302)는 음성 대역폭 확장(Bandwidth Extension, BWE)이 처리된 신호이다.
이 때, 심화 신경망 생성 모델(310)은 DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 어느 것으로도 설계가 가능하다.
심화 신경망 생성 모델(310)의 비용함수는 평균제곱오차(Mean Squared Error, MSE)를 사용하여, 실제 값과 추정 값의 제곱의 평균이 작아지는 방향으로 학습할 수 있도록 설계할 수 있다.
도 4는 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델(DNN) 구조의 예를 나타내는 도면이다.
도 4를 참조하면, 협대역 신호의 특징벡터(401)를 입력으로 광대역 신호의 특징벡터(402)를 추정하는 심화 신경망 생성 모델(410)을 학습할 수 있다. 여기에서 심화 신경망 생성 모델(410)은 Deep Neural Networks (DNN)이 될 수 있다.
추정된 광대역 신호의 특징벡터(402)는 음성 대역폭 확장(Bandwidth Extension, BWE)이 처리된 신호이고, 403은 실제 광대역 신호를 의미한다.
도 5는 다른 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델(CNN) 구조의 예를 나타내는 도면이다.
도 5를 참조하면, 협대역 신호의 특징벡터(501)를 입력으로 광대역 신호의 특징벡터(502)를 추정하는 심화 신경망 생성 모델(510)을 학습할 수 있다. 여기에서 심화 신경망 생성 모델(510)은 Convolutional Neural Networks (CNN)이 될 수 있다.
다만, CNN으로 심화 신경망 생성 모델(510)을 설계할 경우, 일반적으로 Convolutional Layer, Pooling Layer, Fully Connected Layer로 구성되는 CNN 분류 모델과 달리 컨벌루셔널 레이어(Convolutional Layer)(511)와 디컨벌루셔널 레이어(De-Convolutional Layer)(512)의 대칭 구조를 사용할 수 있다. 여기에서 컨벌루셔널 레이어(Convolutional Layer)(511)는 엔코딩(Encoding) 역할을 수행하며, 디컨벌루셔널 레이어(De-Convolutional Layer)(512)는 디코딩(Decoding) 역할을 수행할 수 있다.
도 6은 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장을 위한 심화 신경망 분류 모델의 학습 방법을 설명하기 위한 도면이다.
도 6을 참조하면, 분류 모델링부(230)는 실제 광대역 신호의 특징벡터(601)와 심화 신경망 생성 모델(610)을 이용하여 추정된 광대역 신호의 특징벡터(603)를 잘 판별할 수 있는 심화 신경망 분류 모델(620)을 학습시킬 수 있다. 추정된 광대역 신호의 특징벡터(603)는 협대역 신호의 특징벡터(602)로부터 음성 대역폭 확장(Bandwidth Extension, BWE)이 처리된 신호이다.
여기에서, 심화 신경망 생성 모델(610) 또는 심화 신경망 분류 모델(620)은 DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 어느 것으로도 설계가 가능하다.
비용함수는 아래 식과 같이 실제 광대역 신호 x의 분류 결과인 D(x)를 1로, 추정된 광대역 신호 G(z)의 분류 결과인 D(G(z))를 0으로 판별하도록 설계할 수 있다.
[식 1]
여기에서, z는 협대역 신호의 특징벡터이고, x는 실제 광대역 신호의 특징벡터일 수 있다. 그리고 D(x)는 심화 신경망 분류 모델의 결과를 나타내고, G(z)는 심화 신경망 생성 모델의 결과를 나타낼 수 있다. 또한, x~p(x), z~p(z)는 데이터의 샘플링을 의미하며 E는 기댓값을 나타낼 수 있다. LSGAN은 Least-Square Generative Adversarial Networks를 의미하는 것으로, 심화 신경망 분류 모델이 위의 비용함수를 최소화하도록 모델을 학습시키는 과정이다.
도 7은 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장을 위한 심화 신경망 생성 모델의 재학습 방법을 설명하기 위한 도면이다.
도 7을 참조하면, 생성 모델링부(220)는 학습된 심화 신경망 분류 모델(720)에서 추정된 광대역 신호의 특징벡터(702)가 실제 광대역 신호로 오판별되도록 심화 신경망 생성 모델(710)을 추가 학습시킬 수 있다. 즉, 생성 모델링부(220)는 학습된 심화 신경망 분류 모델(720)에서 추정된 광대역 신호의 특징벡터(702)가 실제 광대역 신호로 오판별되도록 심화 신경망 생성 모델(710)을 재학습시킬 수 있다.
이 때, 생성 모델링부(220)는 심화 신경망 분류 모델(720)은 업데이트 하지 않고 고정된 상태이며, 오직 심화 신경망 생성 모델(710)만 심화 신경망 분류 모델(720)을 속일 수 있는 방향으로 학습시킬 수 있다.
비용함수는 아래와 같이 G(z)의 분류 결과인 D(G(z))가 1에 가까운 값을 가지도록 설계할 수 있다.
[식 2]
여기에서, z는 협대역 신호의 특징벡터이고, x는 실제 광대역 신호의 특징벡터일 수 있다. 그리고 D(x)는 심화 신경망 분류 모델의 결과를 나타내고, G(z)는 심화 신경망 생성 모델의 결과를 나타낼 수 있다. 또한, x~p(x), z~p(z)는 데이터의 샘플링을 의미하며 E는 기댓값을 나타낼 수 있다. LSGAN은 Least-Square Generative Adversarial Networks를 의미하는 것으로, 심화 신경망 생성 모델의 결과가 심화 신경망 분류 모델에서 실제 광대역 신호로 판별되어 위의 비용함수가 최소화되도록 모델을 학습시키는 과정이다.
아래에서는 고주파 대역 확장 방법의 평가 방법을 설명한다.
고주파 대역 확장 방법의 주요 평가 방법으로는 MOS(Mean Opinion Score)가 있다. 실제 목표 신호인 광대역 신호를 비롯하여, 광대역 코덱 기반의 광대역 음성 신호, 협대역 코덱 기반의 협대역 음성 신호, 레퍼런스(Reference) 고주파 대역 확장 방법, 제안하는 고주파 대역 확장 방법을 듣고 평가하는 방식이다. MOS 평가는 크게 ACR(Absolute Category Rating), DCR(Degradation Category Rating) 방식으로 나눌 수 있는데, ACR은 소리를 한번 듣고 1~5점의 점수로 소리가 얼마나 좋게 들리는지 평가하는 방법이며, DCR은 광대역 음성 신호 (5점)를 한 번 듣고, 평가할 소리를 듣고 광대역 신호에 비해 소리가 얼마나 좋지 않은지 1~5점의 점수로 평가하는 방법이다.
표 1은 일 실시예에 따른 음성 대역폭 확장 방법 주관적 평가 방법(MOS)의 예를 나타낸다.
표 1에서, MOS 측정 결과 조용한 환경(Clean)에서는 일 실시예에 따른 기술(BWE-GAN)이 종래 고주파 대역 확장 기술(Ref-BWE)보다 약 0.21점, 노이즈 환경(Babble)에서는 약 0.22점이 상승하였으며, 전체 데이터 상으로는 상승하는 것을 확인할 수 있다.
고주파 대역 확장 방법의 보조 평가 방법으로는 PESQ(Perceptual Evaluation of Speech Quality)가 있다. 이 방법은 객관적 평가 방법으로, 알고리즘에 음성 신호를 입력하여 점수로 평가하는 방법이다. 예컨대, 알고리즘에 음성 신호를 입력하여 -0.5~4.5의 점수로 평가할 수 있다. 객관적 평가 방법으로 얻은 점수는 고주파 대역 확장 방법에 있어서 점수와 음질이 비례하지 않는 경향을 보여 보조적인 평가 방법으로 사용되고 있으며, PESQ 이외에 Segmental SNR 등이 사용될 수 있다.
표 2는 일 실시예에 따른 음성 대역폭 확장 방법 객관적 평가 방법(PESQ)의 예를 나타낸다.
표 2에서, PESQ 측정 결과 조용한 환경(Clean)에서는 일 실시예에 따른 기술(BWE-GAN)이 종래 고주파 대역 확장 기술(Ref-BWE)보다 약 0.24점, 노이즈 환경(Babble)에서는 약 0.13점이 상승하였으며, 전체 데이터 상으로는 상승하는 것을 확인할 수 있다.
이와 같이, 실시예들에 따르면 음성대역폭 확장기 및 확장 방법을 사용하여, 음성 통신 환경에서 코덱 변환이나 전송비트율의 확장 없이 더 넓은 대역폭의 음성을 들을 수 있다. 특히, 생성적 대립 망을 이용하여 심화 신경망 기반 생성 모델의 추정 성능을 극대화함으로써 기존 심화 신경망 기반 생성 모델을 이용한 방법의 한계로 인해 발생되는 사람이 듣기 불편한 인위적인 소리의 합성 없이 향상된 음성 통화 품질을 기대할 수 있으며, 나아가서 음성인식기에 적용되어 기존 협대역 코덱을 사용했을 때와 같은 전송속도로 더 높은 수준의 음성인식률을 제공할 수 있다.
이러한 본 실시예에 따른 기술은 유무선 음성통신 단말기, 인터넷 망 음성통화 서비스, 모바일 인터넷 망 음성통화 서비스, 음성인식 어플리케이션, 스마트폰 블루투스 통신 시스템, 음성 향상 시스템, 무선 통신 시스템 등에 적용 가능하다.
또한, 기존에 협대역 통신망을 사용하는 유무선전화기, 스마트폰, VoIP 등의 통신 시스템에 적용되어 통화 음성 품질을 향상시킬 수 있으며, 또한 서버 기반의 음성인식기에서 음성 대역폭의 확장을 통한 음성인식률 향상이 가능하다. 더욱이, 협대역 통신망 기반의 유무선전화기, 스마트폰, VoIP, 블루투스 음성 송수신 시스템, 음성인식기가 필요한 스마트폰 어플리케이션에 적용 가능하다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
Claims (15)
- 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 단계;상기 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정하는 단계; 및추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 단계를 포함하는 생성적 대립 망 기반의 음성 대역폭 확장 방법.
- 제1항에 있어서,상기 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정하는 단계는,상기 협대역 신호의 특징벡터를 입력으로 심화 신경망 생성 모델을 학습시켜 추정된 광대역 신호의 특징벡터를 출력하는 것을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법.
- 제2항에 있어서,학습된 상기 심화 신경망 분류 모델에서 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별되도록 상기 심화 신경망 생성 모델 재학습시키는 단계를 더 포함하는 생성적 대립 망 기반의 음성 대역폭 확장 방법.
- 제3항에 있어서,상기 심화 신경망 분류 모델에서 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별되도록 상기 심화 신경망 생성 모델 재학습시키는 단계는,상기 심화 신경망 분류 모델이 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별하는 것을 목적으로 비용함수를 설계하여 학습시키는 것을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법.
- 제1항에 있어서,상기 추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 단계는,추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별할 수 있도록 비용함수를 설계하여 상기 심화 신경망 분류 모델을 학습시키는 것을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법.
- 제1항 또는 제2항에 있어서,상기 심화 신경망 생성 모델 또는 상기 심화 신경망 분류 모델은,DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 적어도 어느 하나인 것을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법.
- 제6항에 있어서,상기 심화 신경망 생성 모델은,엔코딩(Encoding) 역할을 수행하는 컨벌루셔널 레이어(Convolutional Layer)와 디코딩(Decoding) 역할을 수행하는 디컨벌루셔널 레이어(De-Convolutional Layer)의 대칭 구조의 상기 CNN(Convolutional Neural Networks)인 것을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법.
- 제2항에 있어서,상기 심화 신경망 분류 모델을 상기 실제 광대역 신호의 특징벡터와 상기 심화 신경망 생성 모델을 통해 고주파 대역을 생성해 낸 상기 추정된 광대역 신호의 특징벡터를 구분할 수 있도록 충분히 학습시킨 후, 상기 심화 신경망 분류 모델을 고정시키고 상기 심화 신경망 생성 모델이 상기 실제 광대역 신호의 특징벡터와 가까운 고주파 대역을 추정하여 상기 심화 신경망 분류 모델을 오분류하도록 학습시키는 생성적 대립 망을 통해 음성 대역폭을 확장시키는 것을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법.
- 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 특징벡터 추출부;상기 협대역 신호의 특징벡터를 입력으로 심화 신경망 생성 모델을 학습시켜 추정된 광대역 신호의 특징벡터를 출력하는 생성 모델링부; 및추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 분류 모델링부를 포함하는 생성적 대립 망 기반의 음성 대역폭 확장 장치.
- 제9항에 있어서,상기 생성 모델링부는,학습된 상기 심화 신경망 분류 모델에서 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별되도록 상기 심화 신경망 생성 모델 재학습시키는 것을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치.
- 제10항에 있어서,상기 생성 모델링부는,상기 심화 신경망 분류 모델이 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별하는 것을 목적으로 비용함수를 설계하여 학습시키는 것을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치.
- 제10항에 있어서,상기 분류 모델링부는,추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별할 수 있도록 비용함수를 설계하여 상기 심화 신경망 분류 모델을 학습시키는 것을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치.
- 제10항에 있어서,상기 심화 신경망 생성 모델 또는 상기 심화 신경망 분류 모델은,DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 적어도 어느 하나인 것을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치.
- 제13항에 있어서,상기 심화 신경망 생성 모델은,엔코딩(Encoding) 역할을 수행하는 컨벌루셔널 레이어(Convolutional Layer)와 디코딩(Decoding) 역할을 수행하는 디컨벌루셔널 레이어(De-Convolutional Layer)의 대칭 구조의 상기 CNN(Convolutional Neural Networks)인 것을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치.
- 제10항에 있어서,상기 심화 신경망 분류 모델을 상기 실제 광대역 신호의 특징벡터와 상기 심화 신경망 생성 모델을 통해 고주파 대역을 생성해 낸 상기 추정된 광대역 신호의 특징벡터를 구분할 수 있도록 충분히 학습시킨 후, 상기 심화 신경망 분류 모델을 고정시키고 상기 심화 신경망 생성 모델이 상기 실제 광대역 신호의 특징벡터와 가까운 고주파 대역을 추정하여 상기 심화 신경망 분류 모델을 오분류하도록 학습시키는 생성적 대립 망을 통해 음성 대역폭을 확장시키는 것을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/618,672 US11238877B2 (en) | 2017-06-27 | 2018-05-17 | Generative adversarial network-based speech bandwidth extender and extension method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170081024A KR102002681B1 (ko) | 2017-06-27 | 2017-06-27 | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 |
KR10-2017-0081024 | 2017-06-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019004592A1 true WO2019004592A1 (ko) | 2019-01-03 |
Family
ID=64741666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2018/005647 WO2019004592A1 (ko) | 2017-06-27 | 2018-05-17 | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11238877B2 (ko) |
KR (1) | KR102002681B1 (ko) |
WO (1) | WO2019004592A1 (ko) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390950A (zh) * | 2019-08-17 | 2019-10-29 | 杭州派尼澳电子科技有限公司 | 一种基于生成对抗网络的端到端语音增强方法 |
CN111508508A (zh) * | 2020-04-15 | 2020-08-07 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种超分辨率音频生成方法及设备 |
WO2021046683A1 (zh) * | 2019-09-09 | 2021-03-18 | 深圳大学 | 一种基于生成式对抗网络的语音处理方法及装置 |
WO2021052285A1 (zh) * | 2019-09-18 | 2021-03-25 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN112562707A (zh) * | 2020-11-30 | 2021-03-26 | 哈尔滨工程大学 | 一种单信道目标语音增强方法 |
EP3982362A4 (en) * | 2019-10-30 | 2022-11-09 | Tencent Technology (Shenzhen) Company Limited | SOUND PROCESSING METHOD, DEVICE, COMPUTER DEVICE AND STORAGE MEDIA |
EP4210048A4 (en) * | 2020-09-03 | 2024-02-21 | Sony Group Corporation | SIGNAL PROCESSING APPARATUS AND METHOD, LEARNING APPARATUS AND METHOD AND PROGRAM |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110867191B (zh) * | 2018-08-28 | 2024-06-25 | 洞见未来科技股份有限公司 | 语音处理方法、信息装置与计算机程序产品 |
EP3844749B1 (en) * | 2018-08-30 | 2023-12-27 | Dolby International AB | Method and apparatus for controlling enhancement of low-bitrate coded audio |
US12045726B2 (en) * | 2019-02-08 | 2024-07-23 | DeepSig Inc. | Adversarially generated communications |
KR102096598B1 (ko) * | 2019-05-02 | 2020-04-03 | 넷마블 주식회사 | 애니메이션 생성 방법 |
US11501787B2 (en) * | 2019-08-22 | 2022-11-15 | Google Llc | Self-supervised audio representation learning for mobile devices |
CN113066483B (zh) * | 2019-12-31 | 2024-01-30 | 广州航海学院 | 一种基于稀疏连续约束的生成对抗网络语音增强方法 |
EP4100947A4 (en) * | 2020-02-03 | 2024-06-12 | Pindrop Security, Inc. | ENROLLMENT AND AUTHENTICATION OF CHANNELS BY VOICE BIOMETRICS |
KR20210142930A (ko) * | 2020-05-19 | 2021-11-26 | 삼성에스디에스 주식회사 | 퓨 샷 학습 방법 및 이를 수행하기 위한 장치 |
KR102334390B1 (ko) * | 2020-06-24 | 2021-12-01 | 연세대학교 산학협력단 | 인공지능 기술을 활용한 코덱 압축 효율 향상 장치 및 방법 |
CN114071106B (zh) * | 2020-08-10 | 2023-07-04 | 合肥君正科技有限公司 | 一种低功耗设备冷启动快速白平衡方法 |
KR102549575B1 (ko) * | 2020-10-15 | 2023-06-28 | 한국로봇융합연구원 | 천적음 생성 장치 및 방법 |
US11985179B1 (en) * | 2020-11-23 | 2024-05-14 | Amazon Technologies, Inc. | Speech signal bandwidth extension using cascaded neural networks |
US20230076431A1 (en) * | 2021-09-09 | 2023-03-09 | Nvidia Corporation | Audio upsampling using one or more neural networks |
CN114420140B (zh) * | 2022-03-30 | 2022-06-21 | 北京百瑞互联技术有限公司 | 基于生成对抗网络的频带扩展方法、编解码方法及系统 |
CN114582361B (zh) * | 2022-04-29 | 2022-07-08 | 北京百瑞互联技术有限公司 | 基于生成对抗网络的高解析度音频编解码方法及系统 |
US11895344B1 (en) | 2022-12-09 | 2024-02-06 | International Business Machines Corporation | Distribution of media content enhancement with generative adversarial network migration |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003526123A (ja) * | 2000-03-07 | 2003-09-02 | ノキア コーポレイション | 音声復号器及び音声を復号化する方法 |
JP2004252477A (ja) * | 2004-04-09 | 2004-09-09 | Mitsubishi Electric Corp | 広帯域音声復元装置 |
KR20070085982A (ko) * | 2004-12-10 | 2007-08-27 | 마츠시타 덴끼 산교 가부시키가이샤 | 광대역 부호화 장치, 광대역 lsp 예측 장치, 대역스케일러블 부호화 장치 및 광대역 부호화 방법 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1686565B1 (en) * | 2005-01-31 | 2007-05-02 | Harman Becker Automotive Systems GmbH | Bandwidth extension of bandlimited speech data |
KR100762596B1 (ko) | 2006-04-05 | 2007-10-01 | 삼성전자주식회사 | 음성 신호 전처리 시스템 및 음성 신호 특징 정보 추출방법 |
US9454958B2 (en) * | 2013-03-07 | 2016-09-27 | Microsoft Technology Licensing, Llc | Exploiting heterogeneous data in deep neural network-based speech recognition systems |
US10581469B1 (en) * | 2017-04-17 | 2020-03-03 | DeepSig Inc. | Machine learning-based nonlinear pre-distortion system |
WO2018231708A2 (en) * | 2017-06-12 | 2018-12-20 | D5Ai Llc | Robust anti-adversarial machine learning |
-
2017
- 2017-06-27 KR KR1020170081024A patent/KR102002681B1/ko active IP Right Grant
-
2018
- 2018-05-17 US US16/618,672 patent/US11238877B2/en active Active
- 2018-05-17 WO PCT/KR2018/005647 patent/WO2019004592A1/ko active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003526123A (ja) * | 2000-03-07 | 2003-09-02 | ノキア コーポレイション | 音声復号器及び音声を復号化する方法 |
JP2004252477A (ja) * | 2004-04-09 | 2004-09-09 | Mitsubishi Electric Corp | 広帯域音声復元装置 |
KR20070085982A (ko) * | 2004-12-10 | 2007-08-27 | 마츠시타 덴끼 산교 가부시키가이샤 | 광대역 부호화 장치, 광대역 lsp 예측 장치, 대역스케일러블 부호화 장치 및 광대역 부호화 방법 |
Non-Patent Citations (2)
Title |
---|
NOH, KYOUNG JIN ET AL.: "Ensemble of Deep Neural Networks for Artificial Noise Robust Speech Bandwidth Extension", PROCEEDINGS OF THE 2017 KOREAN INSTITUTE OF COMMUNICATIONS AND INFORMATION SCIENCES SUMMER CONFERENCE, 21 June 2017 (2017-06-21), pages 792 - 793, Retrieved from the Internet <URL:http://www.dbpia.co.kr/Jounial/ArticleDetail/NODE07218463> * |
ZHANG, XIAO-LEI ET AL.: "Deep Belief Networks Based Voice Activity Detection", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 21, no. 4, April 2013 (2013-04-01), pages 697 - 710, XP011500336, Retrieved from the Internet <URL:http://ieeexptore.ieee.org/document/6362186> * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390950A (zh) * | 2019-08-17 | 2019-10-29 | 杭州派尼澳电子科技有限公司 | 一种基于生成对抗网络的端到端语音增强方法 |
CN110390950B (zh) * | 2019-08-17 | 2021-04-09 | 浙江树人学院(浙江树人大学) | 一种基于生成对抗网络的端到端语音增强方法 |
WO2021046683A1 (zh) * | 2019-09-09 | 2021-03-18 | 深圳大学 | 一种基于生成式对抗网络的语音处理方法及装置 |
WO2021052285A1 (zh) * | 2019-09-18 | 2021-03-25 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
US12002479B2 (en) | 2019-09-18 | 2024-06-04 | Tencent Technology (Shenzhen) Company Limited | Bandwidth extension method and apparatus, electronic device, and computer-readable storage medium |
EP3982362A4 (en) * | 2019-10-30 | 2022-11-09 | Tencent Technology (Shenzhen) Company Limited | SOUND PROCESSING METHOD, DEVICE, COMPUTER DEVICE AND STORAGE MEDIA |
US11869524B2 (en) | 2019-10-30 | 2024-01-09 | Tencent Technology (Shenzhen) Company Limited | Audio processing method and apparatus, computer device, and storage medium |
CN111508508A (zh) * | 2020-04-15 | 2020-08-07 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种超分辨率音频生成方法及设备 |
EP4210048A4 (en) * | 2020-09-03 | 2024-02-21 | Sony Group Corporation | SIGNAL PROCESSING APPARATUS AND METHOD, LEARNING APPARATUS AND METHOD AND PROGRAM |
CN112562707A (zh) * | 2020-11-30 | 2021-03-26 | 哈尔滨工程大学 | 一种单信道目标语音增强方法 |
Also Published As
Publication number | Publication date |
---|---|
KR102002681B1 (ko) | 2019-07-23 |
US11238877B2 (en) | 2022-02-01 |
KR20190001280A (ko) | 2019-01-04 |
US20210166705A1 (en) | 2021-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019004592A1 (ko) | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 | |
JP6535706B2 (ja) | データセットの3値ビットマップを作成するための方法 | |
WO2018190547A1 (ko) | 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치 | |
KR100636317B1 (ko) | 분산 음성 인식 시스템 및 그 방법 | |
CN107799126A (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
CN110970053A (zh) | 一种基于深度聚类的多通道与说话人无关语音分离方法 | |
Strake et al. | Separated noise suppression and speech restoration: LSTM-based speech enhancement in two stages | |
KR101998950B1 (ko) | 인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN109360572A (zh) | 通话分离方法、装置、计算机设备及存储介质 | |
WO2016137042A1 (ko) | 사용자 인식을 위한 특징 벡터를 변환하는 방법 및 디바이스 | |
CN108962231A (zh) | 一种语音分类方法、装置、服务器及存储介质 | |
CN113870893B (zh) | 一种多通道双说话人分离方法及系统 | |
JP7486266B2 (ja) | 深層フィルタを決定するための方法および装置 | |
Ayhan et al. | Robust speaker identification algorithms and results in noisy environments | |
CN111916057A (zh) | 一种语言识别方法、装置、电子设备及计算机可读存储介质 | |
US11107476B2 (en) | Speaker estimation method and speaker estimation device | |
CN111833897B (zh) | 一种用于交互式教育的语音增强方法 | |
CN112992174A (zh) | 一种语音分析方法及其语音记录装置 | |
Jahanirad et al. | Blind source computer device identification from recorded VoIP calls for forensic investigation | |
KR101022457B1 (ko) | Casa 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법 | |
JP2013235050A (ja) | 情報処理装置及び方法、並びにプログラム | |
Bharti et al. | Speech Enhancement And Noise Reduction In Forensic Applications | |
KR20010036358A (ko) | 전화음성을 이용한 문장독립형 화자식별방법 | |
CN117727311B (zh) | 音频处理方法及装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18822945 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 18822945 Country of ref document: EP Kind code of ref document: A1 |