KR20190001280A - 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 - Google Patents
생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 Download PDFInfo
- Publication number
- KR20190001280A KR20190001280A KR1020170081024A KR20170081024A KR20190001280A KR 20190001280 A KR20190001280 A KR 20190001280A KR 1020170081024 A KR1020170081024 A KR 1020170081024A KR 20170081024 A KR20170081024 A KR 20170081024A KR 20190001280 A KR20190001280 A KR 20190001280A
- Authority
- KR
- South Korea
- Prior art keywords
- feature vector
- neural network
- signal
- wideband signal
- deepened
- Prior art date
Links
- 239000013598 vector Substances 0.000 claims abstract description 159
- 238000013528 artificial neural network Methods 0.000 claims abstract description 145
- 238000000034 method Methods 0.000 claims abstract description 82
- 238000013145 classification model Methods 0.000 claims abstract description 72
- 238000013527 convolutional neural network Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 19
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 10
- 238000003062 neural network model Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 239000004606 Fillers/Extenders Substances 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Telephonic Communication Services (AREA)
Abstract
생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법이 제시된다. 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 방법은, 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 단계; 상기 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정하는 단계; 및 추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 단계를 포함하여 이루어질 수 있다.
Description
아래의 실시예들은 음성 대역폭 확장기 및 확장 방법에 관한 것으로, 협대역 음성 신호를 광대역 음성 신호로 확장하여 음성 통화 품질을 향상시키는 기술에 관한 것이다.
기존의 음성 대역폭 확장기 기술은 다양한 기계학습 기법을 기반으로 하여 고주파 대역의 정보를 추정하는 방법들이 시도되어 왔으며, 특히 최근에는 심화 신경망을 이용한 방법들이 많이 시도되고 있다. 심화 신경망(Deep Neural Network, DNN)은 머신 러닝(machine learning) 기법으로서, 다수의 은닉 층(layer)과 은닉 노드들을 이용하여 입력과 출력 간의 비선형적인 관계를 효과적으로 모델링하는 것이 가능하며, 최근 음성뿐 아니라 다양한 분야에서 뛰어난 성능을 보이고 있는 기술이다.
심화 신경망을 이용한 방법은 크게 두 가지로 나눠지는데, 하나는 기존의 기계학습 분류 모델을 심화 신경망 분류 모델로 단순 대체하는 방법이고, 다른 하나는 심화 신경망 생성 모델을 이용하여 고주파 대역의 성분을 직접적으로 추정하는 방법이다.
심화 신경망 분류 모델을 사용한 경우 기존의 기계학습 분류 모델을 사용했을 때 보다는 성능이 향상되었으나 모든 음성의 특징을 몇 개의 등급으로 나눠서 추정하는 방법에서 오는 추정 성능의 한계점이 있으며, 심화 신경망 생성 모델을 사용한 경우 실제 값을 제대로 추정하지 못하고 추정 값들이 평활화(smoothing)되는 한계점을 보여 왔다. 이러한 한계점들을 원인으로, 특히 고주파 대역 스펙트럼에 대해 과추정이 발생하는 경우 듣기 싫은 잡음을 발생시키는 문제점이 있다.
한국등록특허 10-0762596호는 음성 신호 전처리 시스템 및 음성 신호 특징 정보 추출 방법에 관한 것으로, 신경망 인식 방법을 이용하여 음성 신호를 전처리하는 기술을 기재하고 있다.
실시예들은 음성 대역폭 확장기 및 확장 방법에 관하여 기술하며, 보다 구체적으로 생성적 대립 망을 이용하여 음성 신호의 고주파 대역을 추정하는 음성 대역폭 확장기 및 확장 방법을 제공한다.
실시예들은 분류 모델을 진짜 데이터인 광대역 신호와 생성 모델을 통해 고주파 대역을 생성해 낸 가짜 데이터를 구분할 수 있도록 충분히 학습시킨 후에, 분류 모델을 고정시키고 생성 모델이 실제 광대역 신호와 가까운 고주파 대역을 추정하여 분류 모델을 최대한 오분류하게 만들 수 있도록 학습하는 방법으로 생성적 대립 망을 음성 대역폭 확장 방법에 적용하여 향상된 음성 대역폭 확장 방법을 제공하는데 있다.
일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 방법은, 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 단계; 상기 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정하는 단계; 및 추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 단계를 포함하여 이루어질 수 있다.
상기 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정하는 단계는, 상기 협대역 신호의 특징벡터를 입력으로 심화 신경망 생성 모델을 학습시켜 추정된 광대역 신호의 특징벡터를 출력할 수 있다.
학습된 상기 심화 신경망 분류 모델에서 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별되도록 상기 심화 신경망 생성 모델 재학습시키는 단계를 더 포함할 수 있다.
상기 심화 신경망 분류 모델에서 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별되도록 상기 심화 신경망 생성 모델 재학습시키는 단계는, 상기 심화 신경망 분류 모델이 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별하는 것을 목적으로 비용함수를 설계하여 학습시킬 수 있다.
상기 추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 단계는, 추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별할 수 있도록 비용함수를 설계하여 상기 심화 신경망 분류 모델을 학습시킬 수 있다.
상기 심화 신경망 생성 모델 또는 상기 심화 신경망 분류 모델은, DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 적어도 어느 하나일 수 있다.
상기 심화 신경망 생성 모델은, 엔코딩(Encoding) 역할을 수행하는 컨벌루셔널 레이어(Convolutional Layer)와 디코딩(Decoding) 역할을 수행하는 디컨벌루셔널 레이어(De-Convolutional Layer)의 대칭 구조의 상기 CNN(Convolutional Neural Networks)일 수 있다.
상기 심화 신경망 분류 모델을 상기 실제 광대역 신호의 특징벡터와 상기 심화 신경망 생성 모델을 통해 고주파 대역을 생성해 낸 상기 추정된 광대역 신호의 특징벡터를 구분할 수 있도록 충분히 학습시킨 후, 상기 심화 신경망 분류 모델을 고정시키고 상기 심화 신경망 생성 모델이 상기 실제 광대역 신호의 특징벡터와 가까운 고주파 대역을 추정하여 상기 심화 신경망 분류 모델을 오분류하도록 학습시키는 생성적 대립 망을 통해 음성 대역폭을 확장시킬 수 있다.
다른 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 장치는, 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 특징벡터 추출부; 상기 협대역 신호의 특징벡터를 입력으로 심화 신경망 생성 모델을 학습시켜 추정된 광대역 신호의 특징벡터를 출력하는 생성 모델링부; 및 추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 분류 모델링부를 포함하여 이루어질 수 있다.
상기 생성 모델링부는, 학습된 상기 심화 신경망 분류 모델에서 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별되도록 상기 심화 신경망 생성 모델을 재학습시킬 수 있다.
상기 생성 모델링부는, 상기 심화 신경망 분류 모델이 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별하는 것을 목적으로 비용함수를 설계하여 학습시킬 수 있다.
상기 분류 모델링부는, 추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별할 수 있도록 비용함수를 설계하여 상기 심화 신경망 분류 모델을 학습시킬 수 있다.
상기 심화 신경망 생성 모델 또는 상기 심화 신경망 분류 모델은, DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 적어도 어느 하나일 수 있다.
상기 심화 신경망 생성 모델은, 엔코딩(Encoding) 역할을 수행하는 컨벌루셔널 레이어(Convolutional Layer)와 디코딩(Decoding) 역할을 수행하는 디컨벌루셔널 레이어(De-Convolutional Layer)의 대칭 구조의 상기 CNN(Convolutional Neural Networks)일 수 있다.
상기 심화 신경망 분류 모델을 상기 실제 광대역 신호의 특징벡터와 상기 심화 신경망 생성 모델을 통해 고주파 대역을 생성해 낸 상기 추정된 광대역 신호의 특징벡터를 구분할 수 있도록 충분히 학습시킨 후, 상기 심화 신경망 분류 모델을 고정시키고 상기 심화 신경망 생성 모델이 상기 실제 광대역 신호의 특징벡터와 가까운 고주파 대역을 추정하여 상기 심화 신경망 분류 모델을 오분류하도록 학습시키는 생성적 대립 망을 통해 음성 대역폭을 확장시킬 수 있다.
실시예들에 따르면 음성 통신 환경에서 코덱 변환이나 전송비트율의 확장 없이 더 넓은 대역폭의 음성을 들을 수 있는 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법을 제공할 수 있다. 특히, 생성적 대립 망을 이용하여 심화 신경망 기반 생성 모델의 추정 성능을 극대화함으로써 기존 심화 신경망 기반 생성 모델을 이용한 방법의 한계로 인해 발생되는 사람이 듣기 불편한 인위적인 소리의 합성 없이 향상된 음성 통화 품질을 기대할 수 있으며, 나아가서 음성인식기에 적용되어 기존 협대역 코덱을 사용했을 때와 같은 전송속도로 더 높은 수준의 음성인식률을 제공할 수 있다.
도 1은 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 방법을 나타내는 흐름도이다.
도 2는 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 장치를 나타내는 블록도이다.
도 3은 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델의 학습 방법을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델(DNN) 구조의 예를 나타내는 도면이다.
도 5는 다른 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델(CNN) 구조의 예를 나타내는 도면이다.
도 6은 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장을 위한 심화 신경망 분류 모델의 학습 방법을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장을 위한 심화 신경망 생성 모델의 재학습 방법을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 장치를 나타내는 블록도이다.
도 3은 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델의 학습 방법을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델(DNN) 구조의 예를 나타내는 도면이다.
도 5는 다른 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델(CNN) 구조의 예를 나타내는 도면이다.
도 6은 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장을 위한 심화 신경망 분류 모델의 학습 방법을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장을 위한 심화 신경망 생성 모델의 재학습 방법을 설명하기 위한 도면이다.
이하, 첨부된 도면을 참조하여 실시예들을 설명한다. 그러나, 기술되는 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시예들에 의하여 한정되는 것은 아니다. 또한, 여러 실시예들은 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다. 도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
아래의 실시예들은 음성 대역폭 확장기 및 확장 방법에 관한 것으로, 보다 구체적으로는 생성적 대립 망을 이용하여 음성 신호의 고주파 대역을 추정하는 음성 대역폭 확장기 및 확장 방법에 관한 것이다.
심화 신경망 기반 모델의 한계점을 극복하기 위하여 생성적 대립 망 기법이 도입되었으며, 생성적 대립 망 기법은 특히 심화 신경망 생성 모델에서 향상된 성능을 도출하였다. 생성적 대립 망 기법은 분류 모델과 생성 모델을 학습시켜 서로 경쟁하게 함으로써 생성 모델의 성능을 극대화 하는 방법이다. 먼저, 분류 모델을 진짜 데이터와 생성 모델을 통해 생성해 낸 가짜 데이터를 구분할 수 있도록 충분히 학습시킨 후에, 분류 모델을 고정시키고 생성 모델이 분류 모델을 최대한 오분류하게 만들 수 있도록 학습시킬 수 있다.
본 실시예들에서는 FFT(Fast Fourier Transform) 및 STFT(Short Time Fourier Transform) 변환을 이용하는 경우를 예로 들어 설명하나, 이는 실시예에 해당되며, FFT 및 STFT 이외에 ISTFT(Inverse Short Time Fourier Transform), DFT(Discrete Fourier Transform), IDFT(Inverse Discrete Fourier Transform) 변환, IFFT(Inverse Fast Fourier Transform) 변환 등이 이용될 수도 있다.
도 1은 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 방법을 나타내는 흐름도이다.
도 1을 참조하면, 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 방법은, 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 단계(110), 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정하는 단계(120), 및 추출된 실제 광대역 신호의 특징벡터와 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 단계(130)를 포함하여 이루어질 수 있다.
여기에서, 학습된 심화 신경망 분류 모델에서 추정된 광대역 신호의 특징벡터가 실제 광대역 신호의 특징벡터로 오판별되도록 심화 신경망 생성 모델 재학습시키는 단계(140)를 더 포함하여 이루어질 수 있다.
종래에는 심화 신경망 생성 모델을 사용한 경우 실제 값을 제대로 추정하지 못하고 추정 값들이 평활화(smoothing)되는 한계점을 보여 왔다. 이러한 한계점들을 원인으로, 특히 고주파 대역 스펙트럼에 대해 과추정이 발생하는 경우 듣기 싫은 잡음을 발생시키는 문제점이 있다.
실제 값의 분포를 제대로 추정하지 못하는 문제점을 해결하기 위하여, 첫 번째로 광대역 신호(정답)에서 특징벡터를 추출하여 심화 신경망 분류 모델을 학습시킬 수 있다. 이 때, 특징벡터는 주파수 축의 스펙트럼 또는 스펙트럼에서 추출한 여러 가지 특징벡터가 되거나 시간 축의 광대역 신호 자체도 가능하다.
광대역 신호를 이용하여 분류 모델을 충분히 학습(정답 학습) 시킨 후에, 다음으로는 협대역 신호와 광대역 신호를 이용하여 심화 신경망 생성 모델을 학습시켜 협대역 신호를 입력으로 추정된 광대역 신호(오답)를 만들어 낼 수 있는 심화 신경망 생성 모델을 만들어 낼 수 있다. 심화 신경망 생성 모델이 충분히 학습된 후, 이전에 협대역 신호와 광대역 신호를 이용하여 학습한 심화 신경망 분류 모델을 이번에는 협대역 신호와 추정된 광대역 신호를 이용하여 충분히 학습(오답 학습)시킬 수 있다.
마지막으로 정답과 오답을 충분히 학습시킨 심화 신경망 분류 모델은 고정시킨 상태로, 심화 신경망 생성 모델을 이용하여 협대역 신호의 특징벡터를 입력으로 하여 광대역 신호의 특징벡터 추정 성능을 향상시킬 수 있다. 이 때, 광대역 신호의 특징벡터 추정 성능을 향상시키는 학습은 심화 신경망 분류 모델을 속이고 광대역 신호(정답)로 분류하게 만드는 방향으로 진행될 수 있다.
심화 신경망 분류 모델을 속일 수 있도록 충분히 학습된 심화 신경망 생성 모델 기반의 고주파 대역 특징벡터 추정 성능은 종래의 심화 신경망 생성 모델보다 향상된 추정 성능을 보이게 될 수 있다.
이와 같이, 실시예들은 분류 모델을 진짜 데이터인 광대역 신호와 생성 모델을 통해 고주파 대역을 생성해 낸 가짜 데이터를 구분할 수 있도록 충분히 학습시킨 후에, 분류 모델을 고정시키고 생성 모델이 실제 광대역 신호와 가까운 고주파 대역을 추정하여 분류 모델을 최대한 오분류하게 만들 수 있도록 학습하는 방법으로 생성적 대립 망을 음성 대역폭 확장 방법에 적용하여 향상된 음성 대역폭 확장 방법을 제공할 수 있다.
아래에서는 생성적 대립 망 기반의 음성 대역폭 확장 방법에 대해 하나의 예를 들어 보다 구체적으로 설명한다.
도 2는 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 장치를 나타내는 블록도이다.
도 1에서 각 단계들(110~140)은 도 2의 구성요소인 특징벡터 추출부(210), 생성 모델링부(220) 및 분류 모델링부(230)에 의해 수행될 수 있다.
도 2에 따르면, 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 장치(200)는 특징벡터 추출부(210), 생성 모델링부(220) 및 분류 모델링부(230)를 포함할 수 있다.
단계(110)에서, 특징벡터 추출부(210)는 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출할 수 있다.
이 때, 광대역 신호를 다운샘플링(Down Sampling)하여 협대역 신호를 생성할 수 있으며, 실제 통신 환경에서의 성능 저하를 반영하기 위해 협대역 코덱(Adaptive Multi-Rate(AMR) 또는 Adaptive Multi-Rate Narrowband(AMR-NB))을 이용하여 협대역 신호를 변형시킬 수도 있다.
단계(120)에서, 생성 모델링부(220)는 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정할 수 있다. 생성 모델링부(220)는 협대역 신호의 특징벡터를 입력으로 심화 신경망 생성 모델을 학습시켜 추정된 광대역 신호의 특징벡터를 출력할 수 있다.
여기에서, 심화 신경망 생성 모델은 DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 적어도 어느 하나일 수 있다. 예컨대, 심화 신경망 생성 모델은 엔코딩(Encoding) 역할을 수행하는 컨벌루셔널 레이어(Convolutional Layer)와 디코딩(Decoding) 역할을 수행하는 디컨벌루셔널 레이어(De-Convolutional Layer)의 대칭 구조의 CNN(Convolutional Neural Networks)일 수 있다.
단계(130)에서, 분류 모델링부(230)는 추출된 실제 광대역 신호의 특징벡터와 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시킬 수 있다.
여기에서, 심화 신경망 분류 모델은 DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 적어도 어느 하나일 수 있다.
분류 모델링부(230)는 추출된 실제 광대역 신호의 특징벡터와 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별할 수 있도록 비용함수를 설계하여 심화 신경망 분류 모델을 학습시킬 수 있다.
단계(140)에서, 생성 모델링부(220)는 학습된 심화 신경망 분류 모델에서 추정된 광대역 신호의 특징벡터가 실제 광대역 신호의 특징벡터로 오판별되도록 심화 신경망 생성 모델 재학습시킬 수 있다.
여기에서, 생성 모델링부(220)는 심화 신경망 분류 모델이 추정된 광대역 신호의 특징벡터가 실제 광대역 신호의 특징벡터로 오판별하는 것을 목적으로 비용함수를 설계하여 학습시킬 수 있다.
실시예들에 따르면 심화 신경망 분류 모델을 실제 광대역 신호의 특징벡터와 심화 신경망 생성 모델을 통해 고주파 대역을 생성해 낸 추정된 광대역 신호의 특징벡터를 구분할 수 있도록 충분히 학습시킨 후, 심화 신경망 분류 모델을 고정시키고 심화 신경망 생성 모델이 실제 광대역 신호의 특징벡터와 가까운 고주파 대역을 추정하여 심화 신경망 분류 모델을 오분류하도록 학습시키는 생성적 대립 망을 통해 음성 대역폭을 확장시킬 수 있다.
본 실시예에서 제안하는 생성적 대립 망의 학습 방법은 다음과 같다. 먼저 협대역 신호의 특징벡터를 이용하여 광대역 신호를 추정할 수 있는 심화 신경망 생성 모델을 학습할 수 있다. 이 때, 특징벡터는 일반적으로 주파수 축의 특징벡터를 사용하나, 시간 축의 신호를 사용하는 것도 가능하다. 다음으로 실제 광대역 신호와 심화 신경망 생성 모델을 이용하여 추정된 광대역 신호를 판별할 수 있는 심화 신경망 분류 모델을 충분히 학습할 수 있다. 심화 신경망 분류 모델이 실제 광대역 신호와 추정된 광대역 신호를 판별 가능하도록 충분히 학습되고 나면, 심화 신경망 생성 모델을 이용하여 추정된 광대역 신호가 심화 신경망 분류 모델을 속이고 실제 광대역 신호로 판별될 수 있도록 심화 신경망 생성 모델을 학습시킬 수 있다.
이하에서는 생성적 대립 망 기반의 음성 대역폭 확장 기술에 대해 보다 상세히 설명하기로 한다.
먼저, 특징벡터 추출부(210)는 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출할 수 있다. 협대역 신호는 광대역 신호를 다운샘플링(Down Sampling)하여 생성하며, 실제 통신 환경에서의 코덱으로 인한 성능 저하를 반영하기 위해 협대역 코덱을 이용하여 성능 저하를 시킬 수 있다. 예컨대, 실제 통신 환경에서의 성능 저하를 반영하기 위해 협대역 코덱(Adaptive Multi-Rate(AMR) 또는 Adaptive Multi-Rate Narrowband(AMR-NB))을 이용하여 협대역 신호를 변형시킬 수도 있다.
협대역 신호와 광대역 신호에서 추출할 특징벡터는 시간 축의 음성 신호 자체가 될 수도 있고, 주파수 축의 로그 파워 스펙트럼(Log Power Spectrum, LPS)이 될 수도 있다.
시간 축의 음성 신호를 특징벡터로 사용할 경우, 협대역 음성 신호를 광대역 신호로 업샘플링(Up Sampling)한 후에 일정한 길이의 프레임으로 나눠서 사용할 수 있다. 예를 들어, 1초 길이의 프레임을 0.5초 길이로 겹치게 나눠서 추출한 후 특징벡터로 사용할 수 있다.
그리고 주파수 축의 로그 파워 스펙트럼을 특징벡터로 사용할 경우, 협대역 음성 신호를 광대역 신호로 업생플링한 후에 일정한 길이의 프레임으로 나눠서 STFT(Short Time Fourier Transform)을 이용하여 주파수 성분의 값을 구할 수 있다.
고주파 대역 확장 방법에 주파수 축의 값을 사용할 경우, 주파수 성분 값을 크기와 위상으로 분리하여 크기 값만을 특징벡터로 사용할 수 있다. 위상 값은 음성 신호의 음질에 크게 영향을 주지 않기 때문에, 위상 값의 일반적인 특성에 따라 협대역의 위상 값을 영점 대칭하여 광대역의 위상 값으로 추정해 사용할 수 있다. 특징벡터로 사용되는 크기 값은 제곱한 후 로그를 취하여 최종적으로 특징벡터로 사용하게 될 수 있다. 이는 사람의 청각적 특성을 잘 반영할 수 있는 범위로 값을 변환해 주기 위함이기도 하며, 심화 신경망 생성 모델의 추정 성능을 향상시키기 위함이기도 하다. 일반적으로 심화 신경망 생성 모델은 값의 범위가 너무 넓을 경우 추정이 잘 되지 않는다.
도 3은 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델의 학습 방법을 설명하기 위한 도면이다.
도 3을 참조하면, 생성 모델링부(220)는 협대역 신호의 특징벡터(301)를 입력으로 광대역 신호의 특징벡터(302)를 추정하는 심화 신경망 생성 모델(310)을 학습시킬 수 있다. 즉, 생성 모델링부(220)는 협대역 신호의 특징벡터(301)를 심화 신경망 생성 모델(310)에 입력하여 광대역 신호의 특징벡터(302)를 추정할 수 있다. 여기에서, 추정된 광대역 신호의 특징벡터(302)는 음성 대역폭 확장(Bandwidth Extension, BWE)이 처리된 신호이다.
이 때, 심화 신경망 생성 모델(310)은 DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 어느 것으로도 설계가 가능하다.
심화 신경망 생성 모델(310)의 비용함수는 평균제곱오차(Mean Squared Error, MSE)를 사용하여, 실제 값과 추정 값의 제곱의 평균이 작아지는 방향으로 학습할 수 있도록 설계할 수 있다.
도 4는 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델(DNN) 구조의 예를 나타내는 도면이다.
도 4를 참조하면, 협대역 신호의 특징벡터(401)를 입력으로 광대역 신호의 특징벡터(402)를 추정하는 심화 신경망 생성 모델(410)을 학습할 수 있다. 여기에서 심화 신경망 생성 모델(410)은 Deep Neural Networks (DNN)이 될 수 있다.
추정된 광대역 신호의 특징벡터(402)는 음성 대역폭 확장(Bandwidth Extension, BWE)이 처리된 신호이고, 403은 실제 광대역 신호를 의미한다.
도 5는 다른 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델(CNN) 구조의 예를 나타내는 도면이다.
도 5를 참조하면, 협대역 신호의 특징벡터(501)를 입력으로 광대역 신호의 특징벡터(502)를 추정하는 심화 신경망 생성 모델(510)을 학습할 수 있다. 여기에서 심화 신경망 생성 모델(510)은 Convolutional Neural Networks (CNN)이 될 수 있다.
다만, CNN으로 심화 신경망 생성 모델(510)을 설계할 경우, 일반적으로 Convolutional Layer, Pooling Layer, Fully Connected Layer로 구성되는 CNN 분류 모델과 달리 컨벌루셔널 레이어(Convolutional Layer)(511)와 디컨벌루셔널 레이어(De-Convolutional Layer)(512)의 대칭 구조를 사용할 수 있다. 여기에서 컨벌루셔널 레이어(Convolutional Layer)(511)는 엔코딩(Encoding) 역할을 수행하며, 디컨벌루셔널 레이어(De-Convolutional Layer)(512)는 디코딩(Decoding) 역할을 수행할 수 있다.
도 6은 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장을 위한 심화 신경망 분류 모델의 학습 방법을 설명하기 위한 도면이다.
도 6을 참조하면, 분류 모델링부(230)는 실제 광대역 신호의 특징벡터(601)와 심화 신경망 생성 모델(610)을 이용하여 추정된 광대역 신호의 특징벡터(603)를 잘 판별할 수 있는 심화 신경망 분류 모델(620)을 학습시킬 수 있다. 추정된 광대역 신호의 특징벡터(603)는 협대역 신호의 특징벡터(602)로부터 음성 대역폭 확장(Bandwidth Extension, BWE)이 처리된 신호이다.
여기에서, 심화 신경망 생성 모델(610) 또는 심화 신경망 분류 모델(620)은 DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 어느 것으로도 설계가 가능하다.
비용함수는 아래 식과 같이 실제 광대역 신호 x의 분류 결과인 D(x)를 1로, 추정된 광대역 신호 G(z)의 분류 결과인 D(G(z))를 0으로 판별하도록 설계할 수 있다.
[식 1]
여기에서, z는 협대역 신호의 특징벡터이고, x는 실제 광대역 신호의 특징벡터일 수 있다. 그리고 D(x)는 심화 신경망 분류 모델의 결과를 나타내고, G(z)는 심화 신경망 생성 모델의 결과를 나타낼 수 있다. 또한, x~p(x), z~p(z)는 데이터의 샘플링을 의미하며 E는 기댓값을 나타낼 수 있다. LSGAN은 Least-Square Generative Adversarial Networks를 의미하는 것으로, 심화 신경망 분류 모델이 위의 비용함수를 최소화하도록 모델을 학습시키는 과정이다.
도 7은 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장을 위한 심화 신경망 생성 모델의 재학습 방법을 설명하기 위한 도면이다.
도 7을 참조하면, 생성 모델링부(220)는 학습된 심화 신경망 분류 모델(720)에서 추정된 광대역 신호의 특징벡터(702)가 실제 광대역 신호로 오판별되도록 심화 신경망 생성 모델(710)을 추가 학습시킬 수 있다. 즉, 생성 모델링부(220)는 학습된 심화 신경망 분류 모델(720)에서 추정된 광대역 신호의 특징벡터(702)가 실제 광대역 신호로 오판별되도록 심화 신경망 생성 모델(710)을 재학습시킬 수 있다.
이 때, 생성 모델링부(220)는 심화 신경망 분류 모델(720)은 업데이트 하지 않고 고정된 상태이며, 오직 심화 신경망 생성 모델(710)만 심화 신경망 분류 모델(720)을 속일 수 있는 방향으로 학습시킬 수 있다.
비용함수는 아래와 같이 G(z)의 분류 결과인 D(G(z))가 1에 가까운 값을 가지도록 설계할 수 있다.
[식 2]
여기에서, z는 협대역 신호의 특징벡터이고, x는 실제 광대역 신호의 특징벡터일 수 있다. 그리고 D(x)는 심화 신경망 분류 모델의 결과를 나타내고, G(z)는 심화 신경망 생성 모델의 결과를 나타낼 수 있다. 또한, x~p(x), z~p(z)는 데이터의 샘플링을 의미하며 E는 기댓값을 나타낼 수 있다. LSGAN은 Least-Square Generative Adversarial Networks를 의미하는 것으로, 심화 신경망 생성 모델의 결과가 심화 신경망 분류 모델에서 실제 광대역 신호로 판별되어 위의 비용함수가 최소화되도록 모델을 학습시키는 과정이다.
아래에서는 고주파 대역 확장 방법의 평가 방법을 설명한다.
고주파 대역 확장 방법의 주요 평가 방법으로는 MOS(Mean Opinion Score)가 있다. 실제 목표 신호인 광대역 신호를 비롯하여, 광대역 코덱 기반의 광대역 음성 신호, 협대역 코덱 기반의 협대역 음성 신호, 레퍼런스(Reference) 고주파 대역 확장 방법, 제안하는 고주파 대역 확장 방법을 듣고 평가하는 방식이다. MOS 평가는 크게 ACR(Absolute Category Rating), DCR(Degradation Category Rating) 방식으로 나눌 수 있는데, ACR은 소리를 한번 듣고 1~5점의 점수로 소리가 얼마나 좋게 들리는지 평가하는 방법이며, DCR은 광대역 음성 신호 (5점)를 한 번 듣고, 평가할 소리를 듣고 광대역 신호에 비해 소리가 얼마나 좋지 않은지 1~5점의 점수로 평가하는 방법이다.
표 1은 일 실시예에 따른 음성 대역폭 확장 방법 주관적 평가 방법(MOS)의 예를 나타낸다.
[표 1]
표 1에서, MOS 측정 결과 조용한 환경(Clean)에서는 일 실시예에 따른 기술(BWE-GAN)이 종래 고주파 대역 확장 기술(Ref-BWE)보다 약 0.21점, 노이즈 환경(Babble)에서는 약 0.22점이 상승하였으며, 전체 데이터 상으로는 상승하는 것을 확인할 수 있다.
고주파 대역 확장 방법의 보조 평가 방법으로는 PESQ(Perceptual Evaluation of Speech Quality)가 있다. 이 방법은 객관적 평가 방법으로, 알고리즘에 음성 신호를 입력하여 점수로 평가하는 방법이다. 예컨대, 알고리즘에 음성 신호를 입력하여 -0.5~4.5의 점수로 평가할 수 있다. 객관적 평가 방법으로 얻은 점수는 고주파 대역 확장 방법에 있어서 점수와 음질이 비례하지 않는 경향을 보여 보조적인 평가 방법으로 사용되고 있으며, PESQ 이외에 Segmental SNR 등이 사용될 수 있다.
표 2는 일 실시예에 따른 음성 대역폭 확장 방법 객관적 평가 방법(PESQ)의 예를 나타낸다.
[표 2]
표 2에서, PESQ 측정 결과 조용한 환경(Clean)에서는 일 실시예에 따른 기술(BWE-GAN)이 종래 고주파 대역 확장 기술(Ref-BWE)보다 약 0.24점, 노이즈 환경(Babble)에서는 약 0.13점이 상승하였으며, 전체 데이터 상으로는 상승하는 것을 확인할 수 있다.
이와 같이, 실시예들에 따르면 음성대역폭 확장기 및 확장 방법을 사용하여, 음성 통신 환경에서 코덱 변환이나 전송비트율의 확장 없이 더 넓은 대역폭의 음성을 들을 수 있다. 특히, 생성적 대립 망을 이용하여 심화 신경망 기반 생성 모델의 추정 성능을 극대화함으로써 기존 심화 신경망 기반 생성 모델을 이용한 방법의 한계로 인해 발생되는 사람이 듣기 불편한 인위적인 소리의 합성 없이 향상된 음성 통화 품질을 기대할 수 있으며, 나아가서 음성인식기에 적용되어 기존 협대역 코덱을 사용했을 때와 같은 전송속도로 더 높은 수준의 음성인식률을 제공할 수 있다.
이러한 본 실시예에 따른 기술은 유무선 음성통신 단말기, 인터넷 망 음성통화 서비스, 모바일 인터넷 망 음성통화 서비스, 음성인식 어플리케이션, 스마트폰 블루투스 통신 시스템, 음성 향상 시스템, 무선 통신 시스템 등에 적용 가능하다.
또한, 기존에 협대역 통신망을 사용하는 유무선전화기, 스마트폰, VoIP 등의 통신 시스템에 적용되어 통화 음성 품질을 향상시킬 수 있으며, 또한 서버 기반의 음성인식기에서 음성 대역폭의 확장을 통한 음성인식률 향상이 가능하다. 더욱이, 협대역 통신망 기반의 유무선전화기, 스마트폰, VoIP, 블루투스 음성 송수신 시스템, 음성인식기가 필요한 스마트폰 어플리케이션에 적용 가능하다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
Claims (15)
- 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 단계;
상기 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정하는 단계; 및
추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 단계
를 포함하는 생성적 대립 망 기반의 음성 대역폭 확장 방법. - 제1항에 있어서,
상기 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정하는 단계는,
상기 협대역 신호의 특징벡터를 입력으로 심화 신경망 생성 모델을 학습시켜 추정된 광대역 신호의 특징벡터를 출력하는 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법. - 제2항에 있어서,
학습된 상기 심화 신경망 분류 모델에서 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별되도록 상기 심화 신경망 생성 모델 재학습시키는 단계
를 더 포함하는 생성적 대립 망 기반의 음성 대역폭 확장 방법. - 제3항에 있어서,
상기 심화 신경망 분류 모델에서 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별되도록 상기 심화 신경망 생성 모델 재학습시키는 단계는,
상기 심화 신경망 분류 모델이 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별하는 것을 목적으로 비용함수를 설계하여 학습시키는 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법. - 제1항에 있어서,
상기 추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 단계는,
추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별할 수 있도록 비용함수를 설계하여 상기 심화 신경망 분류 모델을 학습시키는 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법. - 제1항 또는 제2항에 있어서,
상기 심화 신경망 생성 모델 또는 상기 심화 신경망 분류 모델은,
DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 적어도 어느 하나인 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법. - 제6항에 있어서,
상기 심화 신경망 생성 모델은,
엔코딩(Encoding) 역할을 수행하는 컨벌루셔널 레이어(Convolutional Layer)와 디코딩(Decoding) 역할을 수행하는 디컨벌루셔널 레이어(De-Convolutional Layer)의 대칭 구조의 상기 CNN(Convolutional Neural Networks)인 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법. - 제2항에 있어서,
상기 심화 신경망 분류 모델을 상기 실제 광대역 신호의 특징벡터와 상기 심화 신경망 생성 모델을 통해 고주파 대역을 생성해 낸 상기 추정된 광대역 신호의 특징벡터를 구분할 수 있도록 충분히 학습시킨 후, 상기 심화 신경망 분류 모델을 고정시키고 상기 심화 신경망 생성 모델이 상기 실제 광대역 신호의 특징벡터와 가까운 고주파 대역을 추정하여 상기 심화 신경망 분류 모델을 오분류하도록 학습시키는 생성적 대립 망을 통해 음성 대역폭을 확장시키는 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법. - 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 특징벡터 추출부;
상기 협대역 신호의 특징벡터를 입력으로 심화 신경망 생성 모델을 학습시켜 추정된 광대역 신호의 특징벡터를 출력하는 생성 모델링부; 및
추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 분류 모델링부
를 포함하는 생성적 대립 망 기반의 음성 대역폭 확장 장치. - 제9항에 있어서,
상기 생성 모델링부는,
학습된 상기 심화 신경망 분류 모델에서 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별되도록 상기 심화 신경망 생성 모델 재학습시키는 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치. - 제10항에 있어서,
상기 생성 모델링부는,
상기 심화 신경망 분류 모델이 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별하는 것을 목적으로 비용함수를 설계하여 학습시키는 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치. - 제10항에 있어서,
상기 분류 모델링부는,
추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별할 수 있도록 비용함수를 설계하여 상기 심화 신경망 분류 모델을 학습시키는 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치. - 제10항에 있어서,
상기 심화 신경망 생성 모델 또는 상기 심화 신경망 분류 모델은,
DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 적어도 어느 하나인 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치. - 제13항에 있어서,
상기 심화 신경망 생성 모델은,
엔코딩(Encoding) 역할을 수행하는 컨벌루셔널 레이어(Convolutional Layer)와 디코딩(Decoding) 역할을 수행하는 디컨벌루셔널 레이어(De-Convolutional Layer)의 대칭 구조의 상기 CNN(Convolutional Neural Networks)인 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치. - 제10항에 있어서,
상기 심화 신경망 분류 모델을 상기 실제 광대역 신호의 특징벡터와 상기 심화 신경망 생성 모델을 통해 고주파 대역을 생성해 낸 상기 추정된 광대역 신호의 특징벡터를 구분할 수 있도록 충분히 학습시킨 후, 상기 심화 신경망 분류 모델을 고정시키고 상기 심화 신경망 생성 모델이 상기 실제 광대역 신호의 특징벡터와 가까운 고주파 대역을 추정하여 상기 심화 신경망 분류 모델을 오분류하도록 학습시키는 생성적 대립 망을 통해 음성 대역폭을 확장시키는 것
을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170081024A KR102002681B1 (ko) | 2017-06-27 | 2017-06-27 | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 |
US16/618,672 US11238877B2 (en) | 2017-06-27 | 2018-05-17 | Generative adversarial network-based speech bandwidth extender and extension method |
PCT/KR2018/005647 WO2019004592A1 (ko) | 2017-06-27 | 2018-05-17 | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170081024A KR102002681B1 (ko) | 2017-06-27 | 2017-06-27 | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190001280A true KR20190001280A (ko) | 2019-01-04 |
KR102002681B1 KR102002681B1 (ko) | 2019-07-23 |
Family
ID=64741666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170081024A KR102002681B1 (ko) | 2017-06-27 | 2017-06-27 | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11238877B2 (ko) |
KR (1) | KR102002681B1 (ko) |
WO (1) | WO2019004592A1 (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102096598B1 (ko) * | 2019-05-02 | 2020-04-03 | 넷마블 주식회사 | 애니메이션 생성 방법 |
KR102334390B1 (ko) * | 2020-06-24 | 2021-12-01 | 연세대학교 산학협력단 | 인공지능 기술을 활용한 코덱 압축 효율 향상 장치 및 방법 |
CN114071106A (zh) * | 2020-08-10 | 2022-02-18 | 合肥君正科技有限公司 | 一种低功耗设备冷启动快速白平衡方法 |
KR20220049772A (ko) * | 2020-10-15 | 2022-04-22 | 한국로봇융합연구원 | 천적음 생성 장치 및 방법 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110867191B (zh) * | 2018-08-28 | 2024-06-25 | 洞见未来科技股份有限公司 | 语音处理方法、信息装置与计算机程序产品 |
US11929085B2 (en) * | 2018-08-30 | 2024-03-12 | Dolby International Ab | Method and apparatus for controlling enhancement of low-bitrate coded audio |
US12045726B2 (en) * | 2019-02-08 | 2024-07-23 | DeepSig Inc. | Adversarially generated communications |
CN110390950B (zh) * | 2019-08-17 | 2021-04-09 | 浙江树人学院(浙江树人大学) | 一种基于生成对抗网络的端到端语音增强方法 |
US11501787B2 (en) * | 2019-08-22 | 2022-11-15 | Google Llc | Self-supervised audio representation learning for mobile devices |
WO2021046683A1 (zh) * | 2019-09-09 | 2021-03-18 | 深圳大学 | 一种基于生成式对抗网络的语音处理方法及装置 |
CN110556123B (zh) * | 2019-09-18 | 2024-01-19 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN110797038B (zh) * | 2019-10-30 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、计算机设备及存储介质 |
CN113066483B (zh) * | 2019-12-31 | 2024-01-30 | 广州航海学院 | 一种基于稀疏连续约束的生成对抗网络语音增强方法 |
JP2023512178A (ja) * | 2020-02-03 | 2023-03-24 | ピンドロップ セキュリティー、インコーポレイテッド | 音声バイオメトリクスのクロスチャネル登録と認証 |
CN111508508A (zh) * | 2020-04-15 | 2020-08-07 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种超分辨率音频生成方法及设备 |
KR20210142930A (ko) * | 2020-05-19 | 2021-11-26 | 삼성에스디에스 주식회사 | 퓨 샷 학습 방법 및 이를 수행하기 위한 장치 |
KR20230060502A (ko) * | 2020-09-03 | 2023-05-04 | 소니그룹주식회사 | 신호 처리 장치 및 방법, 학습 장치 및 방법, 그리고 프로그램 |
US11985179B1 (en) * | 2020-11-23 | 2024-05-14 | Amazon Technologies, Inc. | Speech signal bandwidth extension using cascaded neural networks |
CN112562707A (zh) * | 2020-11-30 | 2021-03-26 | 哈尔滨工程大学 | 一种单信道目标语音增强方法 |
US20230076431A1 (en) * | 2021-09-09 | 2023-03-09 | Nvidia Corporation | Audio upsampling using one or more neural networks |
CN114420140B (zh) * | 2022-03-30 | 2022-06-21 | 北京百瑞互联技术有限公司 | 基于生成对抗网络的频带扩展方法、编解码方法及系统 |
CN114582361B (zh) * | 2022-04-29 | 2022-07-08 | 北京百瑞互联技术有限公司 | 基于生成对抗网络的高解析度音频编解码方法及系统 |
US11895344B1 (en) | 2022-12-09 | 2024-02-06 | International Business Machines Corporation | Distribution of media content enhancement with generative adversarial network migration |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI119576B (fi) * | 2000-03-07 | 2008-12-31 | Nokia Corp | Puheenkäsittelylaite ja menetelmä puheen käsittelemiseksi, sekä digitaalinen radiopuhelin |
JP3598111B2 (ja) * | 2004-04-09 | 2004-12-08 | 三菱電機株式会社 | 広帯域音声復元装置 |
WO2006062202A1 (ja) * | 2004-12-10 | 2006-06-15 | Matsushita Electric Industrial Co., Ltd. | 広帯域符号化装置、広帯域lsp予測装置、帯域スケーラブル符号化装置及び広帯域符号化方法 |
ATE361524T1 (de) * | 2005-01-31 | 2007-05-15 | Harman Becker Automotive Sys | Erweiterung der bandbreite eines schmalbandigen sprachsignals |
KR100762596B1 (ko) | 2006-04-05 | 2007-10-01 | 삼성전자주식회사 | 음성 신호 전처리 시스템 및 음성 신호 특징 정보 추출방법 |
US9454958B2 (en) * | 2013-03-07 | 2016-09-27 | Microsoft Technology Licensing, Llc | Exploiting heterogeneous data in deep neural network-based speech recognition systems |
US10581469B1 (en) * | 2017-04-17 | 2020-03-03 | DeepSig Inc. | Machine learning-based nonlinear pre-distortion system |
US20200143240A1 (en) * | 2017-06-12 | 2020-05-07 | D5Ai Llc | Robust anti-adversarial machine learning |
-
2017
- 2017-06-27 KR KR1020170081024A patent/KR102002681B1/ko active IP Right Grant
-
2018
- 2018-05-17 WO PCT/KR2018/005647 patent/WO2019004592A1/ko active Application Filing
- 2018-05-17 US US16/618,672 patent/US11238877B2/en active Active
Non-Patent Citations (3)
Title |
---|
Kehuang Li, et al. A deep neural network approach to speech bandwidth expansion. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2015.* * |
Xin Liu, et al. Audio bandwidth extension using ensemble of recurrent neural networks. EURASIP Journal on Audio, Speech, and Music Processing. 2016.* * |
노경진, 장준혁. 인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블. 한국통신학회 2017년도 하계종합학술발표회. 2017.06.21.* * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102096598B1 (ko) * | 2019-05-02 | 2020-04-03 | 넷마블 주식회사 | 애니메이션 생성 방법 |
KR102334390B1 (ko) * | 2020-06-24 | 2021-12-01 | 연세대학교 산학협력단 | 인공지능 기술을 활용한 코덱 압축 효율 향상 장치 및 방법 |
CN114071106A (zh) * | 2020-08-10 | 2022-02-18 | 合肥君正科技有限公司 | 一种低功耗设备冷启动快速白平衡方法 |
CN114071106B (zh) * | 2020-08-10 | 2023-07-04 | 合肥君正科技有限公司 | 一种低功耗设备冷启动快速白平衡方法 |
KR20220049772A (ko) * | 2020-10-15 | 2022-04-22 | 한국로봇융합연구원 | 천적음 생성 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
US20210166705A1 (en) | 2021-06-03 |
WO2019004592A1 (ko) | 2019-01-03 |
US11238877B2 (en) | 2022-02-01 |
KR102002681B1 (ko) | 2019-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102002681B1 (ko) | 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법 | |
EP3479377B1 (en) | Speech recognition | |
KR101998950B1 (ko) | 인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블 | |
Strake et al. | Separated noise suppression and speech restoration: LSTM-based speech enhancement in two stages | |
US8655656B2 (en) | Method and system for assessing intelligibility of speech represented by a speech signal | |
Fu et al. | MetricGAN-U: Unsupervised speech enhancement/dereverberation based only on noisy/reverberated speech | |
JP2006079079A (ja) | 分散音声認識システム及びその方法 | |
EP3899936B1 (en) | Source separation using an estimation and control of sound quality | |
CN111785288B (zh) | 语音增强方法、装置、设备及存储介质 | |
US20220059114A1 (en) | Method and apparatus for determining a deep filter | |
CN115083423B (zh) | 语音鉴别的数据处理方法和装置 | |
CN115223584B (zh) | 音频数据处理方法、装置、设备及存储介质 | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
Dash et al. | Speech intelligibility based enhancement system using modified deep neural network and adaptive multi-band spectral subtraction | |
KR102204975B1 (ko) | 심층 신경망 기반 음성인식 방법 및 그 장치 | |
Elshamy et al. | An iterative speech model-based a priori SNR estimator | |
JP6404780B2 (ja) | ウィナーフィルタ設計装置、音強調装置、音響特徴量選択装置、これらの方法及びプログラム | |
Ayhan et al. | Robust speaker identification algorithms and results in noisy environments | |
Soni et al. | Effectiveness of ideal ratio mask for non-intrusive quality assessment of noise suppressed speech | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
Ondusko et al. | Blind signal-to-noise ratio estimation of speech based on vector quantizer classifiers and decision level fusion | |
Seyedin et al. | New features using robust MVDR spectrum of filtered autocorrelation sequence for robust speech recognition | |
US20240363133A1 (en) | Noise suppression model using gated linear units | |
Karthik et al. | An optimized convolutional neural network for speech enhancement | |
CN117558279A (zh) | 说话人分割模型的训练方法、说话人分割方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |