KR20190001278A - 인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블 - Google Patents

인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블 Download PDF

Info

Publication number
KR20190001278A
KR20190001278A KR1020170081020A KR20170081020A KR20190001278A KR 20190001278 A KR20190001278 A KR 20190001278A KR 1020170081020 A KR1020170081020 A KR 1020170081020A KR 20170081020 A KR20170081020 A KR 20170081020A KR 20190001278 A KR20190001278 A KR 20190001278A
Authority
KR
South Korea
Prior art keywords
neural network
data
learning
deepening
signal
Prior art date
Application number
KR1020170081020A
Other languages
English (en)
Other versions
KR101998950B1 (ko
Inventor
장준혁
노경진
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020170081020A priority Critical patent/KR101998950B1/ko
Publication of KR20190001278A publication Critical patent/KR20190001278A/ko
Application granted granted Critical
Publication of KR101998950B1 publication Critical patent/KR101998950B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블이 제시된다.  일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 방법을 이용한 음성 처리 방법은, 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 단계; 및 추출된 상기 특징벡터를 심화 신경망의 학습을 통해 고주파 대역 주파수 스펙트럼을 추정하여 음성 대역폭을 확장시키는 단계를 포함하여 이루어질 수 있다.

Description

인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블{ENSEMBLE OF DEEP NEURAL NETWORKS FOR ARTIFICIAL NOISE ROBUST SPEECH BANDWIDTH EXTENSION}
아래의 실시예들은 음성 대역폭 확장기 및 확장 방법에 관한 것으로, 보다 구체적으로 심화 신경망 앙상블을 이용하여 고주파 대역 에너지를 추정하는 음성 대역폭 확장기 및 확장 방법에 관한 것이다.
기존의 음성 대역폭 확장기 기술은 다양한 기계학습 기법을 기반으로 하여 고주파 대역의 정보를 추정하는 방법들이 시도되어 왔으며, 특히 최근에는 심화 신경망을 이용한 방법들이 많이 시도되고 있다.  
심화 신경망(Deep Neural Network, DNN)은 머신 러닝(machine learning) 기법으로서, 다수의 은닉 층(layer)과 은닉 노드들을 이용하여 입력과 출력 사이의 비선형적인 관계를 효과적으로 모델링할 수 있으며, 최근 음성뿐 아니라 여러 분야에서 뛰어난 성능을 보이고 있다.
심화 신경망을 통해 고주파 대역의 스펙트럼을 직접적으로 추정하는 종래의 기술은 심화 신경망이 고주파 대역의 스펙트럼을 정교하게 추정하지 못하는 경우, 특히 고주파 대역 스펙트럼의 에너지를 실제 에너지에 비해 과추정할 경우 사람이 듣기에 매우 불편한 인공적인 잡음을 생성하는 문제점이 있다.
한국등록특허 10-0762596호는 음성 신호 전처리 시스템 및 음성 신호 특징 정보 추출 방법에 관한 것으로, 신경망 인식 방법을 이용하여 음성 신호를 전처리하는 기술을 기재하고 있다.   
실시예들은 음성 대역폭 확장기 및 확장 방법에 관한 것으로, 보다 구체적으로 심화 신경망 앙상블을 이용하여 고주파 대역 에너지를 추정하는 음성 대역폭 확장기 및 확장 방법에 관한 기술을 제공한다.  
실시예들은 협대역 신호의 주파수 스펙트럼을 심화 신경망에 입력하여 고주파 대역의 주파수 스펙트럼 에너지를 추정함으로써 협대역 신호를 광대역 신호로 확장하는 기술을 제공하고, 특히, 사람의 음성 발성 중에 기존 기술을 이용한 음성 대역폭 확장기를 적용하였을 경우 빈번히 발생하는 듣기 불편한 인공 잡음을 줄이기 위해 심화 신경망 앙상블 기법과 심화 신경망 학습데이터 전처리 기법을 사용하는 인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블을 제공하는데 있다.  
일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 방법을 이용한 음성 처리 방법은, 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 단계; 및 추출된 상기 특징벡터를 심화 신경망의 학습을 통해 고주파 대역 주파수 스펙트럼을 추정하여 음성 대역폭을 확장시키는 단계를 포함하여 이루어질 수 있다.
상기 음성의 협대역 신호와 광대역 신호에서 특징벡터를 추출하는 단계는, 상기 광대역 신호를 다운샘플링(Down Sampling)하는 단계; 다운샘플링 후, 협대역 코덱을 이용하여 상기 협대역 신호를 생성하는 단계; 및 상기 협대역 신호와 상기 광대역 신호에서 로그 파워 스펙트럼(Log Power Spectrum, LPS)을 상기 특징 벡터로 추출하는 단계를 포함할 수 있다.
상기 특징벡터를 심화 신경망의 학습을 통해 고주파 대역 주파수 스펙트럼을 추정하여 음성 대역폭을 확장시키는 단계는, 추출된 상기 특징벡터를 이용하여 적어도 하나 이상의 심화 신경망 생성 모델 및 심화 신경망 분류 모델의 학습을 통해 음성 대역폭을 확장시킬 수 있다.
상기 특징벡터를 심화 신경망의 학습을 통해 고주파 대역 주파수 스펙트럼을 추정하여 음성 대역폭을 확장시키는 단계는, 추출된 상기 특징벡터를 이용하여 제1 심화 신경망 생성 모델을 학습시킨 후, 학습이 완료되면 학습 데이터로 사용된 협대역 신호의 상기 특징벡터들을 이용하여 상기 광대역 신호의 스펙트럼을 추정하고, 추정된 상기 광대역 신호와 실제 광대역 신호를 통해 과추정의 정도를 정량화하여 과추정 데이터와 일반 데이터를 정의하는 단계; 상기 과추정 데이터와 상기 일반 데이터를 분류하는 심화 신경망 분류 모델을 학습시키는 단계; 및 상기 과추정 데이터와 상기 일반 데이터를 이용하여 제2 심화 신경망 생성 모델을 학습시키는 단계를 포함하고, 상기 제2 심화 신경망 생성 모델은, 상기 과추정 데이터에 최적화된 생성 모델을 학습할 수 있다.
상기 과추정의 정도를 정량화하여 과추정 데이터와 일반 데이터를 정의하는 단계는, 추출된 상기 특징벡터를 이용하여 제1 심화 신경망 생성 모델을 학습시킨 후, 학습이 완료되면 학습 데이터로 사용된 협대역 신호의 상기 특징벡터들을 이용하여 상기 광대역 신호의 고주파 대역 로그 파워 스펙트럼을 추정하는 단계; 추정된 상기 광대역 신호의 고주파 로그 파워 스펙트럼과 실제 광대역 신호의 고주파 대역 로그 파워 스펙트럼을 비교하여 에러(error)를 계산하는 단계; 상기 에러를 이용하여 과추정 정도를 정량화하기 위해 정의된 비용함수를 계산하고, 상기 비용함수 값의 분포를 히스토그램으로 도시하는 단계; 및 상기 히스토그램 상에서 소정 범위에 해당하는 데이터들을 과추정 데이터로 정의하고 나머지 데이터들을 일반 데이터로 정의하는 단계를 포함할 수 있다.  
상기 히스토그램 상에서 소정 범위에 해당하는 데이터들을 과추정 데이터로 정의하고 나머지 데이터들을 일반 데이터로 정의하는 단계는, 상기 히스토그램 상에서 과추정 정도 상위 0.5 %를 상기 과추정 데이터로 정의하고, 나머지 0.95% 중 임의로 상기 과추정 데이터와 동일한 개수를 추출하여 상기 일반 데이터로 정의할 수 있다.
추출된 상기 특징벡터를 심화 신경망의 학습을 통해 고주파 대역 주파수 스펙트럼을 추정하여 음성 대역폭을 확장시키는 단계는, 상기 제1 심화 신경망 생성 모델, 상기 제2 심화 신경망 생성 모델 및 상기 심화 신경망 분류 모델을 앙상블로 설계하여 최종적으로 상기 광대역 신호의 고주파 대역 로그 파워 스펙트럼을 추정하며, 상기 심화 신경망 분류 모델의 출력이 각각 상기 제1 심화 신경망 생성 모델 및 상기 제2 심화 신경망 생성 모델의 가중치로 적용되어 최종 출력이 결정될 수 있다.
상기 최종 출력에서 과추정이 발생할 경우, 상기 심화 신경망에 재학습시키는 단계를 더 포함하고, 상기 최종 출력에서 과추정이 발생할 경우, 상기 심화 신경망에 재학습시키는 단계는, 학습 데이터를 재추출하여 타겟인 상기 광대역 신호의 고주파 대역 스펙트럼에 필터를 적용하여 확장성을 조절한 후, 상기 제2 심화 신경망 생성 모델에 재학습시켜 업데이트 할 수 있다.
상기 최종 출력에서 과추정이 발생할 경우, 상기 심화 신경망에 재학습시키는 단계는, 인공 잡음에 강인한 특성을 갖도록 어절 단위로 필터를 적용하여 상기 학습 데이터로 사용할 수 있다.
다른 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 장치는, 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 특징벡터 추출부; 및 추출된 상기 특징벡터를 심화 신경망의 학습을 통해 고주파 대역 주파수 스펙트럼을 추정하여 음성 대역폭을 확장시키는 음성 대역폭 확장부를 포함하여 이루어질 수 있다.
여기에서, 상기 광대역 신호를 다운샘플링(Down Sampling) 후, 협대역 코덱을 이용하여 상기 협대역 신호를 생성하는 다운샘플링부를 더 포함하고, 상기 협대역 신호와 상기 광대역 신호에서 각각 로그 파워 스펙트럼(Log Power Spectrum, LPS)을 상기 특징 벡터로 추출할 수 있다.
상기 음성 대역폭 확장부는, 추출된 상기 특징벡터를 학습시킨 후, 학습이 완료되면 학습 데이터로 사용된 협대역 신호의 상기 특징벡터들을 이용하여 상기 광대역 신호의 스펙트럼을 추정하고, 추정된 상기 광대역 신호와 실제 광대역 신호를 통해 과추정의 정도를 정량화하여 과추정 데이터와 일반 데이터를 정의하는 제1 심화 신경망 생성 모델; 상기 과추정 데이터와 상기 일반 데이터를 분류하는 심화 신경망 분류 모델; 및 상기 과추정 데이터와 상기 일반 데이터를 이용하여 학습시키는 제2 심화 신경망 생성 모델을 포함하고, 상기 제2 심화 신경망 생성 모델은, 상기 과추정 데이터에 최적화된 생성 모델을 학습할 수 있다.
상기 제1 심화 신경망 생성 모델은, 추출된 상기 특징벡터를 이용하여 제1 심화 신경망 생성 모델을 학습시킨 후, 학습이 완료되면 학습 데이터로 사용된 협대역 신호의 상기 특징벡터들을 이용하여 상기 광대역 신호의 고주파 대역 로그 파워 스펙트럼을 추정하고, 추정된 상기 광대역 신호의 고주파 로그 파워 스펙트럼과 실제 광대역 신호의 고주파 대역 로그 파워 스펙트럼을 비교하여 에러(error)를 계산하며, 상기 에러를 이용하여 과추정 정도를 정량화하기 위해 정의된 비용함수를 계산하고, 상기 비용함수 값의 분포를 히스토그램으로 도시하여, 상기 히스토그램 상에서 소정 범위에 해당하는 데이터들을 과추정 데이터로 정의하고 나머지 데이터들을 일반 데이터로 정의할 수 있다.
상기 음성 대역폭 확장부는, 상기 제1 심화 신경망 생성 모델, 상기 제2 심화 신경망 생성 모델 및 상기 심화 신경망 분류 모델을 앙상블로 설계하여 최종적으로 상기 광대역 신호의 고주파 대역 로그 파워 스펙트럼을 추정하며, 상기 심화 신경망 분류 모델의 출력이 각각 상기 제1 심화 신경망 생성 모델 및 상기 제2 심화 신경망 생성 모델의 가중치로 적용되어 최종 출력이 결정될 수 있다.
상기 제2 심화 신경망 생성 모델은, 상기 최종 출력에서 과추정이 발생할 경우, 학습 데이터를 재추출하여 타겟인 상기 광대역 신호의 고주파 대역 스펙트럼에 필터를 적용하여 확장성을 조절한 후, 재학습시켜 업데이트 할 수 있다.
상기 제2 심화 신경망 생성 모델은, 인공 잡음에 강인한 특성을 갖도록 어절 단위로 필터를 적용하여 상기 학습 데이터로 사용할 수 있다.
실시예들에 따르면 음성 대역폭 확장기 및 확장 기술을 사용하여, 음성 통신 환경에서 코덱 변환이나 전송비트율의 확장 없이 더 넓은 대역폭의 음성을 들을 수 있다.  특히, 스펙트럼 폴딩 및 과추정 방지를 위한 심화 신경망의 앙상블 기법을 통해 사람이 듣기 불편한 인위적인 소리의 합성 없이 향상된 통화 품질을 기대할 수 있으며, 나아가서 음성인식기에 적용되어 기존 협대역 코덱을 사용했을 때와 같은 전송속도로 더 높은 수준의 음성인식률을 제공할 수 있다.  
도 1a 및 1b은 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 방법을 나타내는 흐름도이다.  
도 2는 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 장치를 나타내는 블록도이다.
도 3a은 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델의 학습 방법을 설명하기 위한 도면이다.
도 3b는 일 실시예에 따른 과추정의 정도를 정량화하기 위해 정의된 비용함수를 설명하기 위한 도면이다.
도 3c는 일 실시예에 따른 정량화된 과추정 정도의 히스토그램을 나타내는 도면이다.
도 4는 일 실시예에 따른 과추정 데이터와 일반 데이터 분류를 위한 심화 신경망 분류 모델의 학습 방법을 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 최종적으로 광대역 신호 고주파 대역의 로그 파워 스펙트럼을 추정하는 방법을 설명하기 위한 도면이다.
도 6a 및 6b는 일 실시예에 따른 최종 출력에서도 과추정이 발생할 경우 학습 데이터에 어절 단위로 필터를 적용하여 세 번째 심화 신경망에 재학습시키는 방법을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 학습 단계 및 음성 대역폭 확장 단계를 설명하기 위한 도면이다.  
이하, 첨부된 도면을 참조하여 실시예들을 설명한다.  그러나, 기술되는 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시예들에 의하여 한정되는 것은 아니다.  또한, 여러 실시예들은 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다.  도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
 
종래의 기술은 협대역 신호의 스펙트럼에서 특징 벡터를 추출하여 심화 신경망(Deep Neural Network, DNN)을 통해 고주파 대역 혹은 광대역 신호의 스펙트럼을 직접적으로 추정하기 때문에 추정에 실패할 경우 사람이 듣기 좋지 않은 인위적인 소리가 발생할 수 있다.  특히, 추정과정에서 스펙트럼의 과추정(over estimation)이 발생할 경우 사람의 음성이 발성되는 구간에서 잡음처럼 들리는 말 중 잡음이 발생되어 대화의 명료도가 떨어지는 현상이 발생한다.  
이를 해결하기 위해, 아래의 실시예에서는 스펙트럼 폴딩(folding) 방법을 통해 협대역 신호의 스펙트럼을 고주파 대역의 스펙트럼으로 확장시키고 심화 신경망을 이용하여 고주파 대역의 에너지를 추정하여 조정할 수 있다.  특히, 사람의 음성이 발성되는 구간에서 발생하는 말 중 잡음을 효과적으로 제거하기 위해 과추정에 대한 심화 신경망 모델을 독립적으로 만들어 기존에 만들어 놓은 심화 신경망 모델과 앙상블 시킬 수 있다.  
본 실시예들에서는 FFT(Fast Fourier Transform) 및 STFT(Short Time Fourier Transform) 변환을 이용하는 경우를 예로 들어 설명하나, 이는 실시예에 해당되며, FFT 및 STFT 이외에 ISTFT(Inverse Short Time Fourier Transform), DFT(Discrete Fourier Transform), IDFT(Inverse Discrete Fourier Transform) 변환, IFFT(Inverse Fast Fourier Transform) 변환 등이 이용될 수도 있다.
이하에서는 인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블시키는 기술에 대해 보다 상세히 설명하기로 한다.
 
도 1은 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 방법을 나타내는 흐름도이다.  
도 1a을 참조하면, 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 방법을 이용한 음성 처리 방법은, 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 단계(110), 및 추출된 특징벡터를 심화 신경망의 학습을 통해 고주파 대역 주파수 스펙트럼을 추정하여 음성 대역폭을 확장시키는 단계(120)를 포함하여 이루어질 수 있다.
여기에서 도 1b에 도시된 바와 같이, 음성의 협대역 신호와 광대역 신호에서 특징벡터를 추출하는 단계(110)는, 광대역 신호를 다운샘플링(Down Sampling)하는 단계(111), 다운샘플링 후, 협대역 코덱을 이용하여 협대역 신호를 생성하는 단계(112), 및 협대역 신호와 광대역 신호에서 로그 파워 스펙트럼(Log Power Spectrum, LPS)을 특징 벡터로 추출하는 단계(113)를 포함할 수 있다.
또한, 특징벡터를 심화 신경망의 학습을 통해 고주파 대역 주파수 스펙트럼을 추정하여 음성 대역폭을 확장시키는 단계(120)는, 추출된 특징벡터를 이용하여 제1 심화 신경망 생성 모델을 학습시킨 후, 학습이 완료되면 학습 데이터로 사용된 협대역 신호의 특징벡터들을 이용하여 광대역 신호의 스펙트럼을 추정하고, 추정된 광대역 신호와 실제 광대역 신호를 통해 과추정의 정도를 정량화하여 과추정 데이터와 일반 데이터를 정의하는 단계(121), 과추정 데이터와 일반 데이터를 분류하는 심화 신경망 분류 모델을 학습시키는 단계(122), 및 과추정 데이터와 일반 데이터를 이용하여 제2 심화 신경망 생성 모델을 학습시키는 단계(123)를 포함할 수 있다.
이 때, 심화 신경망 분류 모델의 출력이 각각 제1 심화 신경망 생성 모델 및 제2 심화 신경망 생성 모델의 가중치로 적용되어 최종 출력이 결정될 수 있다.  최종 출력에서 과추정이 발생할 경우, 심화 신경망에 재학습시키는 단계(124)를 더 포함할 수도 있다.
실시예들에 따르면, 협대역 신호의 주파수 스펙트럼을 심화 신경망에 입력하여 고주파 대역의 주파수 스펙트럼 에너지를 추정함으로써 협대역 신호를 광대역 신호로 확장하는 기술을 제공할 수 있다.  특히, 사람의 음성 발성 중에 기존 기술을 이용한 음성 대역폭 확장기를 적용하였을 경우 빈번히 발생하는 듣기 불편한 인공 잡음을 줄이기 위해 심화 신경망 앙상블 기법과 심화 신경망 학습데이터 전처리 기법을 사용할 수 있다.  
먼저, 협대역 신호의 주파수 스펙트럼을 심화 신경망에 입력하여 고주파 대역의 주파수 스펙트럼을 직접 생성할 수 있다.  또한, 인공 잡음이 발생하는 원인인 심화 신경망에서의 주파수 스펙트럼 또는 에너지의 과추정(over-estimation) 현상을 방지하기 위해 과추정이 일어나는 학습데이터에 최적화된 심화 신경망 모델을 독립적으로 만들어 기존에 학습시킨 심화 신경망 모델과 앙상블을 시킬 수 있다.  앙상블 모델을 만들 때 기존의 심화 신경망 모델과 과추정 학습데이터에 최적화된 심화 신경망 모델의 적용 비율은 입력 데이터가 주파수 스펙트럼이 정상적으로 추정될 것으로 예상되는지 과추정이 일어날 것으로 예상되는지를 판단할 수 있는 또 다른 분류 심화 신경망 모델을 기반으로 결정할 수 있다.  추가적으로, 심화 신경망의 학습 데이터 중 과추정이 일어나는 음성 신호의 경우 목표 주파수 스펙트럼에 저역 필터를 적용하는 데이터 전처리 기법을 적용함으로써 심화 신경망이 과추정에 더욱 강인하도록 학습시킬 수 있다.  이와 같이 실시예들에 따르면 기존의 음성 대역폭 확장기술에 비해 인공 잡음에 더 강인하고 음성 품질이 뛰어난 음성 대역폭 확장 기술을 제공할 수 있다.
아래에서 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 방법을 하나의 예를 들어 보다 구체적으로 설명한다.
도 2는 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 장치를 나타내는 블록도이다.
도 1에서 각 단계들은 도 2의 구성요소인 다운샘플링부(210), 특징벡터 추출부(220) 및 음성 대역폭 확장부(230)에 의해 수행될 수 있다.
도 2에 따르면, 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 장치(200)는 다운샘플링부(210), 특징벡터 추출부(220) 및 음성 대역폭 확장부(230)를 포함할 수 있다.  여기에서 음성 대역폭 확장부(230)는 제1 심화 신경망 생성 모델(231), 심화 신경망 분류 모델(232) 및 제2 심화 신경망 생성 모델(233)을 포함할 수 있다. 그리고 제1 심화 신경망 생성 모델(231) 및 제2 심화 신경망 생성 모델(233)은 생성 모델링을 수행하는 제1, 제2 심화 신경망 생성 모델링부가 될 수 있으며, 심화 신경망 분류 모델(232)은 분류 모델링을 수행하는 심화 신경망 분류 모델링부가 될 수 있다.
단계(110)에서, 특징벡터 추출부(220)는 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출할 수 있다.
보다 상세하게는, 단계(111)에서 다운샘플링부(210)는 광대역 신호를 다운샘플링(Down Sampling)할 수 있고, 단계(112)에서 다운샘플링 후, 협대역 코덱을 이용하여 협대역 신호를 생성할 수 있다.  그리고 단계(113)에서 특징벡터 추출부(220)는 협대역 신호와 광대역 신호에서 특징벡터를 추출할 수 있다.  이 때, 특징벡터는 로그 파워 스펙트럼(Log Power Spectrum, LPS)이 될 수 있다.
단계(120)에서, 음성 대역폭 확장부(230)는 추출된 특징벡터를 심화 신경망의 학습을 통해 고주파 대역 주파수 스펙트럼을 추정하여 음성 대역폭을 확장시킬 수 있다.  심화 신경망은 적어도 하나 이상의 심화 신경망 생성 모델 및 심화 신경망 분류 모델로 이루어져 학습을 통해 음성 대역폭을 확장시킬 수 있다.
여기에서 음성 대역폭 확장부(230)는 제1 심화 신경망 생성 모델(231), 심화 신경망 분류 모델(232) 및 제2 심화 신경망 생성 모델(233)을 포함할 수 있다.  이 때, 상기의 제1 심화 신경망 생성 모델(231), 심화 신경망 분류 모델(232) 및 제2 심화 신경망 생성 모델(233)은 앙상블로 설계되어, 최종적으로 광대역 신호의 고주파 대역 로그 파워 스펙트럼을 추정할 수 있다.
보다 구체적으로, 단계(121)에서 제1 심화 신경망 생성 모델(231)은 추출된 특징벡터를 학습시킬 수 있다.  학습이 완료되면, 제1 심화 신경망 생성 모델(231)은 학습 데이터로 사용된 협대역 신호의 특징벡터들을 이용하여 광대역 신호의 스펙트럼을 추정하고, 추정된 광대역 신호와 실제 광대역 신호를 통해 과추정의 정도를 정량화하여 과추정 데이터와 일반 데이터를 정의할 수 있다.  
제1 심화 신경망 생성 모델(231)은 추출된 특징벡터를 이용하여 제1 심화 신경망 생성 모델을 학습시킨 후, 학습이 완료되면 학습 데이터로 사용된 협대역 신호의 특징벡터들을 이용하여 광대역 신호의 고주파 대역 로그 파워 스펙트럼을 추정할 수 있다.  그리고 추정된 광대역 신호의 고주파 로그 파워 스펙트럼과 실제 광대역 신호의 고주파 대역 로그 파워 스펙트럼을 비교하여 에러(error)를 계산하고, 에러를 이용하여 과추정 정도를 정량화하기 위해 정의된 비용함수를 계산하고, 비용함수 값의 분포를 히스토그램으로 도시할 수 있다.  그리고 히스토그램 상에서 소정 범위에 해당하는 데이터들을 과추정 데이터로 정의하고 나머지 데이터들을 일반 데이터로 정의할 수 있다.
예컨대 히스토그램 상에서 과추정 정도 상위 0.5 %를 추정 데이터로 정의하고, 나머지 0.95% 중 임의로 과추정 데이터와 동일한 개수를 추출하여 일반 데이터로 정의할 수 있다.
그리고, 단계(122)에서 심화 신경망 분류 모델(232)은 학습을 통해 과추정 데이터와 일반 데이터를 분류시킬 수 있다.  또한, 단계(123)에서 제2 심화 신경망 생성 모델(233)은 과추정 데이터와 일반 데이터를 이용하여 학습시킬 수 있다.
이 때, 심화 신경망 분류 모델(232)의 출력이 각각 제1 심화 신경망 생성 모델(231) 및 제2 심화 신경망 생성 모델(233)의 가중치로 적용되어 최종 출력이 결정될 수 있다.  
단계(124)에서, 제2 심화 신경망 생성 모델(233)은 최종 출력에서 과추정이 발생할 경우, 심화 신경망에 재학습시킬 수 있다.  
이에, 최종 출력에서 과추정이 발생할 경우 학습 데이터를 재추출하여 타겟인 광대역 신호의 고주파 대역 스펙트럼에 필터를 적용하여 확장성을 조절한 후, 제2 심화 신경망 생성 모델에 재학습시켜 업데이트 할 수 있다.  이 때, 인공 잡음에 강인한 특성을 갖도록 어절 단위로 필터를 적용하여 학습 데이터로 사용할 수 있다.
 
이하에서는 순차적 심화 신경망 앙상블을 이용하여 고주파 대역 에너지를 추정하는 음성 대역폭 확장 기술에 대해 보다 상세히 설명하기로 한다.
먼저, 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출할 수 있다.  광대역 신호를 다운샘플링(Down Sampling)하여 협대역 신호를 생성할 수 있으며, 실제 통신 환경에서의 성능 저하를 반영하기 위해 협대역 코덱(Adaptive Multi-Rate(AMR) 또는 Adaptive Multi-Rate Narrowband(AMR-NB))을 이용하여 협대역 신호를 변형시킬 수도 있다.
협대역 신호와 광대역 신호에서 추출할 특징벡터는 일반적으로 FFT(Fast Fourier Transform)를 이용하여 주파수 축으로 변환시킨 후, 주파수 축의 크기 값을 제곱한 후 로그를 취하여 얻을 수 있는 로그 파워 스펙트럼(Log Power Spectrum, LPS)을 사용할 수 있다.  더 구체적으로, 주파수 축의 로그 파워 스펙트럼을 특징벡터로 사용할 경우, 협대역 음성 신호를 광대역 신호로 업생플링(Up Sampling)한 후에 일정한 길이의 프레임으로 나눠서 STFT(Short Time Fourier Transform)을 이용하여 주파수 성분의 값을 구할 수 있다.
고주파 대역 확장 방법을 주파수 축의 값으로 사용할 경우, 주파수 성분 값을 크기와 위상으로 분리하여 크기 값만을 특징벡터로 사용할 수 있다.  위상 값은 음성 신호의 음질에 크게 영향을 주지 않기 때문에, 위상 값의 일반적인 특성에 따라 협대역의 위상 값을 영점 대칭하여 광대역의 위상 값으로 추정해 사용할 수 있다.  특징벡터로 사용되는 크기 값은 제곱한 후 로그를 취하여 최종적으로 특징벡터로 사용하게 된다.  이는 사람의 청각적 특성을 잘 반영할 수 있는 범위로 값을 변환해 주기 위함이기도 하며, 심화 신경망 생성 모델의 추정 성능을 향상시키기 위함이기도 하다.  일반적으로 심화 신경망 생성 모델은 값의 범위가 너무 넓을 경우 추정이 잘 되지 않는다.
도 3a은 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델의 학습 방법을 설명하기 위한 도면이다.
도 3a을 참조하면, 협대역 신호와 광대역 신호에서 추출한 로그 파워 스펙트럼 특징벡터(310)를 이용하여 심화 신경망 생성 모델(320)을 학습함으로써, 고주파 대역의 로그 파워 스펙트럼(330)을 획득할 수 있다.  이 때, 심화 신경망의 망 깊이와 노드의 개수는 실제 음성 통화 환경을 고려하여 적절하게 설계할 수 있도록 한다.
아래에서는 하나의 예를 들어 보다 구체적으로 설명한다.
예를 들어, 한 프레임의 길이를 4ms, 중첩되는 프레임의 길이를 2ms로 가정했을 때 은닉 층의 개수는 2개, 각 은닉 층의 노드의 개수는 100개 정도가 실험적으로 적절할 수 있다.  FFT 크기는 64를 사용하며, 노드를 연결하는 각 가중치들의 초기화는 Xavier 초기화 방법을 사용할 수 있다.  또한 각 층의 출력에 사용되는 활성 함수는 ReL를 사용하고, ADAM 최적화 방법을 이용하여 실험할 수 있다.  비용함수는 심화 신경망 생성 모델에서 주로 사용되는 평균제곱오차(Mean Squared Error, MSE)를 사용할 수 있다.
도 3b는 일 실시예에 따른 과추정의 정도를 정량화하기 위해 정의된 비용함수를 설명하기 위한 도면이다.
학습이 완료되면, 학습이 완료된 심화 신경망 생성 모델을 이용하여 광대역의 고주파 대역 로그 파워 스펙트럼을 추정할 수 있다.  그러고 나서, 도 3b에 도시된 바와 같이, 추정된 로그 파워 스펙트럼과 실제 광대역의 고주파 대역 로그 파워 스펙트럼과 비교하여 에러(error)를 계산할 수 있다.  이 때, 에러는 추정 결과가 과추정이 일어났는지 일어나지 않았는지에 대해 초점을 맞추기 위하여 아래 식과 같이 비용함수를 정의할 수 있다.
[식 1]
Figure pat00001
특정 주파수 대역에서는 과추정이 일어나나 전체적으로 과소추정되는 경우를 고려하기 위하여, 과소추정 되는 경우의 에러도 (-) 값으로 반영하여 계산할 수 있다.  다만, 과추정되는 것이 크게 문제가 되므로 2배의 패널티를 주고 에러로 계산할 수 있다.
도 3c는 일 실시예에 따른 정량화된 과추정 정도의 히스토그램을 나타내는 도면이다.
도 3c에 도시된 바와 같이, 전체의 학습데이터를 가지고 광대역의 고주파 대역의 로그 파워 스펙트럼을 추정해보고 실제 값과의 에러를 계산하여 직접 정의한 비용함수 값을 계산하고 나면, 그 비용함수 값의 분포를 히스토그램으로 그릴 수 있다.
이 때, 히스토그램 상에서 상위 소정 범위에 해당하는 데이터들을 과추정 데이터로 정의하고, 그 이외의 데이터들을 일반 데이터로 정의할 수 있다.  예컨대, 히스토그램 상에서 상위 0.5%에 해당하는 데이터들을 과추정 데이터로 정의하고, 그 이외의 데이터들을 일반 데이터로 정의할 수 있다.
이후, 과추정 데이터와 일반 데이터의 특징벡터를 이용하여 심화 신경망 분류 모델 및 심화 신경망 생성 모델을 학습할 수 있다.
다시 말하면, 과추정 데이터와 일반 데이터가 정의되면 과추정 데이터와 일반 데이터를 분류할 수 있는 심화 신경망 분류 모델과 생성 모델을 학습할 수 있다.  이 때, 과추정 데이터와 일반 데이터의 데이터 양의 불균형이 심해 학습이 잘 되지 않으므로, 일반 데이터에서 랜덤하게 과추정 데이터와 비슷한 양의 데이터를 추출하여 학습에 이용할 수 있다.
심화 신경망 분류 모델은 입력에 로그 파워 스펙트럼 이외에 8가지 특징벡터를 추가로 이용하여 로그 파워 스펙트럼 만으로는 과추정이 일어나는지 알 수 없는 문제를 보완하여 분류가 더 잘될 수 있도록 할 수 있다.  총 9가지 특징벡터는 다음과 같이 나타낼 수 있다.
Figure pat00002
Figure pat00003
Figure pat00004
도 4는 일 실시예에 따른 과추정 데이터와 일반 데이터 분류를 위한 심화 신경망 분류 모델의 학습 방법을 설명하기 위한 도면이다.
도 4를 참조하면, 특징벡터(410)를 이용하여 심화 신경망 분류 모델(420)을 통해 과추정 데이터와 일반 데이터 분류(430)할 수 있다.  여기에서, 특징벡터(410)는 로그 파워 스펙트럼을 포함할 수 있으며, 앞에서 설명한 9개의 특징벡터(410)를 통해 과추정의 발생 여부를 보다 정확히 분류할 수 있다.
심화 신경망 분류 모델(420)은 앞에서 설명한 심화 신경망 생성 모델과 달리 특징벡터의 차원이 크기 때문에, 예컨대 은닉 층을 2개, 각 은닉 층의 노드 개수는 250개를 사용할 수 있다.  심화 신경망 분류 모델(420)에서 다른 것들은 심화 신경망 생성 모델과 같으며, 다만 비용함수는 평균 제곱 오차(MSE) 대신 일반적으로 심화 신경망 분류 모델(420)에서 사용하는 소프트맥스 교차 엔트로피(Softmax Cross Entropy)를 사용할 수 있다.
마지막으로, 심화 신경망 생성 모델은 하나 더 학습하는데, 첫 번째로 학습하였던 생성 모델과 학습 데이터만 교체하고 나머지는 동일하게 학습할 수 있다.  학습 데이터는 앞서 학습한 심화 신경망 분류 모델과 마찬가지로 과추정 데이터와 일반 데이터 중 랜덤하게 일부분 추출한 데이터를 사용할 수 있다.
도 5는 일 실시예에 따른 최종적으로 광대역 신호 고주파 대역의 로그 파워 스펙트럼을 추정하는 방법을 설명하기 위한 도면이다.
도 5를 참조하면, 앞서 학습한 세 개의 심화 신경망 모델(510, 520, 530)을 앙상블로 설계하여 최종적으로 광대역 신호 고주파 대역 로그 파워 스펙트럼을 추정(540)할 수 있다.  여기에서, 세 개의 심화 신경망 모델(510, 520, 530)은 앞에서 설명한 제1 심화 신경망 생성 모델(510), 심화 신경망 분류 모델(520) 및 제2 심화 신경망 생성 모델(530)이 될 수 있다.
이 때, 심화 신경망 분류 모델(520)의 출력을 각각 두 개의 심화 신경망 생성 모델(510, 530)의 가중치로 사용하여 최종 출력을 계산할 수 있다.
도 6은 일 실시예에 따른 최종 출력에서도 과추정이 발생할 경우 학습 데이터에 어절 단위로 필터를 적용하여 세 번째 심화 신경망에 재학습시키는 방법을 설명하기 위한 도면이다.
심화 신경망 앙상블을 이용하여 광대역 신호의 고주파 대역을 추정하여 과추정을 방지하고자 했음에도 불구하고 과추정이 일어나는 경우에는 학습 데이터를 조정하여 재학습시키는 방법을 사용할 수 있다.  앞에서와 마찬가지로 최종 출력과 실제 광대역 신호의 로그 파워 스펙트럼을 비교하여 비용함수를 계산할 수 있다.  여기에서, 도 6a에 도시된 바와 같이 과추정(610)이 심하게 발생하는 경우 학습 데이터를 추출하여 타겟 데이터의 필터(621, 622, 623, 624)를 적용하여 확장성을 조절할 수 있다.
이 때, 과추정(610)의 정도에 따라 필터(621, 622, 623, 624)의 컷오프 주파수를 다르게 설계하는 것이 가능하며, 필터를 각 프레임마다 다르게 설계할 경우 확장성이 불균일하게 달라져서 듣기 불편한 소리가 생성되는 것을 실험적으로 확인할 수 있다.  이를 방지하기 위하여 도 6b에 도시된 바와 같이, 필터는 어절 단위로 적용하여 확장성이 인접한 프레임에서 과도하게 변하지 않도록 할 수 있다.
아래에서는 고주파 대역 확장 방법의 평가 방법을 설명한다.
고주파 대역 확장 방법의 보조 평가 방법으로는 PESQ(Perceptual Evaluation of Speech Quality)가 있다.  이 방법은 객관적 평가 방법으로, 알고리즘에 음성 신호를 입력하여 점수로 평가하는 방법이다.  예컨대, 알고리즘에 음성 신호를 입력하여 -0.5~4.5의 점수로 평가할 수 있다.  객관적 평가 방법으로 얻은 점수는 고주파 대역 확장 방법에 있어서 점수와 음질이 비례하지 않는 경향을 보여 보조적인 평가 방법으로 사용되고 있으며, PESQ 이외에 Segmental SNR 등이 사용될 수 있다.
표 1은 일 실시예에 따른 음성 대역폭 확장 방법 객관적 평가 방법(PESQ)의 예를 나타낸다.
[표 1]
Figure pat00005
표 1에서, PESQ 측정 결과 종래 고주파 대역 확장 기술보다 약 0.4점이 상승한 수치를 보이는 것을 확인할 수 있다.
고주파 대역 확장 방법의 주요 평가 방법으로는 MOS(Mean Opinion Score)가 있다.  실제 목표 신호인 광대역 신호를 비롯하여, 광대역 코덱 기반의 광대역 음성 신호, 협대역 코덱 기반의 협대역 음성 신호, 레퍼런스(Reference) 고주파 대역 확장 방법, 제안하는 고주파 대역 확장 방법을 듣고 평가하는 방식이다.  MOS 평가는 크게 ACR(Absolute Category Rating), DCR(Degradation Category Rating) 방식으로 나눌 수 있는데, ACR은 소리를 한번 듣고 1~5점의 점수로 소리가 얼마나 좋게 들리는지 평가하는 방법이며, DCR은 광대역 음성 신호 (5점)를 한 번 듣고, 평가할 소리를 듣고 광대역 신호에 비해 소리가 얼마나 좋지 않은지 1~5점의 점수로 평가하는 방법이다.
표 2는 일 실시예에 따른 음성 대역폭 확장 방법 주관적 평가 방법(MOS)의 예를 나타낸다.
[표 2]
Figure pat00006
표 2에서, MOS 측정 결과 조용한 환경에서는 종래 고주파 대역 확장 기술보다 약 0.5점, 노이즈 환경에서는 약 0.2점이 상승하였으며, 전체 데이터 상으로는 약 0.35점 정도가 상승하는 것을 확인할 수 있다.
도 7은 일 실시예에 따른 학습 단계 및 음성 대역폭 확장 단계를 설명하기 위한 도면이다.
도 7을 참조하면, 일 실시예에 따른 심화 신경망 앙상블 기반의 음성 대역폭 확장 방법은 다음과 같이 나타낼 수 있으며, 학습 단계(710) 및 음성 대역폭 확장 단계(720)를 포함할 수 있다.  
먼저, 학습 단계(710)에서 음성의 광대역 신호(711)를 협대역 신호로 다운샘플링한 후 실제 통화 환경에서의 음질 열화를 반영하기 위하여 AMR-NB 협대역 코덱에 통과시켜 학습 데이터를 준비할 수 있다(712).  광대역 신호의 고주파 대역과 협대역 신호에서 각각 특징벡터를 추출(713, 714)하며, 이 때 특징벡터는 심화 신경망 기반의 생성 모델에서 일반적으로 많이 쓰이는 로그 파워 스펙트럼을 사용할 수 있다.  
다음으로 순차적으로 3개의 심화 신경망 모델을 학습(715)시킬 수 있다.  
첫 번째로, 입력이 협대역의 로그 파워 스펙트럼이고 출력이 광대역의 로그 파워 스펙트럼인 모든 학습 데이터를 가지고 심화 신경망 생성 모델을 학습시킬 수 있다.  심화 신경망 생성 모델의 학습이 완료되면, 학습 데이터로 사용된 협대역 신호의 특징벡터들을 이용하여 광대역 신호의 스펙트럼을 추정할 수 있다.  추정된 광대역 신호와 실제 광대역 신호를 이용하여 과추정의 정도를 정량화하기 위해 정의된 비용함수에 의하여 계산하고, 정량화된 과추정 정도를 히스토그램을 그려 분포를 파악할 수 있다.  과추정 정도 상위 0.5 %를 과추정 데이터로 정의하고, 나머지 0.95% 중 임의로 과추정 데이터와 같은 개수의 일반 데이터를 추출할 수 있다. 
상기의 과추정 데이터와 일반 데이터를 가지고, 두 번째로 과추정 데이터와 일반 데이터를 분류할 수 있는 심화 신경망 분류 모델을 학습시킬 수 있다.  
세 번째로는 과추정 데이터와 일반 데이터만을 가지고 심화 신경망 생성 모델을 학습시킬 수 있다.  이 심화 신경망 생성 모델은 첫 번째로 학습시켰던 모델과는 달리, 과추정 데이터에 최적화된 생성 모델을 학습할 수 있다.
최종적으로, 음성 신호의 광대역 신호의 고주파 대역 로그 파워 스펙트럼은 앞서 학습한 3개의 심화 신경망 모델(723, 724, 725)의 앙상블 형태로 추정될 수 있다.  심화 신경망 분류 모델(724)의 출력이 각각 심화 신경망 생성 모델(723, 725)의 가중치로 적용되어 최종 출력(726)이 결정될 수 있다.  
여기에서 최종 출력에서도 과추정이 심하게 일어나는 경우, 학습 데이터를 재추출하여 타겟인 광대역 신호의 고주파 대역 스펙트럼에 필터를 적용하여 확장성을 조절한 후, 세 번째 심화 신경망에 재학습시켜 계속해서 심화 신경망을 업데이트하는 것이 가능하다.  이 때 프레임 단위로 필터를 적용하여 학습할 경우, 인접한 프레임에서 확장성 변화가 심해질 경우에 듣기 불편한 불균일한 소리를 만들어 낼 수 있으므로 필터는 어절 단위로 적용하여 학습 데이터로 사용할 수 있다.
실시예들에 따른 음성 대역폭 확장기 및 확장 기술을 사용하여, 음성 통신 환경에서 코덱 변환이나 전송비트율의 확장 없이 더 넓은 대역폭의 음성을 들을 수 있다.  특히, 스펙트럼 폴딩 및 과추정 방지를 위한 심화 신경망의 앙상블 기법을 통해 사람이 듣기 불편한 인위적인 소리의 합성 없이 향상된 통화 품질을 기대할 수 있으며 나아가서 음성인식기에 적용되어 기존 협대역 코덱을 사용했을 때와 같은 전송속도로 더 높은 수준의 음성인식률을 제공할 수 있다.
이러한 본 실시예에 따른 기술은 음성통신 단말기, 인터넷 망 음성통화 서비스, 모바일 인터넷 망 음성통화 서비스, 음성인식 어플리케이션, 스마트폰 블루투스 통신 시스템, 음성 향상 시스템, 무선 통신 시스템 등에 적용 가능하다.  
또한 기존에 협대역 통신망을 사용하는 유선전화기, 스마트폰, VoIP 등의 통신 시스템에 적용되어 통화 음성 품질을 향상 시킬 수 있으며, 또한 서버 기반의 음성인식기에서 음성 대역폭의 확장을 통한 음성인식률 향상이 가능하다.  더욱이, 협대역 통신망 기반의 유선전화기, 스마트폰, VoIP, 블루투스 음성 송수신 시스템, 음성인식기가 필요한 스마트폰 어플리케이션에 적용 가능하다.
 
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다.  예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다.  처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다.  또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.  이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.  예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다.  또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.  소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.  소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다.  소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.  상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.  상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.  컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.  프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.  예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다. 

Claims (16)

  1. 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 단계; 및
    추출된 상기 특징벡터를 심화 신경망의 학습을 통해 고주파 대역 주파수 스펙트럼을 추정하여 음성 대역폭을 확장시키는 단계
    를 포함하는 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 방법을 이용한 음성 처리 방법.
  2. 제1항에 있어서,
    상기 음성의 협대역 신호와 광대역 신호에서 특징벡터를 추출하는 단계는,
    상기 광대역 신호를 다운샘플링(Down Sampling)하는 단계;
    다운샘플링 후, 협대역 코덱을 이용하여 상기 협대역 신호를 생성하는 단계; 및
    상기 협대역 신호와 상기 광대역 신호에서 로그 파워 스펙트럼(Log Power Spectrum, LPS)을 상기 특징 벡터로 추출하는 단계
    를 포함하는 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 방법.
  3. 제1항에 있어서,
    상기 특징벡터를 심화 신경망의 학습을 통해 고주파 대역 주파수 스펙트럼을 추정하여 음성 대역폭을 확장시키는 단계는,
    추출된 상기 특징벡터를 이용하여 적어도 하나 이상의 심화 신경망 생성 모델 및 심화 신경망 분류 모델의 학습을 통해 음성 대역폭을 확장시키는 것
    을 특징으로 하는 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 방법.
  4. 제1항에 있어서,
    상기 특징벡터를 심화 신경망의 학습을 통해 고주파 대역 주파수 스펙트럼을 추정하여 음성 대역폭을 확장시키는 단계는,
    추출된 상기 특징벡터를 이용하여 제1 심화 신경망 생성 모델을 학습시킨 후, 학습이 완료되면 학습 데이터로 사용된 협대역 신호의 상기 특징벡터들을 이용하여 상기 광대역 신호의 스펙트럼을 추정하고, 추정된 상기 광대역 신호와 실제 광대역 신호를 통해 과추정의 정도를 정량화하여 과추정 데이터와 일반 데이터를 정의하는 단계;
    상기 과추정 데이터와 상기 일반 데이터를 분류하는 심화 신경망 분류 모델을 학습시키는 단계; 및
    상기 과추정 데이터와 상기 일반 데이터를 이용하여 제2 심화 신경망 생성 모델을 학습시키는 단계
    를 포함하고,
    상기 제2 심화 신경망 생성 모델은,
    상기 과추정 데이터에 최적화된 생성 모델을 학습하는 것
    을 특징으로 하는 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 방법.
  5. 제4항에 있어서,
    상기 과추정의 정도를 정량화하여 과추정 데이터와 일반 데이터를 정의하는 단계는,
    추출된 상기 특징벡터를 이용하여 제1 심화 신경망 생성 모델을 학습시킨 후, 학습이 완료되면 학습 데이터로 사용된 협대역 신호의 상기 특징벡터들을 이용하여 상기 광대역 신호의 고주파 대역 로그 파워 스펙트럼을 추정하는 단계;
    추정된 상기 광대역 신호의 고주파 로그 파워 스펙트럼과 실제 광대역 신호의 고주파 대역 로그 파워 스펙트럼을 비교하여 에러(error)를 계산하는 단계;
    상기 에러를 이용하여 과추정 정도를 정량화하기 위해 정의된 비용함수를 계산하고, 상기 비용함수 값의 분포를 히스토그램으로 도시하는 단계; 및
    상기 히스토그램 상에서 소정 범위에 해당하는 데이터들을 과추정 데이터로 정의하고 나머지 데이터들을 일반 데이터로 정의하는 단계
    를 포함하는 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 방법.
  6. 제5항에 있어서,
    상기 히스토그램 상에서 소정 범위에 해당하는 데이터들을 과추정 데이터로 정의하고 나머지 데이터들을 일반 데이터로 정의하는 단계는,
    상기 히스토그램 상에서 과추정 정도 상위 0.5 %를 상기 추정 데이터로 정의하고, 나머지 0.95% 중 임의로 상기 과추정 데이터와 동일한 개수를 추출하여 상기 일반 데이터로 정의하는 것
    을 특징으로 하는 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 방법.
  7. 제4항에 있어서,
    추출된 상기 특징벡터를 심화 신경망의 학습을 통해 고주파 대역 주파수 스펙트럼을 추정하여 음성 대역폭을 확장시키는 단계는,
    상기 제1 심화 신경망 생성 모델, 상기 제2 심화 신경망 생성 모델 및 상기 심화 신경망 분류 모델을 앙상블로 설계하여 최종적으로 상기 광대역 신호의 고주파 대역 로그 파워 스펙트럼을 추정하며, 상기 심화 신경망 분류 모델의 출력이 각각 상기 제1 심화 신경망 생성 모델 및 상기 제2 심화 신경망 생성 모델의 가중치로 적용되어 최종 출력이 결정되는 것
    을 특징으로 하는 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 방법.
  8. 제7항에 있어서,
    상기 최종 출력에서 과추정이 발생할 경우, 상기 심화 신경망에 재학습시키는 단계
    를 더 포함하고,
    상기 최종 출력에서 과추정이 발생할 경우, 상기 심화 신경망에 재학습시키는 단계는,
    학습 데이터를 재추출하여 타겟인 상기 광대역 신호의 고주파 대역 스펙트럼에 필터를 적용하여 확장성을 조절한 후, 상기 제2 심화 신경망 생성 모델에 재학습시켜 업데이트 하는 것
    을 특징으로 하는 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 방법.
  9. 제8항에 있어서,
    상기 최종 출력에서 과추정이 발생할 경우, 상기 심화 신경망에 재학습시키는 단계는,
    인공 잡음에 강인한 특성을 갖도록 어절 단위로 필터를 적용하여 상기 학습 데이터로 사용하는 것
    을 특징으로 하는 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 방법.  
  10. 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 특징벡터 추출부; 및
    추출된 상기 특징벡터를 심화 신경망의 학습을 통해 고주파 대역 주파수 스펙트럼을 추정하여 음성 대역폭을 확장시키는 음성 대역폭 확장부
    를 포함하는 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 장치.
  11. 제10항에 있어서,
    상기 광대역 신호를 다운샘플링(Down Sampling) 후, 협대역 코덱을 이용하여 상기 협대역 신호를 생성하는 다운샘플링부
    를 더 포함하고,
    상기 협대역 신호와 상기 광대역 신호에서 각각 로그 파워 스펙트럼(Log Power Spectrum, LPS)을 상기 특징 벡터로 추출하는 것
    을 특징으로 하는 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 장치.
  12. 제10항에 있어서,
    상기 음성 대역폭 확장부는,
    추출된 상기 특징벡터를 학습시킨 후, 학습이 완료되면 학습 데이터로 사용된 협대역 신호의 상기 특징벡터들을 이용하여 상기 광대역 신호의 스펙트럼을 추정하고, 추정된 상기 광대역 신호와 실제 광대역 신호를 통해 과추정의 정도를 정량화하여 과추정 데이터와 일반 데이터를 정의하는 제1 심화 신경망 생성 모델;
    상기 과추정 데이터와 상기 일반 데이터를 분류하는 심화 신경망 분류 모델; 및
    상기 과추정 데이터와 상기 일반 데이터를 이용하여 학습시키는 제2 심화 신경망 생성 모델
    을 포함하고,
    상기 제2 심화 신경망 생성 모델은,
    상기 과추정 데이터에 최적화된 생성 모델을 학습하는 것
    을 특징으로 하는 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 장치.
  13. 제12항에 있어서,
    상기 제1 심화 신경망 생성 모델은,
    추출된 상기 특징벡터를 이용하여 제1 심화 신경망 생성 모델을 학습시킨 후, 학습이 완료되면 학습 데이터로 사용된 협대역 신호의 상기 특징벡터들을 이용하여 상기 광대역 신호의 고주파 대역 로그 파워 스펙트럼을 추정하고, 추정된 상기 광대역 신호의 고주파 로그 파워 스펙트럼과 실제 광대역 신호의 고주파 대역 로그 파워 스펙트럼을 비교하여 에러(error)를 계산하며, 상기 에러를 이용하여 과추정 정도를 정량화하기 위해 정의된 비용함수를 계산하고, 상기 비용함수 값의 분포를 히스토그램으로 도시하여, 상기 히스토그램 상에서 소정 범위에 해당하는 데이터들을 과추정 데이터로 정의하고 나머지 데이터들을 일반 데이터로 정의하는 것
    을 특징으로 하는 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 장치.
  14. 제12항에 있어서,
    상기 음성 대역폭 확장부는,
    상기 제1 심화 신경망 생성 모델, 상기 제2 심화 신경망 생성 모델 및 상기 심화 신경망 분류 모델을 앙상블로 설계하여 최종적으로 상기 광대역 신호의 고주파 대역 로그 파워 스펙트럼을 추정하며, 상기 심화 신경망 분류 모델의 출력이 각각 상기 제1 심화 신경망 생성 모델 및 상기 제2 심화 신경망 생성 모델의 가중치로 적용되어 최종 출력이 결정되는 것
    을 특징으로 하는 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 장치.
  15. 제14항에 있어서,
    상기 제2 심화 신경망 생성 모델은,
    상기 최종 출력에서 과추정이 발생할 경우, 학습 데이터를 재추출하여 타겟인 상기 광대역 신호의 고주파 대역 스펙트럼에 필터를 적용하여 확장성을 조절한 후, 재학습시켜 업데이트 하는 것
    을 특징으로 하는 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 장치.
  16. 제15항에 있어서,
    상기 제2 심화 신경망 생성 모델은,
    인공 잡음에 강인한 특성을 갖도록 어절 단위로 필터를 적용하여 상기 학습 데이터로 사용하는 것
    을 특징으로 하는 음성 대역폭 확장을 위한 심화 신경망 앙상블을 이용한 음성 처리 장치.  
KR1020170081020A 2017-06-27 2017-06-27 인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블 KR101998950B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170081020A KR101998950B1 (ko) 2017-06-27 2017-06-27 인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170081020A KR101998950B1 (ko) 2017-06-27 2017-06-27 인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블

Publications (2)

Publication Number Publication Date
KR20190001278A true KR20190001278A (ko) 2019-01-04
KR101998950B1 KR101998950B1 (ko) 2019-07-10

Family

ID=65018015

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170081020A KR101998950B1 (ko) 2017-06-27 2017-06-27 인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블

Country Status (1)

Country Link
KR (1) KR101998950B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112233663A (zh) * 2020-09-08 2021-01-15 厦门亿联网络技术股份有限公司 一种用于频带扩展算法的数据生成方法、系统及存储介质
CN112885363A (zh) * 2019-11-29 2021-06-01 北京三星通信技术研究有限公司 语音发送方法和装置以及语音接收方法和装置、电子设备
WO2021107695A1 (en) 2019-11-29 2021-06-03 Samsung Electronics Co., Ltd. Method, device and electronic apparatus for transmitting and receiving speech signal
KR20210083855A (ko) * 2019-12-27 2021-07-07 삼성전자주식회사 인공신경망 기반의 음성 신호 송수신 방법 및 장치
KR20220012463A (ko) * 2020-07-22 2022-02-04 국방과학연구소 생성 모델 기반의 음성 코덱 복원 방법 및 장치, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램
US11475312B2 (en) 2019-11-18 2022-10-18 Samsung Electronics Co., Ltd. Method and apparatus with deep neural network model fusing

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220034393A (ko) 2020-09-11 2022-03-18 주식회사 케이티 음성 인식을 수행하는 장치, 방법 및 컴퓨터 프로그램

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Kehuang Li, et al. A deep neural network approach to speech bandwidth expansion. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2015.* *
Xin Liu, et al. Audio bandwidth extension using ensemble of recurrent neural networks. EURASIP Journal on Audio, Speech, and Music Processing. 2016.* *
노경진, 장준혁. 인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블. 한국통신학회 2017년도 하계종합학술발표회. 2017.06.21.* *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11475312B2 (en) 2019-11-18 2022-10-18 Samsung Electronics Co., Ltd. Method and apparatus with deep neural network model fusing
CN112885363A (zh) * 2019-11-29 2021-06-01 北京三星通信技术研究有限公司 语音发送方法和装置以及语音接收方法和装置、电子设备
WO2021107695A1 (en) 2019-11-29 2021-06-03 Samsung Electronics Co., Ltd. Method, device and electronic apparatus for transmitting and receiving speech signal
EP4055594A4 (en) * 2019-11-29 2022-12-28 Samsung Electronics Co., Ltd. METHOD, DEVICE AND ELECTRONIC APPARATUS FOR TRANSMITTING AND RECEIVING A VOICE SIGNAL
US11854571B2 (en) 2019-11-29 2023-12-26 Samsung Electronics Co., Ltd. Method, device and electronic apparatus for transmitting and receiving speech signal
KR20210083855A (ko) * 2019-12-27 2021-07-07 삼성전자주식회사 인공신경망 기반의 음성 신호 송수신 방법 및 장치
EP4064283A4 (en) * 2019-12-27 2022-12-28 Samsung Electronics Co., Ltd. METHOD AND DEVICE FOR TRANSMITTING/RECEIVING VOICE SIGNALS BASED ON AN ARTIFICIAL NEURAL NETWORK
KR20220012463A (ko) * 2020-07-22 2022-02-04 국방과학연구소 생성 모델 기반의 음성 코덱 복원 방법 및 장치, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램
CN112233663A (zh) * 2020-09-08 2021-01-15 厦门亿联网络技术股份有限公司 一种用于频带扩展算法的数据生成方法、系统及存储介质

Also Published As

Publication number Publication date
KR101998950B1 (ko) 2019-07-10

Similar Documents

Publication Publication Date Title
KR102002681B1 (ko) 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법
KR101998950B1 (ko) 인공 잡음에 강인한 음성 대역폭 확장을 위한 심화 신경망 앙상블
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
CN107358966B (zh) 基于深度学习语音增强的无参考语音质量客观评估方法
Luo et al. Real-time single-channel dereverberation and separation with time-domain audio separation network.
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
JP5127754B2 (ja) 信号処理装置
KR101461774B1 (ko) 대역폭 확장기
Fu et al. MetricGAN-U: Unsupervised speech enhancement/dereverberation based only on noisy/reverberated speech
Strake et al. Separated noise suppression and speech restoration: LSTM-based speech enhancement in two stages
EP2559026A1 (en) Audio communication device, method for outputting an audio signal, and communication system
JP7314279B2 (ja) 音質の推定および制御を使用した音源分離のための装置および方法
Pulakka et al. Speech bandwidth extension using gaussian mixture model-based estimation of the highband mel spectrum
Xu et al. Using separate losses for speech and noise in mask-based speech enhancement
Xu et al. Deep noise suppression maximizing non-differentiable PESQ mediated by a non-intrusive PESQNet
JP5443547B2 (ja) 信号処理装置
KR101335417B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
JP2016143042A (ja) 雑音除去装置及び雑音除去プログラム
Elshamy et al. DNN-based cepstral excitation manipulation for speech enhancement
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
Soni et al. Effectiveness of ideal ratio mask for non-intrusive quality assessment of noise suppressed speech
WO2011029484A1 (en) Signal enhancement processing
CN112489692A (zh) 语音端点检测方法和装置
Llombart et al. Speech enhancement with wide residual networks in reverberant environments
Xia et al. A modified spectral subtraction method for speech enhancement based on masking property of human auditory system

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant