KR101934636B1 - 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치 - Google Patents

심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치 Download PDF

Info

Publication number
KR101934636B1
KR101934636B1 KR1020170048574A KR20170048574A KR101934636B1 KR 101934636 B1 KR101934636 B1 KR 101934636B1 KR 1020170048574 A KR1020170048574 A KR 1020170048574A KR 20170048574 A KR20170048574 A KR 20170048574A KR 101934636 B1 KR101934636 B1 KR 101934636B1
Authority
KR
South Korea
Prior art keywords
echo
noise
feature vector
dnn
signal
Prior art date
Application number
KR1020170048574A
Other languages
English (en)
Other versions
KR20180115984A (ko
Inventor
장준혁
서혜지
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020170048574A priority Critical patent/KR101934636B1/ko
Priority to US16/604,777 priority patent/US11017791B2/en
Priority to PCT/KR2018/003840 priority patent/WO2018190547A1/ko
Publication of KR20180115984A publication Critical patent/KR20180115984A/ko
Application granted granted Critical
Publication of KR101934636B1 publication Critical patent/KR101934636B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)

Abstract

심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치가 제시된다. 일 실시예에 따른 심화신경망 기반의 잡음 및 에코의 통합 제거 방법은, 잡음 및 에코가 포함된 음성 신호로부터 특징 벡터를 추출하는 단계; 및 상기 특징 벡터와 심화신경망(DNN)의 학습을 통해 추정된 잡음 및 에코의 통합 제거 이득을 이용하여 잡음 및 에코가 통합 제거된 최종 음성 신호를 획득하는 단계를 포함하여 이루어질 수 있다.

Description

심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치{METHOD AND APPARATUS FOR INTEGRATING AND REMOVING ACOUSTIC ECHO AND BACKGROUND NOISE BASED ON DEEPENING NEURAL NETWORK}
아래의 실시예들은 음성 신호에 포함된 잡음 및 에코를 심화신경망 기반으로 통합하여 제거하는 기술에 관한 것이다.
음성 잡음 및 에코의 통합 제거 기술이란 음성 신호에 포함된 잡음 및 에코를 제거하는 기술이다. 일반적으로 잡음 제거기 및 에코 제거기를 독립적으로 설계한 후 직렬로 연결하여 잡음 및 에코 제거를 순차적으로 수행한다. 그러나 이러한 잡음 및 에코 제거기는 잡음 제거기 및 에코 제거기의 위치에 따라 성능의 차이가 크게 발생하게 된다. 예를 들어 잡음 제거기가 에코 제거기의 앞단에 위치할 경우 잡음 제거기의 비선형적인 연산으로 인하여 반향 제거기의 성능 저하가 발생하게 된다. 또한, 반향 제거기가 잡음 제거기의 앞단에 위치할 경우 잡음 제거기가 추정해야 할 잡음의 스펙트럼이 반향 제거 과정에서 왜곡이 생겨 잡음 추정의 성능이 저하되는 문제점이 발생하게 된다.
이에 따라 잡음 및 에코를 한꺼번에 통합적으로 제거하는 잡음 및 에코의 통합 제거 기술이 사용될 수 있다. 종래에는 음성 신호와 잡음 및 에코 사이의 통계적 정보를 이용하는 통계 모델 기반의 잡음 및 에코의 통합 제거 기술이 주로 사용되었으나, 통계 모델 기반의 음성 향상 기술은 정상 잡음 환경과는 달리 비정상 잡음 환경에서 성능이 크게 저하되는 문제점을 가지고 있다. 예를 들어, 음성 인식에서 잡음이 존재하지 않은 깨끗한 신호를 이용하여 음성 인식 모델을 학습시킨 후 잡음이 존재하는 신호로 테스트를 수행할 경우 성능이 감소한다. 이러한 성능 감소를 해결하기 위해 잡음이 존재하는 음성을 이용하여 음성 인식 모델을 학습하는 기술이 제안되었으나, 학습된 잡음 환경에 최적화되어 학습된 잡음 환경에서 테스트하는 경우에는 우수한 성능을 보이나, 학습되지 않은 잡음 환경에서 테스트하는 경우에는 성능이 저하되는 문제점이 존재한다.
최근 머신러닝 기법인 심화신경망(Deep Neural Network, DNN)이 다양한 음성 향상 및 음성 인식 연구에서 우수한 성능을 보이고 있다. 심화신경망은 다수의 은닉 층과 은닉 노드들을 통하여 입력 특징 벡터와 출력 특징 벡터 사이의 비선형적인 관계를 효과적으로 모델링하여 우수한 성능을 보인다.
한국등록특허 10-0762596호는 음성 신호 전처리 시스템 및 음성 신호 특징 정보 추출 방법에 관한 것으로, 신경망 인식 방법을 이용하여 음성 신호를 전처리하는 기술을 기재하고 있다.
실시예들은 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치에 관하여 기술하며, 보다 구체적으로 심화신경망(DNN)을 이용하여 음성에 존재하는 잡음 및 에코를 통합적으로 제거하는 기술을 제공한다.
실시예들은 원단 화자 신호와 마이크 입력 정보만으로는 심화신경망(DNN)이 학습이 잘되지 않는 문제점을 해결하기 위하여 음성 신호의 통계적 정보인 잡음 정보 및 에코 정보를 심화신경망(DNN)의 추가적 입력으로 사용하고, 음성 신호에서 잡음 및 에코를 통합 제거하기 위한 잡음 및 에코의 통합 제거 이득을 심화신경망(DNN)의 타겟(target) 특징 벡터로 하여 효과적으로 잡음 및 에코를 통합 제거하는 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치를 제공하는데 있다.
일 실시예에 따른 심화신경망 기반의 잡음 및 에코의 통합 제거 방법은, 잡음 및 에코가 포함된 음성 신호로부터 특징 벡터를 추출하는 단계; 및 상기 특징 벡터와 심화신경망(DNN)의 학습을 통해 추정된 잡음 및 에코의 통합 제거 이득을 이용하여 잡음 및 에코가 통합 제거된 최종 음성 신호를 획득하는 단계를 포함한다.
상기 심화신경망(DNN)을 학습시키는 단계를 더 포함하고, 상기 심화신경망(DNN)을 학습시키는 단계는, 학습 단계에서, 잡음 및 에코가 포함된 마이크 입력 신호와 원단 화자 신호로부터 특징 벡터를 추출하는 단계; 및 상기 특징 벡터를 심화신경망(DNN)의 입력 특징 벡터로 이용하고, 학습된 심화신경망(DNN)의 모델인 가중치(weight) 파라미터와 바이어스(bias) 파라미터에 입력 특징 벡터를 통과시켜 잡음 및 에코의 통합 제거 이득을 추정하는 단계를 포함할 수 있다.
상기 심화신경망(DNN)을 학습시키는 단계는, 학습 단계에서, 음성 신호의 통계적 정보인 사전 신호대에코비 및 사후 신호대에코비(a priori and a posteriori SER) 및 사전 신호대잡음비 및 사후 신호대잡음비(a priori and a posteriori SNR)를 추출된 상기 특징 벡터에 연결하여 상기 심화신경망(DNN)의 입력 특징 벡터로 이용하는 단계를 더 포함할 수 있다.
상기 학습 단계에서, 잡음 및 에코가 포함된 마이크 입력 신호와 원단 화자 신호로부터 특징 벡터를 추출하는 단계는, 상기 학습 단계에서, 잡음 및 에코가 포함된 마이크 입력 신호와 원단 화자 신호를 대상으로 숏타임 푸리에 변환(Short-Time Fourier Transform, STFT)을 수행하여 시간 영역에서 주파수 영역의 신호로 변환하고, 변환된 주파수 영역의 신호의 로그 파워 스펙트럼(Log Power Spectrum, LPS)을 상기 특징 벡터로 추출할 수 있다.
상기 심화신경망(DNN)을 학습시키는 단계는, 상기 심화신경망(DNN)의 회기 학습(regression)을 통하여 연속적인 최적 이득(optimal gain)을 추정하고, 평균제곱오차(Mean Squared Error, MSE)를 상기 심화신경망(DNN)의 목적 함수로 하여 타겟(target) 특징 벡터인 잡음 및 에코의 통합 제거 이득과 상기 심화신경망(DNN)을 통하여 추정된 상기 잡음 및 에코의 통합 제거 이득의 차이를 최소화하는 방향으로 심화신경망(DNN)의 학습이 진행될 수 있다.
상기 잡음 및 에코가 포함된 음성 신호로부터 특징 벡터를 추출하는 단계는, 음성 향상 단계에서, 잡음 및 에코가 포함된 마이크 입력 신호와 원단 화자 신호로부터 특징 벡터를 추출하고, 음성 향상 단계에서, 음성 신호의 통계적 정보인 사전 신호대에코비 및 사후 신호대에코비(a priori and a posteriori SER) 및 사전 신호대잡음비 및 사후 신호대잡음비(a priori and a posteriori SNR)를 추출된 상기 특징 벡터에 연결하여 상기 심화신경망(DNN)의 입력 특징 벡터로 이용하는 단계를 포함할 수 있다.
상기 음성 향상 단계에서, 잡음 및 에코가 포함된 마이크 입력 신호와 원단 화자 신호로부터 특징 벡터를 추출하는 단계는, 상기 음성 향상 단계에서, 잡음 및 에코가 포함된 마이크 입력 신호와 원단 화자 신호를 대상으로 숏타임 푸리에 변환(Short-Time Fourier Transform, STFT)을 수행하여 시간 영역에서 주파수 영역의 신호로 변환하고, 변환된 주파수 영역의 신호의 로그 파워 스펙트럼(Log Power Spectrum, LPS)을 상기 특징 벡터로 추출할 수 있다.
상기 특징 벡터와 심화신경망(DNN)의 학습을 통해 추정된 잡음 및 에코의 통합 제거 이득을 이용하여 잡음 및 에코가 통합 제거된 최종 음성 신호를 획득하는 단계는, 상기 잡음 및 에코가 포함된 마이크 입력 신호의 로그 파워 스펙트럼(Log Power Spectrum, LPS)에 추정된 상기 잡음 및 에코의 통합 제거 이득을 곱하여 추정된 근단 화자 신호의 로그 파워 스펙트럼을 획득하는 단계; 및 상기 근단 화자 신호의 로그 파워 스펙트럼을 잡음이 존재하는 신호의 위상과 함께 인버스 숏타임 푸리에 변환(Inverse Short-Time Fourier Transform, ISTFT)하여 최종적으로 잡음 및 에코가 제거된 최종 근단 화자 신호의 파형을 획득하는 단계를 포함할 수 있다.
다른 실시예에 따른 심화신경망 기반의 잡음 및 에코의 통합 제거 장치는, 잡음 및 에코가 포함된 음성 신호로부터 특징 벡터를 추출하는 특징 벡터 추출부; 및 상기 특징 벡터와 심화신경망(DNN)의 학습을 통해 추정된 잡음 및 에코의 통합 제거 이득을 이용하여 잡음 및 에코가 통합 제거된 최종 음성 신호를 획득하는 음성 신호 재구성부를 포함하여 이루어질 수 있다.
상기 심화신경망(DNN)을 학습시키는 심화신경망 학습부를 더 포함하고, 상기 심화신경망 학습부는, 학습 단계에서, 잡음 및 에코가 포함된 마이크 입력 신호와 원단 화자 신호로부터 특징 벡터를 추출하는 학습부의 특징 벡터 추출부; 및 상기 특징 벡터를 심화신경망(DNN)의 입력 특징 벡터로 이용하고, 학습된 심화신경망(DNN)의 모델인 가중치(weight) 파라미터와 바이어스(bias) 파라미터에 입력 특징 벡터를 통과시켜 잡음 및 에코의 통합 제거 이득을 추정하는 심화신경망(DNN) 모델링부를 포함할 수 있다.
상기 학습부의 특징 벡터 추출부는, 학습 단계에서, 음성 신호의 통계적 정보인 사전 신호대에코비 및 사후 신호대에코비(a priori and a posteriori SER) 및 사전 신호대잡음비 및 사후 신호대잡음비(a priori and a posteriori SNR)를 추출된 상기 특징 벡터에 연결하여 상기 심화신경망(DNN)의 입력 특징 벡터로 이용하는 학습부의 잡음 정보 및 에코 정보부를 포함할 수 있다.
상기 학습부의 특징 벡터 추출부는, 상기 학습 단계에서, 잡음 및 에코가 포함된 마이크 입력 신호와 원단 화자 신호를 대상으로 숏타임 푸리에 변환(Short-Time Fourier Transform, STFT)을 수행하여 시간 영역에서 주파수 영역의 신호로 변환하고, 변환된 주파수 영역의 신호의 로그 파워 스펙트럼(Log Power Spectrum, LPS)을 상기 특징 벡터로 추출하는 학습부의 스펙트럼 추출부를 포함할 수 있다.
상기 심화신경망(DNN) 모델링부는, 상기 심화신경망(DNN)의 회기 학습(regression)을 통하여 연속적인 최적 이득(optimal gain)을 추정하고, 평균제곱오차(Mean Squared Error, MSE)를 상기 심화신경망(DNN)의 목적 함수로 하여 타겟(target) 특징 벡터인 잡음 및 에코의 통합 제거 이득과 상기 심화신경망(DNN)을 통하여 추정된 상기 잡음 및 에코의 통합 제거 이득의 차이를 최소화하는 방향으로 심화신경망(DNN)의 학습이 진행될 수 있다.
상기 특징 벡터 추출부는, 상기 음성 향상 단계에서, 잡음 및 에코가 포함된 마이크 입력 신호와 원단 화자 신호를 대상으로 숏타임 푸리에 변환(Short-Time Fourier Transform, STFT)을 수행하여 시간 영역에서 주파수 영역의 신호로 변환하고, 변환된 주파수 영역의 신호의 로그 파워 스펙트럼(Log Power Spectrum, LPS)을 상기 특징 벡터로 추출하는 스펙트럼 추출부; 및 음성 향상 단계에서, 음성 신호의 통계적 정보인 사전 신호대에코비 및 사후 신호대에코비(a priori and a posteriori SER) 및 사전 신호대잡음비 및 사후 신호대잡음비(a priori and a posteriori SNR)를 추출된 상기 특징 벡터에 연결하여 상기 심화신경망(DNN)의 입력 특징 벡터로 이용하는 잡음 및 에코 정보부를 포함할 수 있다.
상기 음성 신호 재구성부는, 상기 잡음 및 에코가 포함된 마이크 입력 신호의 로그 파워 스펙트럼(Log Power Spectrum, LPS)에 추정된 상기 잡음 및 에코의 통합 제거 이득을 곱하여 추정된 근단 화자 신호의 로그 파워 스펙트럼을 획득하고, 상기 근단 화자 신호의 로그 파워 스펙트럼을 잡음이 존재하는 신호의 위상과 함께 인버스 숏타임 푸리에 변환(Inverse Short-Time Fourier Transform, ISTFT)하여 최종적으로 잡음 및 에코가 제거된 최종 근단 화자 신호의 파형을 획득할 수 있다.
실시예들에 따르면 원단 화자 신호와 마이크 입력 정보만으로는 심화신경망(DNN)이 학습이 잘되지 않는 문제점을 해결하기 위하여 음성 신호의 통계적 정보인 잡음 정보 및 에코 정보를 심화신경망(DNN)의 추가적 입력으로 사용하고, 음성 신호에서 잡음 및 에코를 통합 제거하기 위한 잡음 및 에코의 통합 제거 이득을 심화신경망(DNN)의 타겟(target) 특징 벡터로 하여 효과적으로 잡음 및 에코를 통합 제거하는 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치를 제공할 수 있다.
도 1은 일 실시예에 따른 심화신경망 기반의 잡음 및 에코의 통합 제거 장치의 특징 벡터 추출을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 심화신경망(DNN) 기반의 잡음 및 에코의 통합 제거 장치의 최적 이득을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 학습된 잡음 환경에서 잡음 및 에코 제거된 신호의 파형 비교를 나타낸다.
도 4는 일 실시예에 따른 학습된 잡음 환경과 비교를 위해 학습되지 않은 잡음 환경에서 잡음 및 에코 제거된 신호의 파형 비교를 나타낸다.
도 5는 일 실시예에 따른 심화신경망 기반의 잡음 및 에코의 통합 제거 장치를 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 심화신경망 기반의 잡음 및 에코의 통합 제거 방법을 나타내는 흐름도이다.
도 7은 일 실시예에 따른 심화신경망의 학습 방법을 나타내는 흐름도이다.
도 8은 일 실시예에 따른 심화신경망 기반의 잡음 및 에코의 통합 제거 장치를 나타내는 블록도이다.
이하, 첨부된 도면을 참조하여 실시예들을 설명한다. 그러나, 기술되는 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시예들에 의하여 한정되는 것은 아니다. 또한, 여러 실시예들은 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다. 도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
음성 향상 기술은 마이크로폰으로 입력된 잡음 및 에코가 존재하는 음성 신호의 잡음 및 에코를 제거하여 깨끗한 음성을 추정하는 기술로, 음성 인식과 음성 통신과 같은 음성 어플리케이션에 필수적인 기술이다. 예를 들어 음성 인식에서 잡음 및 에코가 존재하지 않은 깨끗한 신호로 음성 인식 모델을 학습시킨 후 잡음이 존재하는 신호로 테스트를 할 경우 성능이 감소하게 된다. 이를 해결하기 위하여 음성 인식 수행 전에 잡음 및 에코를 제거하는 음성 향상 기술을 도입하여 음성 인식의 성능을 높일 수 있다. 또한, 음성 향상 기술은 음성 통신에서 잡음 및 에코를 제거하여 선명하고 명확하게 음성을 전달하여 통화 품질을 높이기 위해서도 사용될 수 있다.
아래의 실시예들은 심화신경망(DNN)을 이용하여 음성에 존재하는 잡음 및 에코를 통합적으로 제거할 수 있다. 더 구체적으로 실시예들은 원단 화자 신호와 마이크 입력 정보만으로는 심화신경망(DNN)이 학습이 잘되지 않는 문제점을 해결하기 위하여 음성 신호의 통계적 정보인 사전 신호대에코비 및 사후 신호대에코비(a priori and a posteriori SER) 및 사전 신호대잡음비 및 사후 신호대잡음비(a priori and a posteriori SNR)를 심화신경망(DNN)의 추가적 입력으로 사용하고, 음성 신호에서 잡음 및 에코를 통합 제거하기 위한 잡음 및 에코의 통합 제거 이득을 심화신경망(DNN)의 타겟(target) 특징 벡터로 하여 효과적으로 잡음 및 에코를 통합 제거할 수 있다.
본 실시예들에서는 STFT(Short Time Fourier Transform) 및 ISTFT(Inverse Short Time Fourier Transform) 변환을 이용하는 경우를 예로 들어 설명하나, 이는 실시예에 해당되며, STFT, ISTFT 이외에 DFT(Discrete Fourier Transform), IDFT(Inverse Discrete Fourier Transform) 변환, FFT(Fast Fourier Transform), IFFT(Inverse Fast Fourier Transform) 변환 등이 이용될 수도 있다.
이하에서는 음성 신호에 포함된 잡음 및 에코를 심화신경망 기반으로 통합하여 제거하는 기술에 대해 보다 상세히 설명하기로 한다.
도 1은 일 실시예에 따른 심화신경망 기반의 잡음 및 에코의 통합 제거 장치의 특징 벡터 추출을 설명하기 위한 도면이다.
도 1을 참조하면, 심화신경망 기반의 잡음 및 에코의 통합 제거를 위한 특징 벡터 추출 장치(100)는 잡음 및 에코의 통합 제거를 위한 특징 벡터 추출을 위해 마이크 입력 신호(111) 및 원단 화자 신호(far-end signal)(112)를 입력 받을 수 있다.
마이크 입력 신호(111)는 숏타임 푸리에 변환(STFT)(121)을 통하여 변환되어 주파수 영역으로 표현될 수 있다. 이에 따라 입력 특징 벡터의 추출을 위하여 주파수 영역 신호의 로그 파워 스펙트럼(Log Power Spectrum, LPS)을 추출할 수 있다. 즉, 마이크 입력 신호(111)의 로그 파워 스펙트럼(log power spectrum)을 추출(130)하여 심화신경망(DNN)의 입력 특징 벡터로 사용할 수 있다.
그리고, 원단 화자 신호(112)는 숏타임 푸리에 변환(STFT)(122)을 통하여 변환되어 주파수 영역으로 표현될 수 있다. 이에 따라 입력 특징 벡터의 추출을 위하여 주파수 영역 신호의 로그 파워 스펙트럼(log power spectrum)을 추출할 수 있다. 즉, 원단 화자 신호(112)의 로그 파워 스펙트럼(log power spectrum)을 추출(130)하여 심화신경망(DNN)의 입력 특징 벡터로 사용할 수 있다.
심화신경망(DNN)의 입력으로는 마이크 입력 신호의 로그 파워 스펙트럼과 원단 화자 신호(far-end signal)의 로그 파워 스펙트럼뿐만 아니라, 성능 향상을 위한 추가적 에코 정보(반향 정보) 및 잡음 정보(140)를 이어 붙여 사용(150)할 수 있다.
아래의 실시예들은 잡음 및 에코의 통합 제거 알고리즘에 DNN을 도입하여 최적의 잡음 및 에코의 통합 제거 이득을 추정할 수 있다. 또한, 심화신경망(DNN)의 입력으로 추가적 잡음 및 에코 정보인 사전 신호대에코비 및 사후 신호대에코비(a priori and a posteriori SER) 및 사전 신호대잡음비 및 사후 신호대잡음비(a priori and a posteriori SNR)를 주어 심화신경망(DNN) 기반의 잡음 및 에코 제거의 성능을 높일 수 있다.
먼저, 특징 벡터를 추출하는 방법에 대해 수학식 1 내지 6을 참조하여 보다 구체적으로 설명한다.
잡음 및 에코가 포함된 마이크 입력 신호(microphone signal power) y(t)는 근단 화자 신호(near-end speech power) x(t)에 잡음 신호(noise power) d(t) 및 에코 신호(echo power) e(t)가 더해져 생성될 수 있으며, 다음 식과 같이 나타낼 수 있다. 여기에서 잡음 및 에코가 포함된 마이크 입력 신호는 잡음과 에코가 동시에 존재하는 마이크 입력 신호를 의미한다.
[수학식 1]
Figure 112017036768596-pat00001
수학식 1과 같이 잡음 및 에코가 포함된 마이크 입력 신호 y(t)는 숏타임 푸리에 변환(Short-Time Fourier Transform, STFT)을 통하여 변환되어 시간 영역(time domain)에서 주파수 영역(frequency domain)으로 표현될 수 있으며, 다음 식과 같이 나타낼 수 있다.
[수학식 2]
Figure 112017036768596-pat00002
여기서, Y(l, m)은 잡음 및 에코가 포함된 마이크 입력 신호, X(l, m)은 근단 화자 신호, D(l, m)은 잡음 신호, E(l, m)은 에코 신호의 숏타임 푸리에 변환(STFT) 계수를 나타낼 수 있다. 그리고 l은 주파수 색인을 나타내고 m은 프레임 색인을 나타낼 수 있다.
수학식 2에서 주파수 영역으로 표현된 잡음 및 에코가 포함된 마이크 입력 신호 Y(l, m)를 스펙트럼과 위상으로 나타낼 수 있다. 즉, 주파수 영역에서 잡음 및 에코가 포함된 마이크 입력 신호 Y(l, m)는 다음 식과 같이 스펙트럼과 위상으로 표현될 수 있다.
[수학식 3]
Figure 112017036768596-pat00003
여기서 θ는 위상 값을 나타내며, L은 프레임 스텝(frame step)을 나타낼 수 있다.
잡음 및 에코가 포함된 마이크 입력 신호의 위상은 음성 합성 단계에서 신호를 시간 영역으로 복원할 때 사용될 수 있다. 입력 특징 벡터의 추출을 위하여 주파수 영역 신호의 로그 파워 스펙트럼(Log Power Spectrum 또는 Log Power Spectra, LPS)을 추출할 수 있다. 그러면, 수학식 3의 음성 스펙트럼 특징 벡터에 로그 연산 값을 취하여 얻어진 로그 파워 스펙트럼(log power spectrum)은 입력 특징 벡터로 사용될 수 있다. 예컨대, 크기(|Y(l,m)|)에 로그(log)를 취함에 따라 로그 파워 스펙트럼(log power spectrum)이 계산될 수 있다.
심화신경망(DNN)의 입력으로는 마이크 입력 신호의 로그 파워 스펙트럼과 원단 화자 신호(far-end signal)의 로그 파워 스펙트럼뿐만 아니라, 성능 향상을 위한 추가적 에코 정보(반향 정보) 및 잡음 정보를 이어 붙여 사용할 수 있다. 추가적 에코 정보로는 사전 신호대에코비 및 사후 신호대에코비(a priori Signal-to-Echo Ratio and a posteriori Signal-to-Echo Ratio, a priori and a posteriori SERs)을 사용할 수 있고, 추가적 잡음 정보로는 사전 신호대잡음비 및 사후 신호대잡음비(a priori Signal-to-Noise Ratio and a posteriori Signal-to-Noise Ratio, a priori and a posteriori SNRs)를 사용할 수 있다. 추가적 에코 정보 및 잡음 정보를 나타내는 사전 신호대에코비(a priori SER), 사후 신호대에코비(a posteriori SER), 사전 신호대잡음비(a priori SNR), 및 사후 신호대잡음비(a posteriori SNR)는 순차적으로 다음 식과 같이 표현될 수 있다.
[수학식 4]
Figure 112017036768596-pat00004
여기서 Y(i, k)는 마이크 입력 신호,
Figure 112017036768596-pat00005
는 음향학적 반향이 제거된 신호,
Figure 112017036768596-pat00006
는 배경 잡음이 제거된 신호,
Figure 112017036768596-pat00007
는 반향 신호의 전력, 그리고
Figure 112017036768596-pat00008
는 잡음 신호의 전력을 나타낼 수 있다.
표 1은 추가적 잡음 정보 및 에코 정보를 나타낸다.
Figure 112017036768596-pat00009
표 1과 같이, 추가적 잡음 및 에코 정보인 사전 신호대에코비 및 사후 신호대에코비(a priori and a posteriori SER) 및 사전 신호대잡음비 및 사후 신호대잡음비(a priori and a posteriori SNR)를 나타낼 수 있다. 이러한 추가적 잡음 및 에코 정보인 사전 신호대에코비 및 사후 신호대에코비(a priori and a posteriori SER)와 사전 신호대잡음비 및 사후 신호대잡음비(a priori and a posteriori SNR)는 기존의 통계적 기반의 통합 제거로부터 추정할 수 있다.
예컨대 사후 신호대잡음비(a posteriori SNR)는 음성이 존재하지 않는 구간에서 잡음 신호의 분산 값을 이용하여 업데이트 될 수 있고, 사전 신호대잡음비(a priori SNR)는 음성이 존재하는 구간에서 결정 지향(decision-directed) 방법을 통하여 구할 수 있다. 마찬가지로 사후 신호대에코비(a posteriori SER)는 음성이 존재하지 않는 구간에서 에코 신호의 분산 값을 이용하여 업데이트 될 수 있고, 사전 신호대에코비(a priori SER)는 음성이 존재하는 구간에서 결정 지향(decision-directed) 방법을 통하여 구할 수 있다.
이에 따라 마이크 입력 신호의 로그 파워 스펙트럼(log power spectrum), 원단 화자 신호의 로그 파워 스펙트럼(log power spectrum), 추가적 에코 정보 및 잡음 정보인 사전 신호대에코비 및 사후 신호대에코비(a priori and a posteriori SERs)와 사전 신호대잡음비 및 사후 신호대잡음비(a priori and a posteriori SNRs)를 이어 붙여 총 6682 개를 심화신경망(DNN)의 입력 특징 벡터로 사용할 수 있다.
심화신경망(DNN)의 타겟(target) 특징 벡터로는 음향학적 반향(에코) 및 배경 잡음 통합 제거를 위한 최적 이득(optimal gain) 값을 추정할 수 있다. 최적 이득(optimal gain) G opt 은 다음 식과 같이 표현될 수 있다.
[수학식 5]
Figure 112017036768596-pat00010
여기에서
Figure 112017036768596-pat00011
는 깨끗한 근단 화자 신호의 숏타임 푸리에 변환(STFT) 계수를 의미하고,
Figure 112017036768596-pat00012
는 마이크 입력 신호의 숏타임 푸리에 변환(STFT) 계수를 의미할 수 있다. 이 때, G min 의 값은 10-4으로 설정될 수 있다.
심화신경망(DNN) 기반의 잡음 및 에코의 통합 제거를 위해 먼저 심화신경망(DNN)의 학습을 수행할 수 있다.
심화신경망(DNN) 기반의 잡음 및 에코의 통합 제거 방법은 마이크 입력 신호의 스펙트럼, 원단 화자 신호의 스펙트럼, 및 추가적 잡음 정보 및 에코 정보를 입력 특징 벡터로 하여 심화신경망(DNN)을 학습함으로써 잡음 및 에코의 통합 제거를 위한 최적의 이득(gain)을 추정할 수 있다.
심화신경망(DNN)은 심화신경망(DNN)의 회기 학습(regression)을 통하여 연속적인 최적 이득(optimal gain) 값을 추정할 수 있다. 평균제곱오차(Mean Squared Error, MSE)를 심화신경망(DNN)의 목적 함수로 하여, 타겟(target) 특징 벡터인 잡음 및 에코의 통합 제거 이득과 심화신경망(DNN)을 통하여 추정된 잡음 및 에코의 통합 제거 이득의 차이를 최소화하는 방향으로 심화신경망(DNN)의 학습이 진행될 수 있다. 이 때, 평균제곱오차(MSE)는 다음 식과 같이 나타낼 수 있다.
[수학식 6]
Figure 112017036768596-pat00013
여기에서, n은 전체 학습 데이터 샘플의 개수(training data sample)를 나타내고, Yi는 심화신경망(DNN)의 타겟 특징 벡터인 잡음 및 에코가 존재하지 않는 깨끗한 음성 신호의 로그 파워 스펙트럼을 나타내고,
Figure 112017036768596-pat00014
은 심화신경망(DNN)을 통하여 음성 향상되어 잡음 및 에코의 통합 제거된 신호의 로그 파워 스펙트럼을 나타낼 수 있다.
심화신경망(DNN)은 다수의 은닉 층과 은닉 노드를 통하여 비선형적 특성의 모델링이 가능하다. 심화신경망(DNN)의 학습이 완료되면, 심화신경망(DNN)을 통하여 학습된 모델인 가중치(weight) 파라미터와 바이어스(bias) 파라미터를 잡음 및 에코의 통합 제거 단계에 사용할 수 있다.
심화신경망(DNN)의 학습이 완료되면, 잡음 및 에코의 통합 제거 단계(테스트 단계)가 수행될 수 있다.
잡음 및 에코의 통합 제거 단계에서, 잡음 및 에코를 통합 제거하기 위해 잡음 및 에코를 통합 제거할 신호의 마이크 입력 신호와 원단 화자 신호에서 입력 특징 벡터를 추출할 수 있다. 이 때, 마이크 입력 신호와 원단 화자 신호의 로그 파워 스펙트럼과 추가적 잡음 정보 및 에코 정보인 사전 신호대에코비 및 사후 신호대에코비(a priori and a posteriori SER) 및 사전 신호대잡음비 및 사후 신호대잡음비(a priori and a posteriori SNR)를 이어 붙여 입력 특징 벡터를 생성할 수 있다.
심화신경망(DNN)의 학습 단계에서 학습된 심화신경망(DNN)의 모델인 가중치(weight) 파라미터와 바이어스(bias) 파라미터들에 입력 특징 벡터를 통과시킴으로써, 잡음 및 에코의 통합 제거 이득을 얻을 수 있다. 마이크 입력 신호의 스펙트럼에 잡음 및 에코의 통합 제거 이득을 곱하여 추정된 근단 화자 신호의 스펙트럼을 얻을 수 있다. 추정된 깨끗한 근단 화자 신호의 로그 파워 스펙트럼을 잡음이 존재하는 신호의 위상과 함께 인버스 숏타임 푸리에 변환(Inverse Short-Time Fourier Transform, ISTFT)하여 최종 추정된 깨끗한 근단 화자 신호의 파형을 얻을 수 있다. 사람의 청각은 위상에 큰 영향을 받지 않으므로 위상은 잡음이 포함된 음성 신호의 위상을 그대로 사용할 수 있다.
도 2는 일 실시예에 따른 심화신경망(DNN) 기반의 잡음 및 에코의 통합 제거 장치의 최적 이득을 설명하기 위한 도면이다.
아래에서는 도 2를 참조하여, 학습된 잡음 환경과 학습되지 않은 잡음 환경에서 신호 처리된 신호가 어떠한 차이가 있는지를 비교하여 설명하기로 한다. 여기에서는 시간 영역의 음성 파형과 객관적 음성 평가 방식인 PESQ(Perceptual Evaluation of Speech Quality) 및 에코가 제거된 정도를 측정하는 ERLE(Echo Return Loss Enhancement)에 의하여 성능을 비교할 수 있다.
성능 비교 실험을 위해 4620개의 TIMIT 음성 데이터 베이스에 Room Impulse Response Generator를 이용하여 잔향 환경 음성을 생성할 수 있다. 시뮬레이션 공간을 설정하고, 잔향 시간을 0.1s, 0.2s, 0.3s로 하여 잔향 환경을 설정할 수 있다. 마이크 입력 신호는 원단 화자 신호와 근단 화자 신호를 결합하여 얻으며, 마이크 입력 신호에서 음향학적 반향 신호는 근단 화자 신호보다 평균 3.5 dB 낮게 설정될 수 있다. 잡음 환경 설정을 위하여 학습 데이터 셋에는 NOISEX-92의 Babble, Factory, HFchannel, F16의 4가지 잡음이 부가되고, 테스트 데이터 셋에는 Babble, Factory, HFchannel, F16, Destroyer-engine, Buccaneer, Pink, White의 8가지 잡음이 10 dB의 신호대잡음비(Signal-to-Noise Ratio, SNR)로 부가될 수 있다.
마이크 입력 신호와 원단 화자 신호, 심화신경망(DNN)의 타겟(target) 특징 벡터인 깨끗한 근단 화자 신호를 프레임 사이즈 320 샘플(size 320 samples)(20ms), 지연 80 샘플(delay 80 samples)로 하여, 제로 패딩(zero padding) 후 512-point 숏타임 푸리에 변환(STFT) 하여 주파수 영역의 신호를 얻을 수 있다. 여기에서 주파수 영역 신호의 로그 파워 스펙트럼(Log Power Spectrum, LPS)을 특징 벡터로 사용하였다. 즉, 마이크 입력 신호의 로그 파워 스펙트럼(log power spectrum)(211)과 원단 화자 신호의 로그 파워 스펙트럼(log power spectrum)(212)을 심화신경망(DNN)의 입력 특징 벡터로 사용할 수 있다.
또한, 음성 통계 모델 기반의 잡음 제거 알고리즘 및 음성 통계 모델 기반의 반향 제거 단계에서 추가적인 에코 정보 및 잡음 정보(213)인 사전 신호대에코비 및 사후 신호대에코비(a priori and a posteriori SERs), 사전 신호대잡음비 및 사후 신호대잡음비(a priori and a posteriori SNRs)를 계산하였다. 이 때 마이크 입력 신호의 로그 파워 스펙트럼(log power spectrum)의 현재 프레임과 전, 후 5 프레임, 원단 화자 신호의 로그 파워 스펙트럼(log power spectrum)의 전, 후 5 프레임 및 추가적 잡음 및 에코 정보(213)인 사전 신호대에코비 및 사후 신호대에코비(a priori and a posteriori SERs), 사전 신호대잡음비 및 사후 신호대잡음비(a priori and a posteriori SNRs)를 이어 붙여 총 6682 dimensions을 심화신경망(DNN)의 입력 특징 벡터로 사용하였다.
또한, 심화신경망(DNN)의 타겟(target) 특징 벡터로는 음향학적 반향 및 배경 잡음 통합 제거를 위한 최적 이득(optimal gain)(230)으로 총 257 dimensions이 사용되었다. 심화신경망(DNN)(220)은 복수의 층으로 구성될 수 있으며, 예컨대 3개의 층(222, 223, 224)으로 각 층은 1024 은닉 유닛(hidden units)으로 구성되었으며, 심화신경망(DNN)(220)의 활성 함수로는 시그모이드(sigmoid) 활성 함수가 사용되었다. 심화신경망(DNN)(220)의 회기 학습은 MMSE(Minimum Mean Squared Error)를 목적함수로 mini-batch의 크기를 100으로 하여 SGD(Stochastic Gradient Descent)를 통한 BP(Back-Propagation)로 학습이 진행되었다. 모든 학습은 epoch 50까지 진행되었으며 epoch 20 까지는 일정한 학습율(learning rate)로 진행시킨 후, epoch 21부터 0.9의 비율로 학습율을 감소시켰다. 잡음 및 에코의 통합 제거 알고리즘에 심화신경망(DNN)을 도입하여 최적의 잡음 및 에코의 통합 제거 이득을 추정할 수 있다.
실험 결과, 실시예에 따른 심화신경망(DNN) 기반의 잡음 및 에코의 통합 제거 기술은 다수의 은닉 층과 은닉 노드들을 통하여 고차원 벡터의 비선형적인 성질의 모델링에 강인한 심화신경망(DNN)을 통하여 학습된 잡음 환경 및 학습되지 않은 잡음 환경에서 모두 기존의 통계모델 기반의 잡음 및 에코의 통합 제거 기술보다 우수한 성능을 보였다.
도 3은 일 실시예에 따른 학습된 잡음 환경에서 잡음 및 에코 제거된 신호의 파형 비교를 나타낸다. 그리고 도 4는 일 실시예에 따른 학습된 잡음 환경과 비교를 위해 학습되지 않은 잡음 환경에서 잡음 및 에코 제거된 신호의 파형 비교를 나타낸다.
도 3은 학습된 잡음 환경인 factory 10 dB (RT60: 0.1s) 에서 잡음 및 에코 제거된 신호의 파형 비교를 나타내고, 도 4는 학습되지 않은 잡음 환경인 machinegun 10 dB (RT60: 0.1s) 에서 잡음 및 에코 제거된 신호의 파형 비교를 나타낸다. 도 3과 도 4는 학습된 잡음 환경인 factory 10 dB와 학습되지 않은 잡음 환경인 machinegun 10 dB (RT60: 0.1s) 에서 잡음 및 에코 제거된 신호의 파형을 보여준다.
실시예에 따른 심화신경망(DNN) 기반의 잡음 및 에코의 통합 제거 방법은 기존의 통계 모델보다 원단 화자 구간에서 더 높은 에코 제거 성능을 보였으며, 근단 화자 구간에서 근단 화자 신호가 더 잘 보존되는 것을 확인할 수 있다.
표 2는 원단 화자 구간에서의 ERLE 비교를 나타낸다.
Figure 112017036768596-pat00015
그리고 표 3은 근단 화자 구간에서의 PESQ 비교를 나타낸다.
Figure 112017036768596-pat00016
표 2와 표 3에 따르면 원단 화자 구간에서 에코가 제거된 정도를 측정하는 ERLE 값과 근단 화자 구간에서의 음질 측정 기준인 PESQ를 비교할 수 있다. 심화신경망(DNN) 기반의 잡음 및 에코 제거 기술이 기존의 통계 모델 기반보다 높은 에코 제거 성능을 보였으며, 근단 화자 신호의 음질이 더 잘 보존되어 높은 PESQ 결과를 보이는 것을 확인할 수 있다.
최근 다양한 IoT 기기에서 심화신경망(DNN) 기반의 음성 인식을 수행하고 있다. 음성 인식 수행 전 잡음 및 에코를 제거하여 음성 인식의 성능을 높이기 위하여 심화신경망(DNN) 기반의 잡음 및 에코 제거를 수행하여 음성 인식의 성능을 높일 뿐만 아니라 다양한 음성 통신 기술에 적용되어 음질을 향상시킬 수 있을 것이다.
도 5는 일 실시예에 따른 심화신경망 기반의 잡음 및 에코의 통합 제거 장치를 설명하기 위한 도면이다.
도 5를 참조하면, 본 실시예에서 심화신경망(DNN)을 기반으로 하는 잡음 및 에코의 통합 제거 기술은 학습 단계(510)와 음성 향상 단계(520)로 구분될 수 있다.
먼저, 학습 단계(510)에서는 잡음과 에코가 존재하는 마이크 입력 신호(511) 및 원단 화자 신호(512)의 학습 데이터 셋을 통하여 특징 벡터를 추출할 수 있다(513, 514). 여기에서, 특징 벡터는 마이크 입력 신호(511) 및 원단 화자 신호(512)의 로그 파워 스펙트럼(Log Power Spectrum, LPS)과 이들의 통계적 정보인 SER 및 SNR이 사용될 수 있다. 이를 바탕으로 심화신경망(DNN)을 통하여 잡음 및 에코의 통합 제거 이득을 추정하도록 학습이 진행될 수 있다(515).
다음으로, 음성 향상 단계(520)가 진행될 수 있다. 음성 향상 단계(520)도 학습 단계(510)와 마찬가지로 특징 벡터의 추출로부터 시작할 수 있다(523, 524, 525). 잡음과 에코가 포함된 마이크 입력 신호(521) 및 원단 화자 신호(522)의 학습 데이터 셋을 통하여 로그 파워 스펙트럼(Log Power Spectrum, LPS)과 이들의 통계적 정보인 SER 및 SNR을 추출한 뒤, 이를 이어 붙여 입력 특징 벡터로 사용할 수 있다. 또한, 잡음과 에코가 포함된 마이크 입력 신호(521) 및 원단 화자 신호(522)의 학습 데이터 셋을 통하여 위상을 추출할 수 있다.
입력 특징 벡터를 심화신경망(DNN)의 학습 과정에서 학습된 모델인 가중치(weight) 파라미터와 바이어스(bias) 파라미터에 통과시켜 최종적으로 추정된 잡음 및 에코의 통합 제거 이득을 얻을 수 있다(526).
그리고 마이크 입력 신호의 로그 파워 스펙트럼에 추정된 잡음 및 에코의 통합 제거 이득을 곱하여 추정된 깨끗한 근단 화자 신호의 로그 파워 스펙트럼을 마이크 입력 신호의 위상과 함께 음성을 복원하는 과정(527)을 거쳐 최종적으로 잡음 및 에코가 제거된 깨끗한 근단 화자 신호의 파형을 얻을 수 있다(528).
아래에서 일 실시예에 따른 심화신경망 기반의 잡음 및 에코의 통합 제거 장치에 대해 하나의 예를 들어 더 구체적으로 설명하기로 한다.
도 6은 일 실시예에 따른 심화신경망 기반의 잡음 및 에코의 통합 제거 방법을 나타내는 흐름도이다. 그리고 도 7은 일 실시예에 따른 심화신경망의 학습 방법을 나타내는 흐름도이다.
도 6 및 도 7을 참조하면, 일 실시예에 따른 심화신경망 기반의 잡음 및 에코의 통합 제거 방법은 잡음 및 에코가 포함된 음성 신호로부터 특징 벡터를 추출하는 단계(620), 및 특징 벡터와 심화신경망(DNN)의 학습을 통해 추정된 잡음 및 에코의 통합 제거 이득을 이용하여 잡음 및 에코가 통합 제거된 최종 음성 신호를 획득하는 단계(630)를 포함하여 이루어질 수 있다.
심화신경망(DNN)을 학습시키는 단계(610)를 더 포함하고, 심화신경망(DNN)을 학습시키는 단계(610)는, 학습 단계에서, 잡음 및 에코가 포함된 마이크 입력 신호와 원단 화자 신호로부터 특징 벡터를 추출하는 단계(611), 및 특징 벡터를 심화신경망(DNN)의 입력 특징 벡터로 이용하고, 학습된 심화신경망(DNN)의 모델인 가중치(weight) 파라미터와 바이어스(bias) 파라미터에 입력 특징 벡터를 통과시켜 잡음 및 에코의 통합 제거 이득을 추정하는 단계(613)를 포함할 수 있다.
심화신경망(DNN)을 학습시키는 단계는, 학습 단계에서, 음성 신호의 통계적 정보인 사전 신호대에코비 및 사후 신호대에코비(a priori and a posteriori SER) 및 사전 신호대잡음비 및 사후 신호대잡음비(a priori and a posteriori SNR)를 추출된 특징 벡터에 연결하여 심화신경망(DNN)의 입력 특징 벡터로 이용하는 단계(612)를 더 포함할 수 있다.
실시예들에 따르면 원단 화자 신호와 마이크 입력 정보만으로는 심화신경망(DNN)이 학습이 잘되지 않는 문제점을 해결하기 위하여 음성 신호의 통계적 정보인 잡음 정보 및 에코 정보를 심화신경망(DNN)의 추가적 입력으로 사용하고, 음성 신호에서 잡음 및 에코를 통합 제거하기 위한 잡음 및 에코의 통합 제거 이득을 심화신경망(DNN)의 타겟(target) 특징 벡터로 하여 효과적으로 잡음 및 에코를 통합 제거할 수 있다.
도 8은 일 실시예에 따른 심화신경망 기반의 잡음 및 에코의 통합 제거 장치를 나타내는 블록도이다.
도 8을 참조하면, 일 실시예에 따른 심화신경망 기반의 잡음 및 에코의 통합 제거 장치를 이용하여 도 6 및 도 7의 일 실시예에 따른 일 실시예에 따른 심화신경망 기반의 잡음 및 에코의 통합 제거 방법을 보다 구체적으로 설명할 수 있다.
일 실시예에 따른 심화신경망 기반의 잡음 및 에코의 통합 제거 장치는 심화신경망(DNN) 학습부(810), 특징 벡터 추출부(820), 그리고 음성 신호 재구성부(830)를 포함하여 이루어질 수 있다. 여기에서 심화신경망(DNN) 학습부(810)는 학습부의 특징 벡터 추출부(811) 및 심화신경망(DNN) 모델링부(812)를 포함하여 이루어질 수 있고, 학습부의 특징 벡터 추출부(811)는 학습부의 스펙트럼 추출부와 학습부의 잡음 및 에코 정보부를 포함하여 이루어질 수 있다. 또한, 특징 벡터 추출부(820)는 스펙트럼 추출부와 잡음 및 에코 정보부를 포함하여 이루어질 수 있다.
단계(610)에서, 심화신경망(DNN) 학습부(810)는 심화신경망(DNN)을 학습시킬 수 있다.
더 구체적으로 단계(611)에 있어서, 학습부의 특징 벡터 추출부(811)는 학습 단계에서 잡음 및 에코가 포함된 마이크 입력 신호와 원단 화자 신호로부터 특징 벡터를 추출할 수 있다.
그리고 단계(612)에 있어서, 학습부의 특징 벡터 추출부(811)는 학습 단계에서 음성 신호의 통계적 정보인 사전 신호대에코비 및 사후 신호대에코비(a priori and a posteriori SER) 및 사전 신호대잡음비 및 사후 신호대잡음비(a priori and a posteriori SNR)를 추출된 특징 벡터에 연결하여 심화신경망(DNN)의 입력 특징 벡터로 이용할 수 있다.
여기에서 학습부의 특징 벡터 추출부(811)는 학습부의 스펙트럼 추출부와 학습부의 잡음 및 에코 정보부를 포함하여 이루어질 수 있다.
학습부의 스펙트럼 추출부는 학습 단계에서, 잡음 및 에코가 포함된 마이크 입력 신호와 원단 화자 신호를 대상으로 숏타임 푸리에 변환(Short-Time Fourier Transform, STFT)을 수행하여 시간 영역에서 주파수 영역의 신호로 변환하고, 변환된 주파수 영역의 신호의 로그 파워 스펙트럼(Log Power Spectrum, LPS)을 특징 벡터로 추출할 수 있다.
그리고 학습부의 잡음 및 에코 정보부는 학습 단계에서 음성 신호의 통계적 정보인 사전 신호대에코비 및 사후 신호대에코비(a priori and a posteriori SER) 및 사전 신호대잡음비 및 사후 신호대잡음비(a priori and a posteriori SNR)를 추출된 특징 벡터에 연결하여 심화신경망(DNN)의 입력 특징 벡터로 이용할 수 있다.
단계(613)에서, 심화신경망(DNN) 모델링부(812)는 특징 벡터를 심화신경망(DNN)의 입력 특징 벡터로 이용하고, 학습된 심화신경망(DNN)의 모델인 가중치(weight) 파라미터와 바이어스(bias) 파라미터에 입력 특징 벡터를 통과시켜 잡음 및 에코의 통합 제거 이득을 추정할 수 있다.
이러한 심화신경망(DNN) 모델링부는 심화신경망(DNN)의 회기 학습(regression)을 통하여 연속적인 최적 이득(optimal gain)을 추정하고, 평균제곱오차(Mean Squared Error, MSE)를 심화신경망(DNN)의 목적 함수로 하여 타겟(target) 특징 벡터인 잡음 및 에코의 통합 제거 이득과 심화신경망(DNN)을 통하여 추정된 잡음 및 에코의 통합 제거 이득의 차이를 최소화하는 방향으로 심화신경망(DNN)의 학습이 진행될 수 있다.
단계(620)에서, 특징 벡터 추출부(820)는 잡음 및 에코가 포함된 음성 신호로부터 특징 벡터를 추출할 수 있다.
여기에서 특징 벡터 추출부(820)는 스펙트럼 추출부와 잡음 및 에코 정보부를 포함하여 이루어질 수 있다.
스펙트럼 추출부는 음성 향상 단계에서 잡음 및 에코가 포함된 마이크 입력 신호와 원단 화자 신호를 대상으로 숏타임 푸리에 변환(Short-Time Fourier Transform, STFT)을 수행하여 시간 영역에서 주파수 영역의 신호로 변환하고, 변환된 주파수 영역의 신호의 로그 파워 스펙트럼(Log Power Spectrum, LPS)을 특징 벡터로 추출할 수 있다.
그리고 잡음 및 에코 정보부는 음성 향상 단계에서 음성 신호의 통계적 정보인 사전 신호대에코비 및 사후 신호대에코비(a priori and a posteriori SER) 및 사전 신호대잡음비 및 사후 신호대잡음비(a priori and a posteriori SNR)를 추출된 특징 벡터에 연결하여 심화신경망(DNN)의 입력 특징 벡터로 이용할 수 있다.
단계(630)에서, 음성 신호 재구성부(830)는 특징 벡터와 심화신경망(DNN)의 학습을 통해 추정된 잡음 및 에코의 통합 제거 이득을 이용하여 잡음 및 에코가 통합 제거된 최종 음성 신호를 획득할 수 있다.
이러한 음성 신호 재구성부(830)는 잡음 및 에코가 포함된 마이크 입력 신호의 로그 파워 스펙트럼(Log Power Spectrum, LPS)에 추정된 잡음 및 에코의 통합 제거 이득을 곱하여 추정된 근단 화자 신호의 로그 파워 스펙트럼을 획득하고, 근단 화자 신호의 로그 파워 스펙트럼을 잡음이 존재하는 신호의 위상과 함께 인버스 숏타임 푸리에 변환(Inverse Short-Time Fourier Transform, ISTFT)하여 최종적으로 잡음 및 에코가 제거된 최종 근단 화자 신호의 파형을 획득할 수 있다. 즉, 잡음 및 에코가 통합 제거된 최종 음성 신호를 획득할 수 있다.
이상과 같이 실시예들은 음성 향상 기술로 음성 인식과 음성 통신 기술을 수행하기 이전에 잡음 및 에코를 제거하여 보다 우수한 성능을 도출할 수 있다. 또한 휴대폰 단말기나 카카오톡의 보이스톡 등에서 음성 통화 품질을 높이기 위해 적용될 수 있다.
이러한 음성 향상 기술은 잡음 및 에코가 존재하는 환경에서 음성 인식의 성능을 향상시키는데 사용될 수 있다. 최근 다양한 사물인터넷(Internet of Things, IoT) 기기에서 음성 인식이 수행되는데 이는 조용한 환경에서만 수행되는 것이 아니라 주변 잡음이 존재하는 환경에서 수행될 수 있으며, IoT 기기의 스피커에서 소리가 나올 때 이 소리가 다시 들어가 에코를 발생할 수 있다. 따라서 음성 인식 수행 전 잡음 및 에코를 제거하여 IoT 기기에서 수행되는 음성 인식의 성능을 높일 수 있다. 또한, 본 실시예들은 우수한 품질의 음성 향상 신호를 제공하므로 다양한 음성 통신 기술에 적용되어 깨끗한 품질의 음성을 제공할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (15)

  1. 심화신경망(DNN)을 학습시키는 단계;
    잡음 및 에코가 포함된 음성 신호로부터 특징 벡터를 추출하는 단계; 및
    상기 특징 벡터와 심화신경망(DNN)의 학습을 통해 추정된 잡음 및 에코의 통합 제거 이득을 이용하여 잡음 및 에코가 통합 제거된 최종 음성 신호를 획득하는 단계
    를 포함하고,
    상기 심화신경망(DNN)을 학습시키는 단계는,
    학습 단계에서, 잡음 및 에코가 포함된 마이크 입력 신호와 원단 화자 신호로부터 특징 벡터를 추출하는 단계; 및
    상기 특징 벡터를 심화신경망(DNN)의 입력 특징 벡터로 이용하고, 학습된 심화신경망(DNN)의 모델인 가중치(weight) 파라미터와 바이어스(bias) 파라미터에 상기 입력 특징 벡터를 통과시켜 잡음 및 에코의 통합 제거 이득을 추정하는 단계
    를 포함하며,
    상기 심화신경망(DNN)의 입력 특징 벡터는,
    상기 마이크 입력 신호의 로그 파워 스펙트럼(Log Power Spectrum, LPS), 상기 원단 화자 신호의 로그 파워 스펙트럼 및 추가적 잡음 및 에코 정보를 이어 붙여 사용하고,
    상기 특징 벡터와 심화신경망(DNN)의 학습을 통해 추정된 잡음 및 에코의 통합 제거 이득을 이용하여 잡음 및 에코가 통합 제거된 최종 음성 신호를 획득하는 단계는,
    상기 잡음 및 에코가 포함된 마이크 입력 신호의 로그 파워 스펙트럼(Log Power Spectrum, LPS)에 추정된 상기 잡음 및 에코의 통합 제거 이득을 곱하여 근단 화자 신호의 로그 파워 스펙트럼을 획득하는 단계; 및
    상기 근단 화자 신호의 로그 파워 스펙트럼을 잡음 및 에코가 존재하는 신호의 위상과 함께 인버스 숏타임 푸리에 변환(Inverse Short-Time Fourier Transform, ISTFT)하여 최종적으로 잡음 및 에코가 제거된 최종 근단 화자 신호의 파형을 획득하는 단계
    를 포함하는 심화신경망 기반의 잡음 및 에코의 통합 제거 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 심화신경망(DNN)을 학습시키는 단계는,
    학습 단계에서, 음성 신호의 통계적 정보인 사전 신호대에코비 및 사후 신호대에코비(a priori and a posteriori SER) 및 사전 신호대잡음비 및 사후 신호대잡음비(a priori and a posteriori SNR)를 추출된 상기 특징 벡터에 연결하여 상기 심화신경망(DNN)의 입력 특징 벡터로 이용하는 단계
    를 더 포함하는 심화신경망 기반의 잡음 및 에코의 통합 제거 방법.
  4. 제1항에 있어서,
    상기 학습 단계에서, 잡음 및 에코가 포함된 마이크 입력 신호와 원단 화자 신호로부터 특징 벡터를 추출하는 단계는,
    상기 학습 단계에서, 잡음 및 에코가 포함된 마이크 입력 신호와 원단 화자 신호를 대상으로 숏타임 푸리에 변환(Short-Time Fourier Transform, STFT)을 수행하여 시간 영역에서 주파수 영역의 신호로 변환하고, 변환된 주파수 영역의 신호의 로그 파워 스펙트럼(Log Power Spectrum, LPS)을 상기 특징 벡터로 추출하는 것
    을 특징으로 하는 심화신경망 기반의 잡음 및 에코의 통합 제거 방법.
  5. 제1항에 있어서,
    상기 심화신경망(DNN)을 학습시키는 단계는,
    상기 심화신경망(DNN)의 회기 학습(regression)을 통하여 연속적인 최적 이득(optimal gain)을 추정하고, 평균제곱오차(Mean Squared Error, MSE)를 상기 심화신경망(DNN)의 목적 함수로 하여 타겟(target) 특징 벡터인 잡음 및 에코의 통합 제거 이득과 상기 심화신경망(DNN)을 통하여 추정된 상기 잡음 및 에코의 통합 제거 이득의 차이를 최소화하는 방향으로 심화신경망(DNN)의 학습이 진행되는 것
    을 특징으로 하는 심화신경망 기반의 잡음 및 에코의 통합 제거 방법.
  6. 제1항에 있어서,
    상기 잡음 및 에코가 포함된 음성 신호로부터 특징 벡터를 추출하는 단계는,
    음성 향상 단계에서, 잡음 및 에코가 포함된 마이크 입력 신호와 원단 화자 신호로부터 특징 벡터를 추출하는 단계; 및
    음성 향상 단계에서, 음성 신호의 통계적 정보인 사전 신호대에코비 및 사후 신호대에코비(a priori and a posteriori SER) 및 사전 신호대잡음비 및 사후 신호대잡음비(a priori and a posteriori SNR)를 추출된 상기 특징 벡터에 연결하여 상기 심화신경망(DNN)의 입력 특징 벡터로 이용하는 단계
    를 포함하는 심화신경망 기반의 잡음 및 에코의 통합 제거 방법.
  7. 제6항에 있어서,
    상기 음성 향상 단계에서, 잡음 및 에코가 포함된 마이크 입력 신호와 원단 화자 신호로부터 특징 벡터를 추출하는 단계는,
    상기 음성 향상 단계에서, 잡음 및 에코가 포함된 마이크 입력 신호와 원단 화자 신호를 대상으로 숏타임 푸리에 변환(Short-Time Fourier Transform, STFT)을 수행하여 시간 영역에서 주파수 영역의 신호로 변환하고, 변환된 주파수 영역의 신호의 로그 파워 스펙트럼(Log Power Spectrum, LPS)을 상기 특징 벡터로 추출하는 것
    을 특징으로 하는 심화신경망 기반의 잡음 및 에코의 통합 제거 방법.
  8. 삭제
  9. 심화신경망(DNN)을 학습시키는 심화신경망 학습부;
    잡음 및 에코가 포함된 음성 신호로부터 특징 벡터를 추출하는 특징 벡터 추출부; 및
    상기 특징 벡터와 심화신경망(DNN)의 학습을 통해 추정된 잡음 및 에코의 통합 제거 이득을 이용하여 잡음 및 에코가 통합 제거된 최종 음성 신호를 획득하는 음성 신호 재구성부를 포함하고,
    상기 심화신경망 학습부는,
    학습 단계에서, 잡음 및 에코가 포함된 마이크 입력 신호와 원단 화자 신호로부터 특징 벡터를 추출하는 학습부의 특징 벡터 추출부; 및
    상기 특징 벡터를 심화신경망(DNN)의 입력 특징 벡터로 이용하고, 학습된 심화신경망(DNN)의 모델인 가중치(weight) 파라미터와 바이어스(bias) 파라미터에 입력 특징 벡터를 통과시켜 잡음 및 에코의 통합 제거 이득을 추정하는 심화신경망(DNN) 모델링부를 포함하며,
    상기 심화신경망(DNN)의 입력 특징 벡터는,
    상기 마이크 입력 신호의 로그 파워 스펙트럼(Log Power Spectrum, LPS), 상기 원단 화자 신호의 로그 파워 스펙트럼 및 추가적 잡음 및 에코 정보를 이어 붙여 사용하고,
    상기 음성 신호 재구성부는,
    상기 잡음 및 에코가 포함된 마이크 입력 신호의 로그 파워 스펙트럼(Log Power Spectrum, LPS)에 추정된 상기 잡음 및 에코의 통합 제거 이득을 곱하여 근단 화자 신호의 로그 파워 스펙트럼을 획득하고, 상기 근단 화자 신호의 로그 파워 스펙트럼을 잡음 및 에코가 존재하는 신호의 위상과 함께 인버스 숏타임 푸리에 변환(Inverse Short-Time Fourier Transform, ISTFT)하여 최종적으로 잡음 및 에코가 제거된 최종 근단 화자 신호의 파형을 획득하는 것
    을 특징으로 하는 심화신경망 기반의 잡음 및 에코의 통합 제거 장치.
  10. 삭제
  11. 제9항에 있어서,
    상기 학습부의 특징 벡터 추출부는,
    학습 단계에서, 음성 신호의 통계적 정보인 사전 신호대에코비 및 사후 신호대에코비(a priori and a posteriori SER) 및 사전 신호대잡음비 및 사후 신호대잡음비(a priori and a posteriori SNR)를 추출된 상기 특징 벡터에 연결하여 상기 심화신경망(DNN)의 입력 특징 벡터로 이용하는 학습부의 잡음 및 에코 정보부
    를 포함하는 심화신경망 기반의 잡음 및 에코의 통합 제거 장치.
  12. 제9항에 있어서,
    상기 학습부의 특징 벡터 추출부는,
    상기 학습 단계에서, 잡음 및 에코가 포함된 마이크 입력 신호와 원단 화자 신호를 대상으로 숏타임 푸리에 변환(Short-Time Fourier Transform, STFT)을 수행하여 시간 영역에서 주파수 영역의 신호로 변환하고, 변환된 주파수 영역의 신호의 로그 파워 스펙트럼(Log Power Spectrum, LPS)을 상기 특징 벡터로 추출하는 학습부의 스펙트럼 추출부
    를 포함하는 심화신경망 기반의 잡음 및 에코의 통합 제거 장치.
  13. 제9항에 있어서,
    상기 심화신경망(DNN) 모델링부는,
    상기 심화신경망(DNN)의 회기 학습(regression)을 통하여 연속적인 최적 이득(optimal gain)을 추정하고, 평균제곱오차(Mean Squared Error, MSE)를 상기 심화신경망(DNN)의 목적 함수로 하여 타겟(target) 특징 벡터인 잡음 및 에코의 통합 제거 이득과 상기 심화신경망(DNN)을 통하여 추정된 상기 잡음 및 에코의 통합 제거 이득의 차이를 최소화하는 방향으로 심화신경망(DNN)의 학습이 진행되는 것
    을 특징으로 하는 심화신경망 기반의 잡음 및 에코의 통합 제거 장치.
  14. 제9항에 있어서,
    상기 특징 벡터 추출부는,
    음성 향상 단계에서, 잡음 및 에코가 포함된 마이크 입력 신호와 원단 화자 신호를 대상으로 숏타임 푸리에 변환(Short-Time Fourier Transform, STFT)을 수행하여 시간 영역에서 주파수 영역의 신호로 변환하고, 변환된 주파수 영역의 신호의 로그 파워 스펙트럼(Log Power Spectrum, LPS)을 상기 특징 벡터로 추출하는 스펙트럼 추출부; 및
    음성 향상 단계에서, 음성 신호의 통계적 정보인 사전 신호대에코비 및 사후 신호대에코비(a priori and a posteriori SER) 및 사전 신호대잡음비 및 사후 신호대잡음비(a priori and a posteriori SNR)를 추출된 상기 특징 벡터에 연결하여 상기 심화신경망(DNN)의 입력 특징 벡터로 이용하는 잡음 및 에코 정보부
    를 포함하는 심화신경망 기반의 잡음 및 에코의 통합 제거 장치.
  15. 삭제
KR1020170048574A 2017-04-14 2017-04-14 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치 KR101934636B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020170048574A KR101934636B1 (ko) 2017-04-14 2017-04-14 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치
US16/604,777 US11017791B2 (en) 2017-04-14 2018-04-02 Deep neural network-based method and apparatus for combining noise and echo removal
PCT/KR2018/003840 WO2018190547A1 (ko) 2017-04-14 2018-04-02 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170048574A KR101934636B1 (ko) 2017-04-14 2017-04-14 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20180115984A KR20180115984A (ko) 2018-10-24
KR101934636B1 true KR101934636B1 (ko) 2019-01-02

Family

ID=63792583

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170048574A KR101934636B1 (ko) 2017-04-14 2017-04-14 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치

Country Status (3)

Country Link
US (1) US11017791B2 (ko)
KR (1) KR101934636B1 (ko)
WO (1) WO2018190547A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020204525A1 (ko) * 2019-04-01 2020-10-08 한양대학교 산학협력단 잡음 환경에 강인한 화자 인식을 위한 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
KR102172608B1 (ko) * 2019-05-02 2020-11-02 남서울대학교 산학협력단 동시통화에 강인한 심층학습 기반 음향반향 제거 장치 및 그 방법

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108335694B (zh) * 2018-02-01 2021-10-15 北京百度网讯科技有限公司 远场环境噪声处理方法、装置、设备和存储介质
KR102085739B1 (ko) * 2018-10-29 2020-03-06 광주과학기술원 음성 향상 방법
CN111223492A (zh) * 2018-11-23 2020-06-02 中移(杭州)信息技术有限公司 一种回声路径延迟估计方法及装置
CN111261179A (zh) * 2018-11-30 2020-06-09 阿里巴巴集团控股有限公司 回声消除方法及装置和智能设备
US11393487B2 (en) 2019-03-28 2022-07-19 Samsung Electronics Co., Ltd. System and method for acoustic echo cancelation using deep multitask recurrent neural networks
US10803881B1 (en) 2019-03-28 2020-10-13 Samsung Electronics Co., Ltd. System and method for acoustic echo cancelation using deep multitask recurrent neural networks
DE102019206743A1 (de) * 2019-05-09 2020-11-12 Sonova Ag Hörgeräte-System und Verfahren zur Verarbeitung von Audiosignalen
JP2020202448A (ja) * 2019-06-07 2020-12-17 ヤマハ株式会社 音響装置および音響処理方法
US20220238131A1 (en) * 2019-06-18 2022-07-28 Lg Electronics Inc. Method for processing sound used in speech recognition robot
CN112614500A (zh) * 2019-09-18 2021-04-06 北京声智科技有限公司 回声消除方法、装置、设备及计算机存储介质
KR20210083872A (ko) * 2019-12-27 2021-07-07 삼성전자주식회사 전자 장치 및 신경망 기반의 잔여 에코 제거 방법
KR102330243B1 (ko) * 2020-03-16 2021-11-23 주식회사 카카오엔터프라이즈 음향 신호 시스템의 에코 억제 방법
CN111933164B (zh) * 2020-06-29 2022-10-25 北京百度网讯科技有限公司 语音处理模型的训练方法、装置、电子设备和存储介质
CN111883155B (zh) * 2020-07-17 2023-10-27 海尔优家智能科技(北京)有限公司 回声消除方法、装置及存储介质
WO2022027423A1 (zh) * 2020-08-06 2022-02-10 大象声科(深圳)科技有限公司 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统
KR102505653B1 (ko) * 2020-10-23 2023-03-03 한양대학교 산학협력단 심화신경망을 이용한 에코 및 잡음 통합 제거 방법 및 장치
KR102412148B1 (ko) * 2020-11-04 2022-06-22 주식회사 딥히어링 뉴럴 네트워크를 이용한 빔포밍 방법 및 빔포밍 시스템
WO2022126367A1 (en) * 2020-12-15 2022-06-23 Qualcomm Incorporated Sequence processing for a dataset with frame dropping
CN112863535B (zh) * 2021-01-05 2022-04-26 中国科学院声学研究所 一种残余回声及噪声消除方法及装置
CN112687276B (zh) * 2021-03-11 2021-06-15 北京世纪好未来教育科技有限公司 一种音频信号处理方法、装置及存储介质
CN113286047B (zh) * 2021-04-22 2023-02-21 维沃移动通信(杭州)有限公司 语音信号处理方法、装置及电子设备
CN113421580B (zh) * 2021-08-23 2021-11-05 深圳市中科蓝讯科技股份有限公司 降噪方法、存储介质、芯片及电子设备
CN114221667B (zh) * 2021-12-08 2023-08-18 哈尔滨工程大学 一种通信系统接收端已知信号消除方法及系统
CN114758669B (zh) * 2022-06-13 2022-09-02 深圳比特微电子科技有限公司 音频处理模型的训练、音频处理方法、装置及电子设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2908003B1 (fr) * 2006-10-26 2009-04-03 Parrot Sa Procede de reduction de l'echo acoustique residuel apres supression d'echo dans un dispositif"mains libres"
US8700394B2 (en) * 2010-03-24 2014-04-15 Microsoft Corporation Acoustic model adaptation using splines
JP5634959B2 (ja) * 2011-08-08 2014-12-03 日本電信電話株式会社 雑音/残響除去装置とその方法とプログラム
JP5982297B2 (ja) * 2013-02-18 2016-08-31 日本電信電話株式会社 音声認識装置、音響モデル学習装置、その方法及びプログラム
US9177550B2 (en) 2013-03-06 2015-11-03 Microsoft Technology Licensing, Llc Conservatively adapting a deep neural network in a recognition system
US20170061978A1 (en) * 2014-11-07 2017-03-02 Shannon Campbell Real-time method for implementing deep neural network based speech separation
US9867012B2 (en) * 2015-06-03 2018-01-09 Dsp Group Ltd. Whispered speech detection
US9672821B2 (en) * 2015-06-05 2017-06-06 Apple Inc. Robust speech recognition in the presence of echo and noise using multiple signals for discrimination
US10522167B1 (en) * 2018-02-13 2019-12-31 Amazon Techonlogies, Inc. Multichannel noise cancellation using deep neural network masking

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Chul Min Lee et al., ‘DNN-based residual echo suppression’, INTERSPEECH 2015, pp.1775~1779, 2015.*
Yun-sik Park et al., ‘Integrated acoustic echo and background noise suppression technique based on soft decision’, EURASIP Journal on Advances in Signal Processing 2012, pp.1~9, January 2012.*
이철민, Enhanced acoustic echo suppression techniques based on spectro-temporal correlations, 서울대학교 대학원 박사학위논문, 2016년 8월.*

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020204525A1 (ko) * 2019-04-01 2020-10-08 한양대학교 산학협력단 잡음 환경에 강인한 화자 인식을 위한 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
KR102172608B1 (ko) * 2019-05-02 2020-11-02 남서울대학교 산학협력단 동시통화에 강인한 심층학습 기반 음향반향 제거 장치 및 그 방법

Also Published As

Publication number Publication date
US20200105287A1 (en) 2020-04-02
US11017791B2 (en) 2021-05-25
KR20180115984A (ko) 2018-10-24
WO2018190547A1 (ko) 2018-10-18

Similar Documents

Publication Publication Date Title
KR101934636B1 (ko) 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치
Luo et al. Real-time single-channel dereverberation and separation with time-domain audio separation network.
CN109686381B (zh) 用于信号增强的信号处理器和相关方法
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及系统
KR101807961B1 (ko) Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치
Zhao et al. Late reverberation suppression using recurrent neural networks with long short-term memory
Tu et al. A hybrid approach to combining conventional and deep learning techniques for single-channel speech enhancement and recognition
KR101305373B1 (ko) 관심음원 제거방법 및 그에 따른 음성인식방법
KR101720514B1 (ko) Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법
JP6225245B2 (ja) 信号処理装置、方法及びプログラム
CN112037809A (zh) 基于多特征流结构深度神经网络的残留回声抑制方法
CN111512367A (zh) 提供处理的降噪且混响降低的音频信号的信号处理器和方法
KR102410850B1 (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
JP6748304B2 (ja) ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム
Li et al. Single-channel speech dereverberation via generative adversarial training
JP6265903B2 (ja) 信号雑音減衰
JP6404780B2 (ja) ウィナーフィルタ設計装置、音強調装置、音響特徴量選択装置、これらの方法及びプログラム
Darazirar et al. A two-sensor Gauss–Seidel fast affine projection algorithm for speech enhancement and acoustic noise reduction
Astudillo et al. Integration of beamforming and automatic speech recognition through propagation of the Wiener posterior
KR101568282B1 (ko) 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법 및 장치
Jukić et al. Speech dereverberation with convolutive transfer function approximation using MAP and variational deconvolution approaches
KR102505653B1 (ko) 심화신경망을 이용한 에코 및 잡음 통합 제거 방법 및 장치
Jan et al. Joint blind dereverberation and separation of speech mixtures
Unoki et al. Unified denoising and dereverberation method used in restoration of MTF-based power envelope
Herzog et al. Blind Single-Channel Dereverberation Using a Recursive Maximum-Sparseness-Power-Prediction-Model

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant