KR101807961B1 - Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치 - Google Patents

Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치 Download PDF

Info

Publication number
KR101807961B1
KR101807961B1 KR1020160106135A KR20160106135A KR101807961B1 KR 101807961 B1 KR101807961 B1 KR 101807961B1 KR 1020160106135 A KR1020160106135 A KR 1020160106135A KR 20160106135 A KR20160106135 A KR 20160106135A KR 101807961 B1 KR101807961 B1 KR 101807961B1
Authority
KR
South Korea
Prior art keywords
noise
speech signal
signal
lstm
model
Prior art date
Application number
KR1020160106135A
Other languages
English (en)
Inventor
서혜지
장준혁
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Application granted granted Critical
Publication of KR101807961B1 publication Critical patent/KR101807961B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

LSTM 및 심화신경망 기반의 음성 신호 처리 방법 및 장치가 개시된다. 음성 신호 처리 방법은 잡음이 포함된 음성 신호로부터 특징 벡터를 추출하는 단계, 상기 특징 벡터 및 상기 잡음이 포함된 음성 신호를 LSTM(Long Short Term Memory) 모델의 입력 파라미터로 이용하여 잡음이 감소 또는 제거된 음성 신호를 출력하는 단계, 및 출력된 상기 음성 신호와 상기 잡음이 포함된 음성 신호를 심화신경망(DNN) 모델의 입력 파라미터로 이용하여 음성 합성된 최종 음성 신호를 출력하는 단계를 포함할 수 있다.

Description

LSTM 및 심화신경망 기반의 음성 신호 처리 방법 및 장치{METHOD AND APPARATUS FOR PROCESSING SPEECH SIGNAL BASED ON LSTM AND DNN}
본 발명의 실시예들은 음성 신호에 포함된 잡음 또는 잔향을 감소 또는 제거하는 기술에 관한 것이다.
마이크로폰 등을 통해 전자 장치로 입력된 음성 신호는 잡음, 잔향 등에 의해 왜곡되므로, 음성 인식, 음성 통신 등의 음성신호처리 기술에서, 음성 신호에 포함된 잡음, 잔향을 제거하는 음성 처리는 반드시 필요하다.
종래에는 음성 신호와 잡음 신호 사이의 통계적 정보를 이용하는 통계모델을 기반으로 음성 신호를 향상하는 음성 처리 기술이 주로 사용되었으나, 통계 모델 기반의 음성 향상 기술은 정상 잡음 환경과는 달리 비정상 잡음 환경에서 성능이 크게 저하되는 문제점을 가지고 있다. 예를 들어, 음성 인식에서 잡음이 존재하지 않은 깨끗한 신호를 이용하여 음성 인식 모델을 학습시킨 후 잡음이 존재하는 신호로 테스트를 수행할 경우 성능이 감소한다. 이러한 성능 감소를 해결하기 위해 잡음이 존재하는 음성을 이용하여 음성 인식 모델을 학습하는 기술이 제안되었으나, 학습된 잡음 환경에 최적화되어 학습된 잡음 환경에서 테스트하는 경우에는 우수한 성능을 보이나, 학습되지 않은 잡음 환경에서 테스트하는 경우에는 성능이 저하되는 문제점이 존재한다.
이에 따라, 음성 인식 모델을 학습하기 이전에 잡음을 제거하여 음성 신호를 향상시키는 기술이 필요하다. 예를 들어, 배경 잡음을 제거하여 음질을 향상시키기 위해 음성 통신에 도입되거나, 보청기 등에서 잡음을 제거하여 보다 명확한 음성 신호를 전달하기 위한 음성 신호 처리 기술이 요구된다.
한국등록특허 10-0762596호는 음성 신호 전처리 시스템 및 음성 신호 특징 정보 추출 방법에 관한 것으로, 신경망 인식 방법을 이용하여 음성 신호를 전처리하는 기술을 기재하고 있다.
본 발명의 일실시예는 전처리 단계에서 음성 신호의 연속성을 고려하여 잡음이 포함된 음성 신호에서 잡음을 감소 또는 제거하여 재구성된 음성 신호의 품질을 향상시키기 위한 것이다.
음성 신호 처리 방법은 잡음이 포함된 음성 신호로부터 특징 벡터를 추출하는 단계, 상기 특징 벡터 및 상기 잡음이 포함된 음성 신호를 LSTM(Long Short Term Memory) 모델의 입력 파라미터로 이용하여 잡음이 감소 또는 제거된 음성 신호를 출력하는 단계, 및 출력된 상기 음성 신호와 상기 잡음이 포함된 음성 신호를 심화신경망(DNN) 모델의 입력 파라미터로 이용하여 음성 합성된 최종 음성 신호를 출력하는 단계를 포함할 수 있다.
일측면에 따르면, 상기 최종 음성 신호는 상기 LSTM 모델과 상기 심화신경망(DNN) 모델을 적층으로 쌓은 구조를 통해 학습되어 출력되는 신호를 나타낼 수 있다.
다른 측면에 따르면, 상기 특징 벡터를 추출하는 단계는, 상기 잡음이 포함된 음성 신호를 대상으로 STFT(Short Time Frequency Transform)을 수행하여 시간영역에서 주파수 영역의 신호로 변환하고, 변환된 주파수 영역의 신호의 로그 파워 스펙트럼(log power spectrum)을 상기 특징 벡터로 추출할 수 있다.
또 다른 측면에 따르면, 상기 잡음이 감소 또는 제거된 음성 신호를 출력하는 단계는, 상기 특징 벡터 및 상기 잡음이 포함된 음성 신호의 크기에 해당하는 로그 파워 스펙트럼을 학습이 완료된 상기 LSTM 모델의 입력 파라미터로 이용하여 상기 잡음이 감소 또는 제거된 음성 신호를 생성할 수 있다.
또 다른 측면에 따르면, 상기 최종 음성 신호의 로그파워 스펙트럼과 상기 잡음이 포함된 음성 신호의 위상을 대상으로 ISTFT(Inverse Short Time Frequency Transform)를 수행하여 최종 음성 신호를 재구성할 수 있다.
또 다른 측면에 따르면, 상기 LSTM 모델은 메모리 셀과 은닉 스테이트(hidden state)에 저장된 이전 프레임에 해당하는 음성 신호와 LSTM 모델의 입력 파라미터에 기초하여 현재 프레임에 해당하는 음성 신호를 생성할 수 있다.
또 다른 측면에 따르면, 상기 LSTM 모델은 특징 벡터인 잡음이 포함된 음성 신호의 로그 파워 스펙트럼과 타겟 벡터인 잡음이 포함되지 않은 음성 신호의 로그 파워 스펙트럼의 차이가 기정의된 차이값 이하로 감소하도록 학습이 진행되어 생성될 수 있다.
또 다른 측면에 따르면, 상기 심화신경망(DNN) 모델은 상기 LSTM 모델을 통해 잡음이 감소 또는 제거된 음성 신호와 기저장된 샘플 음성 신호를 기초로 BP(Backpropagation)을 수행하여 학습이 완료됨에 따라 생성될 수 있다.
음성 신호 처리 장치는, 잡음이 포함된 음성 신호로부터 특징 벡터를 추출하는 특징 벡터 추출부, 상기 특징 벡터 및 상기 잡음이 포함된 음성 신호를 LSTM(Long Short Term Memory) 모델의 입력 파라미터로 이용하여 잡음이 감소 또는 제거된 음성 신호를 출력하는 LSTM 처리부, 및 출력된 상기 음성 신호와 상기 잡음이 포함된 음성 신호를 심화신경망(DNN) 모델의 입력 파라미터로 이용하여 음성 합성된 최종 음성 신호를 출력하는 DNN 처리부를 포함할 수 있다.
일측면에 따르면, 상기 최종 음성 신호는 상기 LSTM 모델과 상기 심화신경망(DNN) 모델을 적층으로 쌓은 구조를 통해 학습되어 출력되는 신호를 나타낼 수 있다.
다른 측면에 따르면, 상기 특징 벡터 추출부는, 상기 잡음이 포함된 음성 신호를 대상으로 STFT(Short Time Frequency Transform)을 수행하여 시간영역에서 주파수 영역의 신호로 변환하고, 변환된 주파수 영역의 신호의 로그 파워 스펙트럼(log power spectrum)을 상기 특징 벡터로 추출할 수 있다.
또 다른 측면에 따르면, 상기 LSTM 처리부는, 상기 특징 벡터 및 상기 잡음이 포함된 음성 신호의 크기에 해당하는 로그 파워 스펙트럼을 학습이 완료된 상기 LSTM 모델의 입력 파라미터로 이용하여 상기 잡음이 감소 또는 제거된 음성 신호를 생성할 수 있다.
또 다른 측면에 따르면, 상기 최종 음성 신호의 로그파워 스펙트럼과 상기 잡음이 포함된 음성 신호의 위상을 대상으로 ISTFT(Inverse Short Time Frequency Transform)를 수행하여 최종 음성 신호를 재구성하는 음성 신호 재구성부를 더 포함할 수 있다.
또 다른 측면에 따르면, 상기 LSTM 모델은 메모리 셀과 은닉 스테이트(hidden state)에 저장된 이전 프레임에 해당하는 음성 신호와 상기 LSTM 모델의 입력 파라미터에 기초하여 현재 프레임에 해당하는 음성 신호를 생성할 수 있다.
또 다른 측면에 따르면, 상기 LSTM 모델은 특징 벡터인 잡음이 포함된 음성 신호의 로그 파워 스펙트럼과 타겟 벡터인 잡음이 포함되지 않은 음성 신호의 로그 파워 스펙트럼의 차이가 기정의된 차이값 이하로 감소하도록 학습이 진행되어 생성될 수 있다.
또 다른 측면에 따르면, 상기 심화신경망(DNN) 모델은 상기 LSTM 모델을 통해 잡음이 감소 또는 제거된 음성 신호와 기저장된 샘플 음성 신호를 기초로 BP(Backpropagation)을 수행하여 학습이 완료됨에 따라 생성될 수 있다.
본 발명의 실시예들에 따르면, 전처리 단계에서 LSTM 및 심화신경망(DNN)을 적층 구조로 결합하여 잡음이 포함된 음성 신호에서 잡음을 감소 또는 제거하여 음성 심호를 재구성함에 따라, 음성 신호의 연속성을 고려함과 동시에 재구성된 음성 신호의 품질을 향상시킬 수 있다.
또한, 음성 인식 이전에 선행되는 전처리 단계에서 잡음이 존재하는 환경에서 잡음을 제거하여 재구성된 음성 신호의 품질을 향상시킴으로써, 음성 인식의 성능, 즉, 음성 인식률을 증가시킬 수 있을 뿐만 아니라, 다양한 음성 통신 기술에 적용하여 음질을 향상시킬 수 있다.
도 1은 본 발명의 일실시예에 있어서, LSTM-DNN 기반의 음성 신호 처리 방법을 도시한 흐름도이다.
도 2는 본 발명의 일실시예에 있어서, LSTM-DNN 기반의 음성 신호 처리 장치의 내부 구성을 도시한 블록다이어그램이다.
도 3은 본 발명의 일실시예에 있어서, 학습 단계와 음성 향상 단계를 도시한 블록다이어그램이다.
도 4 및 도 6은 본 발명의 일실시예에 있어서, 학습된 잡음 환경인 바블(babble)에서 신호 처리되어 향상된 음성 신호의 파형을 도시한 도면이다.
도 5 및 도 7은 본 발명의 일실시예에 있어서, 학습되지 않은 잡음 환경인 hfchannel에서 신호 처리되어 향상된 음성 신호의 파형을 도시한 도면이다.
이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명은 마이크로폰으로 입력된 잡음이 존재하는 음성 신호에서 잡음을 감소 또는 제거하여 깨끗한 음성을 추정하는 음성 신호 처리 기술에 관한 것으로서, 음성 어플리케이션에서 음성 통신, 음성 인식을 수행하기 이전에 전처리 단계에서 음성 신호를 향상시키는 기술에 관한 것이다. 특히, 본 발명은 음성의 연속성을 모델링하는 LSTM 모델 및 심화신경망(DNN) 모델을 적층 구조로 결합하여 음성 신호에 포함된 잡음을 감소 또는 제거하는 기술에 관한 것이다. 즉, 본 발명은 잡음이 포함된 음성 신호를 대상으로 LSTM 모델을 기반으로 학습하여 잡음이 제거하고, 잡음이 제거된 음성 신호를 대상을 다시 한번 심화신경망(DNN) 모델을 이용하여 학습을 수행함으로써, 재구성된 음성 신호의 품질을 향상시키는 기술에 관한 것이다.
본 실시예들에서, LSTM(Long Short Term Memory)은 이전 프레임의 신호를 현재 프레임에 반영하여 시간적으로 연속하는 데이터를 처리하는 기법으로서, LSTM은 메모리 셀(memory cell)에 이전의 정보들(예컨대, 음성 신호와 관련된 데이터들)을 저장하고 게이트들(gate)을 통하여 메모리 셀로 흐르는 정보의 양을 조절한다.
심화신경망(Deep Neural Network, DNN)은 머신 러닝(machine learning) 기법으로서, 다수의 은닉 층(layer)과 은닉 노드들을 이용하여 잡음이 존재하는 음성 신호와 잡음이 존재하지 않는 깨끗한 음성 신호 사이의 비선형적인 관계를 모델링하여 음성 신호를 향상시키는 기술이다. 심화신경망을 이용한 음성 처리는 개개의 프레임(frame)을 독립적으로 처리하기 때문에 음성의 연속적인 성질을 고려하기 어려울 수 있다. 이에 따라, 음성의 연속성을 고려하는 LSTM과 특징 벡터의 사상에 우수한 심화신경망(DNN)을 적층 구조로 쌓아 음성 신호를 처리할 필요가 있다. 예를 들어, LSTM을 통하여 잡음이 존재하는 음성 신호로부터 잡음이 존재하지 않는 깨끗한 음성 신호로 사상하고, 이어 잡음이 존재하는 신호와 LSTM을 통하여 음성 향상된 신호를 다시 한 번 심화신경망을 통하여 음성 신호의 품질을 향상시킬 수 있다.
본 실시예들에서는 잡음이 포함된 음성 신호에서 잡음을 감소 또는 제거하는 것에 대해 설명하나, 이는 실시예에 해당되며, 음성 신호는 잡음뿐만 아니라 잔향을 포함하고 있을 수 있으며, 음성 신호에 포함된 잔향이 제거될 수도 있다.
본 실시예들에서는 STFT(Short Time Fourier Transform), ISTFT(Inverse Short Time Fourier Transform) 변환을 이용하는 경우를 예로 들어 설명하나, 이는 실시예에 해당되며, STFT, ISTFT 이외에 DFT(Discrete Fourier Transform), IDFT(Inverse Discrete Fourier Transform) 변환, FFT(Fast Fourier Transform), IFFT(Inverse Fast Fourier Transform) 변환 등이 이용될 수도 있다.
이하에서는 도 1 및 도 2를 참고하여 LSTM 및 심화신경망(DNN)을 결합하여 음성 인식 모델을 학습하기 전에 잡음을 제거하는 음성 신호 처리 방법에 대해 보다 상세히 설명하기로 한다.
도 1은 본 발명의 일실시예에 있어서, LSTM-DNN 기반의 음성 신호 처리 방법을 도시한 흐름도이고, 도 2는 본 발명의 일실시예에 있어서, LSTM-DNN 기반의 음성 신호 처리 장치의 내부 구성을 도시한 블록다이어그램이다.
도 1에서 각 단계들(110 내지 140 단계)는 도 2의 구성요소인 특징벡터 추출부(210), LSTM 처리부(220), DNN 처리부(230), 음성 신호 재구성부(240) 및 모델 생성부(250)에 의해 수행될 수 있다.
도 2에 따르면, 음성 신호 처리 장치(200)는 특징벡터 추출부(210), LSTM 처리부(220), DNN 처리부(230), 음성 신호 재구성부(240) 및 모델 생성부(250)를 포함할 수 있다.
110 단계에서, 특징 벡터 추출부(110)는 잡음이 포함된 음성 신호로부터 특징 벡터를 추출할 수 있다. 예를 들어, 마이크로폰 등을 통해 음성 신호가 입력되는 경우, 입력되는 음성 신호는 잡음, 잔향을 포함하고 있을 수 있다. 그러면, 특징 벡터 추출부(110)는 마이크로폰 등을 통해 입력되는 잡음 또는 잔향 포함하는 음성 신호에서 특징 벡터를 추출할 수 있다.
일례로, 특징 벡터 추출부(110)는 잡음이 포함된 음성 신호를 STFT(Short Term Frequency Transform) 변환하여 시간 영역의 음성 신호를 주파수 영역의 신호로 변환할 수 있다. 그리고, 특징 벡터 추출부(110)는 주파수 영역의 음성 신호, 즉, STFT 변환된 프레임으로부터 위상(phase)과 로그 파워 스펙트럼(log power spectrum)을 추출할 수 있다. 여기서, 로그 파워 스펙트럼이 특징 벡터로서 추출될 수 있다.
이때, 주파수 영역의 신호로 변환된 음성 신호는 크기와 위상을 갖는 신호로 표현될 수 있다. 그러면, 특징 벡터 추출부(210)는 STFT 변환을 통해 생성된 STFT 계수로부터 크기(magnitude)를 추출하고, 크기(|·|)에 로그(log)를 취함에 따라 로그 파워 스펙트럼을 계산할 수 있다. 여기서, 로그 파워 스펙트럼은 특징 벡터를 나타낼 수 있다. 여기서, STFT 이외에 이산 퓨리에 변환(DFT), 고속 퓨리에 변환(Fast Fourier Transform: FFT) 등이 이용될 수도 있다.
120 단계에서, LSTM 처리부(220)는 추출된 특징 벡터와 사전 학습을 통해 미리 생성된 LSTM 모델을 이용하여 상기 잡음이 포함된 음성 신호에서 잡음이 감소 또는 제거된 음성 신호를 출력할 수 있다.
예를 들어, LSTM 모델은 모델 생성부(250)에 의해 생성될 수 있으며, GD(Gradient Descent)를 기반으로 하는 BPTT(Backpropagation Through Time)에 기초하여 LSTM 학습이 진행될 수 있다. 이때, 잡음이 포함된 음성 신호의 로그 파워 스펙트럼과 기저장된 잡음이 존재하지 않는 깨끗한 음성 신호의 로그 파워 스펙트럼의 차이가 기정의된 차이값 이하가 될 때까지 LSTM 학습이 진행될 수 있다. 즉, 상기 로그 파워 스펙트럼의 차이가 상기 차이값 이하가 되어 최소화되면 LSTM 학습이 완료될 수 있으며, LSTM 학습이 완료됨에 따라 생성된 LSTM 모델에 상기 추출된 특징 벡터의 로그 파워 스펙트럼을 입력 파라미터로 이용하여 LSTM 학습을 수행함으로써, 잡음이 감소 또는 제거된 음성 신호를 생성할 수 있다. 예를 들어, LSTM은 현재 프레임이 입력으로 들어갔을 때 현재 프레임의 정보를 메모리 셀(memory cell)과 은닉 스테이트(hidden state)에 저장해 놓고, 저장된 정보를 다음 프레임에서 사용할 수 있다. 현재 시간 t의 입력 xt가 들어갔을 때, LSTM은 이전 시간 t-1에 메모리 셀과 은닉 스테이트에 저장된 정보인 ht-1과 ct-1을 이용하여 현재 시간 t의 은닉 스테이트(hidden state) ht의 값을 구할 수 있으며, 이에 따라 매 프레임마다 저장되는 ht와 ct가 다르기 때문에 이전 시간의 정보는 매 프레임마다 변경될 수 있다. 이러한 LSTM 학습은 음성 신호의 로그 파워 스펙트럼과 기저장된 깨끗한 음성 신호의 로그 파워 스펙트럼의 차이가 기정의된 차이값 이하가 될 때까지 반복 수행될 수 있다.
130 단계에서, DNN 처리부(230)는 LSTM 처리부(220)에서 출력된 음성 신호와 LSTM 처리부(220)의 입력 파라미터로 이용된 특징 벡터(즉, 잡음이 포함된 음성 신호의 로그 파워 스펙트럼)를 사전 학습을 통해 미리 생성된 심화신경망(DNN) 모델에 적용하여 신호 처리함으로써, 최종 음성 신호를 출력할 수 있다. 즉, DNN 처리부(220)는 LSTM 모델을 통해 LSTM 학습된 음성 신호에 대해 DNN 모델을 이용하여 다시 한번 학습시킴으로써, 음성 품질이 향상된 최종 음성 신호를 생성할 수 있다.
여기서, DNN 모델은 다수의 은닉 층(hidden layer)과 은닉 노드(hidden node)를 이용하여 비선형적 특성의 모델링을 통해 생성된 것으로서, GD(Gradient Descent)를 기반으로 하는 BP(Backpropagation) 알고리즘에 기초하여 DNN 학습이 진행될 수 있다. 이때, DNN 모델은 모델 생성부(250)에 의해 생성될 수 있다.
예를 들어, DNN 학습은 LSTM 학습과 마찬가지로 MSE(Mean Square Error)를 DNN의 목적 함수로 설정하고, 입력 벡터와 출력 벡터 사이의 관계를 모델링함으로써 학습이 진행될 수 있다. 여기서, 입력 벡터는 잡음이 포함된 음성 신호의 로그 파워 스펙트럼과 LSTM을 통과하여 음성 향상되어 잡음이 제거된 신호의 로그 파워 스펙트럼을 포함할 수 있다. 그리고, 출력 벡터는 잡음이 존재하지 않는 깨끗한 음성 신호의 로그 파워 스펙트럼을 나타낼 수 있다. 그리고, BP(Backpropagation) 알고리즘은 다층(multi layer) 퍼셉트론 학습에 사용되는 통계적 기법으로서, 머신 러닝에서 학습을 위해 사용될 수 있다. 다층 퍼셉트론(perceptron)의 형태는 입력층, 적어도 하나의 은닉층, 출력층으로 구성될 수 있으며, 각 층은 서로 교차되는 가중치(weight) 갑으로 연결되어 있을 수 있으며, 출력층에서 제시한 값에 대해 실제 원하는 값으로 학습이 수행될 수 있다. 예컨대, 동일한 입력층에 대해 원하는 값이 출력되도록 각 층 별로 개개의 가중치(weight)를 조정하여 학습이 수행될 수 있다.
140 단계에서, 음성 신호 재구성부(240)는 최종 음성 신호의 로그 파워 스펙트럼과 잡음이 포함된 음성 신호(즉, 특징 벡터 추출부(210)에서 특징 벡터 추출을 위해 이용된 음성 신호)의 위상을 대상으로 ISTFT(Inverse Short Term Frequency Transform) 변환을 수행하여 최종 음성 신호를 재구성할 수 있다.
이하에서는 수학식 1 내지 수학식 7을 참고하여 LSTM 및 DNN 모델을 결합하여 잡음이 제거된 음성 신호를 대상으로 다시 한번 DNN 학습을 수행하여 최종 음성 신호를 생성하는 동작에 대해 상세히 설명하기로 한다.
먼저, 모델 생성부(250)에서는 기저장된 샘플 음성 신호를 대상으로 LSTM 학습을 수행하고, LSTM 학습이 완료된 LSTM 모델을 생성할 수 있다. 그리고, LTSM 모델에서 출력된 음성 신호와 샘플 음성 신호(즉, 잡음이 포함된 샘플 음성 신호)를 입력 파라미터로 이용하여 DNN 학습을 수행하고, DNN 학습이 완료된 DNN 모델을 생성할 수 있다. 그러면, LSTM 처리부(220)는 상기 생성된 LSTM 모델을 이용하여 신호 처리를 수행하여 입력된 잡음이 포함된 음성 신호에서 잡음을 제거하여 출력할 수 있다. 그리고, DNN 처리부(230)는 잡음이 제거된 음성 신호와 잡음이 포함된 음성 신호를 상기 생성된 DNN 모델의 입력 파라미터로 이용하여 DNN 학습을 수행하여 최종 음성 신호를 생성할 수 있다.
이처럼, LSTM-DNN 기반의 음성 신호 처리 방법 및 장치는, LSTM 및 DNN 모델을 생성하는 학습 단계와 학습 단계를 통해 생성된 LSTM 및 DNN 모델을 이용하여 음성 품질이 향상된 최종 음성 신호를 생성하는 음성 향상 단계로 구성될 수 있다.
먼저, LSTM 모델 및 DNN 모델을 생성하는 학습 단계에 대해 설명하기로 한다. LSTM 모델의 입력, 즉, LSTM 처리부(220)의 입력 파라미터로 사용되는 잡음이 존재하는 음성 신호 y(t)는 음성 신호 x(t)에 잡음 신호 d(t)가 더해진 아래의 수학식 1과 같이 표현될 수 있다.
[수학식 1]
Figure 112016081304692-pat00001
수학식 1과 같이 잡음이 포함된 음성 신호 y(t)는 STFT 변환되어 아래의 수학식 2와 같이 시간 영역(time domain)에서 주파수 영역(frequency domain)의 신호로 표현될 수 있다.
[수학식 2]
Figure 112016081304692-pat00002
수학식 2에서, Y(l,m)은 잡음이 포함된 음성 신호, X(l,m)은 잡음이 포함되지 않은 깨끗한 음성 신호, D(l,m)은 잡음 신호를 나타내고, l은 주파수 인덱스, m은 프레임 인덱스(index)를 나타낼 수 있다. 그러면, 주파수 영역에서 잡음이 포함된 음성 신호 Y(l,m)은 아래의 수학식 3과 같이 스펙트럼과 위상으로 표현될 수 있다.
[수학식 3]
Figure 112016081304692-pat00003
수학식 3에서,Θ는 위상 값을 나타내고, L은 프레임 스텝(frame step)을 나타낼 수 있다. 그러면, 수학식 3의 음성 스펙트럼 특징 벡터에 로그 연산값을 취하여 얻어진 로그 파워 스펙트럼은 LSTM 모델의 입력 파라미터인 특징 벡터로 사용될 수 있다. 예컨대, 크기(|Y(l,m)|)에 로그(log)를 취함에 따라 로그 파워 스펙트럼이 계산될 수 있다.
예를 들어, LSTM 모델은 현재 프레임에 해당하는 음성 신호를 메모리 셀과 은닉 스테이트(hidden state)에 저장해 놓고, 저장된 상기 현재 프레임에 해당하는 음성 신호를 다음 프레임에 해당하는 음성 신호를 향상시키기 위한 신호 처리 시에 이용함으로써 생성될 수 있다. 현재 시간 t에 입력 xt가 들어온 경우, LSTM 모델은 이전 시간 t-1에 메모리 셀과 은닉 스테이트에 저장된 정보인 ht-1과 ct-1을 이용하여 현재 시간에 은닉 스테이트(hidden state) ht의 값을 계산할 수 있다. 이에 따라, 매 프레임마다 메모리 셀 ct과 은닉 스테이트 ht에 저장되는 정보가 다르기 때문에, 이전의 정보는 매 프레임마다 변경될 수 있다. 은닉 스테이트와 메모리 셀에 저장된 현재 프레임의 정보를 다음 프레임에서 이용하는 동작은 하기의 수학식 4에서 설명하고 있다.
여기서, 상기 로그 파워 스펙트럼이 입력되는 LSTM 모델은 연속 데이터인 음성의 성질을 반영하여 학습이 진행되어 생성된 것으로서, 심화신경망(DNN)이 각 프레임을 독립적으로 처리하기 때문에 연속적인 음성 신호의 성질을 반영하여 학습하기 어려운 점을 커버(cover)하기 위해 이용될 수 있다.
LSTM은 연속적인 데이터의 모델링을 위해 현재의 은닉 스테이트에 이전 은닉 스테이트 값을 반영하여 학습을 진행할 수 있다. LSTM은 메모리 블록(memory block)으로 구성되어 있으며, 각 메모리 블록은 이전의 정보들, 즉, 이전 프레임의 음성 신호들을 저장하는 1개의 메모리 셀과, 메모리 셀로 유입되는 정보의 양을 조절하는 3개의 게이트(gate)로 구성될 수 있다. 여기서, 3개의 게이트는 포겟 게이트(forget gate), 입력 게이트(input gate), 및 출력 게이트(output gate)를 포함하며, 포겟 게이트는 이전 메모리 셀의 정보를 현재 메모리 셀에 얼만큼 반영할지를 결정하기 위해 이용되고, 입력 게이트는 새롭게 업데이트되는 정보를 현재 메모리 셀이 얼마나 반영할지를 결정하기 위해 이용되고, 출력 게이트는 현재 메모리 셀의 값을 은닉 스테이트(hidden state)로 얼마나 반영할지를 결정하기 위해 이용될 수 있다. 예컨대, 각 게이트의 값을 구할 때 메모리 셀의 정보를 반영하여 메모리 셀을 더욱 자세히 볼 수 피프홀 LSTM(peephole LSTM)이 이용될 수 있으며, 피프홀 LSTM(peephole LSTM)을 이용하여 각 게이트의 값은 아래의 수학식 4에 기초하여 계산될 수 있다.
[수학식 4]
Figure 112016081304692-pat00004
수학식 4에서, σ와 tanh는 활성함수를 나타내고, LSTM의 메모리 셀에는 tanh 활성 함수가, 게이트들 각각에는 시그모이드(sigmoid) 활성함수가 사용될 수 있다. 그리고, it는 시간 t에서의 입력 게이트(input gate), ft는 시간 t에서의 포겟 게이트(forget gate), ct는 시간 t에서의 메모리 셀(memory cell)의 값, ot는 시간 t에서의 출력 게이트(output gate), ht는 시간 t에서의 은닉 스테이트(hidden state) 값을 나타내고, W는 가중치 파라미터(weight parameter), b는 바이어스 파라미터(bias parameter)를 나타낼 수 있다. 여기서, it, ft, ct, ot, ht 는 매 시간 새로운 프레임이 입력될 때마다 변하는 값이고, W와 b는 LSTM 및 DNN 모델을 통하여 학습시키는 값을 나타낼 수 있다. 이에 따라, 학습이 완료된 후 W와 b는 고정된 값을 가질 수 있다. 그리고, xi, hi, ci각각은 입력과 입력 게이트(input gate), 은닉 스테이트(hidden state)와 입력 게이트(input gate), 메모리 셀(memory cell)과 입력 게이트(input gate) 사이의 가중치 파라미터를 나타내기 위한 인덱스, xf, hf, cf 각각은 입력과 포겟 게이트(forget gate), 은닉 스테이트(hidden state)와 포겟 게이트(forget gate), 메모리 셀(memory cell)과 포겟 게이트(forget gate) 사이의 가중치 파라미터를 나타내기 위한 인덱스, xo, co, ho 각각은 입력과 출력 게이트(output gate), 메모리 셀(memory cell)과 출력 게이트(output gate), 은닉 스테이트(hidden state)와 출력 게이트(output gate) 사이의 가중치 파라미터를 나타내기 위한 인덱스, xc, hc 각각은 입력과 메모리 셀, 은닉 스테이트와 메모리 셀 사이의 가중치 파라미터를 나타내기 위한 인덱스일 수 있다. 여기서, 시그모이드 활성 함수 및 tanh 활성 함수 각각은 아래의 수학식 5 및 수학식 6과 같이 표현될 수 있다.
[수학식 5]
Figure 112016081304692-pat00005
[수학식 6]
Figure 112016081304692-pat00006
잡음이 포함되는 음성 신호의 로그 파워 스펙트럼을 입력 벡터로 이용하여 LSTM의 학습이 진행될 수 있다. 즉, LSTM 모델을 생성하기 위해 위의 수학식 3에서 샘플 음성 신호의 로그 파워 스펙트럼이 입력 벡터로 이용되어 LSTM 학습이 수행될 수 있다. 이때, LSTM 학습은 GD(Gradient Descent)를 기반으로 하는 BPTT(Backpropagation Through Time)에 기초하여 수행될 수 있다. 여기서, BPTT는 시간에 따라 네트워크를 펼친 후, 현재시간 T에서부터 t=1까지의 에러(error)를 모두 더하여 변화도(gradient)를 계산하기 위해 이용될 수 있다. 그리고, LSTM은 목적 함수를 MSE(Mean Square Error)로 이용하여 입력 벡터인 잡음이 포함된 샘플 음성 신호의 로그 파워 스펙트럼(즉, 특징 벡터)과 타겟 벡터인 잡음이 존재하지 않는 깨끗한 음성 신호의 로그 파워 스펙트럼의 차이를 최소화하는 방향으로 LSTM 학습이 수행될 수 있다. 예컨대, 상기 차이가 기정의된 차이값 이하가 되도록 LSTM 학습이 수행될 수 있다. 여기서, LSTM의 목적 함수인 MSE는 아래의 수학식 7과 같이 표현될 수 있다.
[수학식 7]
Figure 112016081304692-pat00007
수학식 7에서, n은 전체 학습 데이터 샘플의 개수(training data sample)를 나타내고, Yi는 LSTM 및 DNN의 타겟 벡터인 잡음이 존재하지 않는 깨끗한 음성 신호의 로그 파워 스펙트럼을 나타내고,
Figure 112016081304692-pat00008
은 LSTM 및 DNN을 통하여 음성 향상되어 잡음이 제거된 신호의 로그 파워 스펙트럼을 나타낼 수 있다.
수학식 7을 기반으로 LSTM의 입력 벡터인 잡음이 포함된 음성 신호의 로그 파워 스펙트럼과 타겟 벡터인 잡음이 존재하지 않는 깨끗한 음성 신호의 로그 파워 스펙트럼의 차이가 최소화되어 LSTM 학습이 완료되면, DNN 모델 생성을 위해 심화신경망(DNN) 학습이 수행될 수 있다.
심화신경망(DNN)은 다수의 은닉층과 은닉 노드들을 이용하여 입력 벡터와 출력 벡터 사이의 관계를 모델링함으로써, 비선형적 특성의 모델링이 가능할 수 있다. 심화신경망(DNN)의 학습을 위한 입력 벡터로는 LSTM 학습을 통해 잡음이 제거되어 음성이 향상된 신호의 로그 파워 스펙트럼과 LSTM의 입력 벡터였던 잡음이 포함된 음성 신호의 로그 파워 스펙트럼(즉, 특징 벡터)가 이용될 수 있다. DNN 학습의 경우, LSTM 학습과 마찬가지로 MSE를 DNN의 목적함수로 이용하여 입력 벡터와 출력 벡터 사이의 관계를 모델링함으로써 DNN 학습이 수행될 수 있다.
LSTM 및 DNN 학습이 완료되면 음성 향상 단계를 통해 음성 신호의 품질이 향상된 최종 음성 신호가 생성될 수 있다.
도 3은 본 발명의 일실시예에 있어서, 학습 단계와 음성 향상 단계를 도시한 블록다이어그램이다.
도 3에서, 학습 단계(310)는 도 1의 모델 생성부(250)에 해당하고, 음성 향상 단계(320)는 특징 벡터 추출부(210), LSTM 처리부(220), DNN 처리부(230), 및 음성 신호 재구성부(240)에 해당할 수 있다. 예컨대, feature extraction(306)은 특징 벡터 추출부(210), LSTM Enhancement(307)는 LSTM 처리부(220), DNN Enhancement(308)는 DNN 처리부(230), speech Reconstruction(309)은 음성 신호 재구성부(240)에 해당할 수 있다.
학습 단계(310)는 샘플 음성 신호(301)에서 특징 벡터를 추출하고(302), 추출된 특징 벡터를 입력 벡터로 이용하여 LSTM 학습을 수행하여 학습 완료된 LSTM 모델(303)을 생성하는 단계, LSTM 학습을 통해 잡음이 제거된 음성 신호와 상기 특징 벡터를 입력 벡터로 이용하여 DNN 학습을 수행하여 학습 완료된 DNN 모델(304)을 생성하는 단계로 구성될 수 있다. 그리고, 음성 향상 단계(320)는 학습 단계(310)와 마찬가지로 특징 벡터를 추출하는부터 시작될 수 있다. 즉, 음성 향상 단계(320)는 마이크로폰 등을 통해 입력된 잡음이 포함된 음성 신호(305)에서 특징 벡터를 추출하고(306), 추출된 특징 벡터를 LSTM 모델(303)에 적용하여 LSTM 학습(307)시킴으로써 잡음이 제거된 음성 신호를 출력하는 단계, 출력된 음성 신호와 상기 특징 벡터를 DNN 모델(304)의 입력 파라미터로 이용하여 DNN 학습(308)시킴으로써 최종 음성 신호를 출력하는 단계, 최종 음성 신호를 ISTFT 변환하여 재구성(309)하는 단계로 구성될 수 있다. 이때, 특징 벡터로 잡음이 포함된 음성 신호를 STFT 변환한 STFT 계수의 로그 파워 스펙트럼이 이용될 수 있으며, STFT 계수의 로그 파워 스펙트럼이 LSTM 모델을 통과하면, 잡음이 제거된 음성 신호가 출력될 수 있다. 즉, 음성 향상된 신호의 로그 파워 스펙트럼이 LSTM 모델을 통과하여 출력될 수 있다. 그리고, LSTM 모델을 통과하여 음성 품질이 향상된 신호가 다시 한번 DNN 모델을 통과하여 음성 품질의 향상이 재차 수행되어 최종 음성 신호가 생성될 수 있다. 이처럼, LSTM 모델을 이용한 1차 음성 품질 향상 이후에 DNN 모델을 이용하여 2차 음성 품질을 향상시킴으로써, 우수한 성능의 음성 신호가 획득될 수 있다. 이때, 최종 음성 신호를 ISTFT 변환하여 최종 음성 신호를 재구성(309) 시, DNN 모델을 통과하여 생성된 최종 음성 신호의 로그 파워 스펙트럼과 잡음이 존재하는 음성 신호의 위상을 함께 ISTFT 변환함으로써, 최종 음성 신호가 재구성될 수 있다. 여기서, 사람의 청각은 위상에 큰 영향을 받지 않으므로 위상은 잡음이 포함된 음성 신호의 위상을 그대로 이용할 수 있으며, 잡음이 제거된 위상이 이용될 수도 있다.
이하에서는 도 4 내지 도 7을 참고하여 학습된 잡음 환경과 학습되지 않은 잡음 환경에서 신호 처리된 신호가 어떠한 차이가 있는지를 비교하여 설명하기로 한다.
도 4 내지 도 7에서는 LSTM-DNN 기반의 음성 신호 처리 기법의 성능을 평가하기 위하여, 다양한 잡음 환경에서 기존의 단일 심화신경망(DNN), 단일 LSTM, 적층형 심화신경망(DNN), 제안된 LSTM-DNN과 동일한 연산량의 심화신경망(DNN)과 시간 영역의 음성 파형, 주파수 영역의 스펙트로그램, 객관적 음성 평가 방식인 PESQ (perceptual evaluation of speech quality)를 이용하여 각각의 성능을 비교하고자 한다.
도 4 내지 도 7에서는, 학습을 위한 음성 데이터로는 총 5.4시간의 TIMIT corpus를 사용하고, 깨끗한 TMIT corpus에 NOISEX-92의 babble, volvo, f16의 3가지 잡음을 0, 5, 10, 15 dB의 SNR로 부가하여 총 64.8시간의 학습 데이터 셋을 생성하였다. 시간 영역의 신호를 프레임 길이 20ms로 50%씩 중첩시켜 STFT하여 주파수 영역 신호의 로그 파워 스펙트럼을 입력 특징 벡터로 사용하였다. 음성의 시간적 연속성(temporal한 성질)을 고려하기 위하여 현재 프레임의 전, 후 5 프레임을 붙여 총 11프레임을 입력 특징 벡터로 사용하였다. LSTM은 3개의 층으로 구성하였으며 각 층은 512개의 메모리 블록(memory block)으로 구성되었고, 800 cell dimensions을 사용하였다. LSTM 학습은 minibatch-size를 100으로 하여 SGD를 통한 BPTT에 기초하여 수행되었다. 그리고, 학습율(learning rate)은 0.00001으로 시작하여 epoch 30까지는 일정하게 유지하다가 epoch 31부터는 0.9의 비율로 감소하였으며 최종 epoch 50으로 학습이 완료되었다. LSTM 학습이 완료된 후 심화신경망(DNN)의 학습이 수행되며, 심화신경망(DNN)의 입력 특징 벡터로는 LSTM을 통하여 음성 향상된 신호(즉, 잡음이 제거 또는 감소된 신호)의 스펙트럼의 현재 프레임과 전, 후 5 프레임, 잡음이 포함된 음성 신호의 현재 프레임을 붙여 입력 특징 벡터로 사용하였다. 여기서, 심화신경망(DNN)은 3개의 층으로 구성하였으며, 각 층은 512개의 은닉 노드로 구성되었다. 심화신경망(DNN) 학습은 GD를 기반으로 하는 BP에 기초하여 수행하였으며, 학습율은 0.00001로 시작하여 epoch 10까지 유지되었다가 epoch 11부터 0.9의 비율로 감소하여 총 epoch 50까지 학습을 완료하였다.
도 4 내지 도 7에서 single DNN(DNN1)은 3개의 은닉 층과 512개의 은닉 노드로 구성될 수 있다. 이때, DNN2가 LSTM-DNN과 층의 개수를 동일하게 하기 위하여 6개의 은닉 층과 512개의 은닉 노드로 구성될 수도 있다. 그리고, LSTM(single LSTM)은 512개의 메모리 블록을 3층으로 쌓아 학습이 진행되었으며, 적층형 DNN(stacked DNN)은 먼저 아래 층의 심화신경망(DNN)을 통하여 잡음이 포함된 신호의 스펙트럼을 잡음이 포함되지 않은 깨끗한 신호의 스펙트럼으로 사상한 뒤, 심화신경망을 통하여 음성 향상된 신호(즉, 음성 신호의 품질이 향상된 신호)의 스펙트럼과 잡음이 포함된 음성 신호의 스펙트럼을 다시 한 번 위층의 심화신경망을 통하여 음성 향상함으로써 최종 음성 신호의 스펙트럼을 생성할 수 있다. 여기서, 적층형 DNN의 심화신경망(DNN)은 각각 3개의 은닉 층과 512개의 은닉 노드로 구성될 수 있다.
도 4 및 도 6은 본 발명의 일실시예에 있어서, 학습된 잡음 환경인 바블(babble)에서 신호 처리되어 향상된 음성 신호의 파형을 도시한 도면이고, 도 5 및 도 7은 본 발명의 일실시예에 있어서, 학습되지 않은 잡음 환경인 hfchannel에서 신호 처리되어 향상된 음성 신호의 파형을 도시한 도면이다.
도 4 및 도 6은 학습된 잡음 환경인 바블(babble) 0dB인 경우, 도 5 및 도 7은 학습되지 않은 잡음 환경, 즉, 백색 잡음 환경(white noise) 0dB에서 음성 향상된 신호의 파형을 도시한 것으로서, 도 4 및 도 5는 시간 영역의 음성 파형을 비교 도시한 것이고, 도 6 및 도 7은 주파수 영역의 음성 신호의 스펙트로그램을 비교 도시한 것이다. 도 4 내지 도 7에 따르면, LSTM-DNN을 적층 구조로 결합하여 신호 처리를 수행하여 최종 음성 신호를 생성하는 경우, 잡음을 제거하는 동시에 음성 파형도 잘 보정되어 우수한 성능을 가짐을 확인할 수 있다.
이때, 학습된 잡음 환경인 바블(babble) 0dB인 경우와 학습되지 않은 잡음 환경, 즉, 백색 잡음 환경(white noise) 0dB에서 신호 처리되어 음성 향상된 신호는 아래의 표 1 및 표 2와 같이 객관적인 음성 평가 방식인 PESQ에 기초하여 비교될 수 있다.
Noise SNR Noisy DNN1 DNN2 LSTM Stacked DNN LSTM-DNN
Babble 0 dB 1.30 0.90 0.96 1.16 1.27 1.46
5 dB 1.67 1.94 1.78 2.05 2.19 2.19
10 dB 2.08 2.27 2.16 2.40 2.47 2.49
15 dB 2.40 2.43 2.38 2.63 2.62 2.68
F16 0 dB 1.19 1.47 1.44 1.66 1.84 1.81
5 dB 1.74 2.29 2.20 2.30 2.44 2.44
10 dB 2.04 2.50 2.40 2.59 2.62 2.65
15 dB 2.42 2.61 2.51 2.76 2.70 2.77
Figure 112016081304692-pat00009
위의 표 1은 학습된 잡음 환경인 바블(babble) 0dB에서 음성 향상된 신호(예컨대, 신호 처리를 통해 잡음이 제거되어 품질이 향상된 음성 신호)의 PESQ 결과값을 나타낼 수 있다. 그리고, 표 2는 학습되지 않은 잡음 환경인 hfchannel 0dB에서 상기 음성 향상된 신호의 PESQ 결과값을 나타낼 수 있다.
표 1 및 표 2에 따르면, LSTM-DNN 기반으로 음성 신호를 처리하여 최종 음성 신호를 생성한 경우에 PESQ 면에서 가장 우수한 성능을 가짐을 확인할 수 있다. 그리고, LSTM은 음성의 연속성을 고려하여 학습을 진행시키므로 기존의 심화신경망(DNN1, DNN2)보다 우수한 성능을 가짐을 확인할 수 있다. 이에 따라, 위의 표 1 및 표 2로부터 심화신경망(DNN)을 연속으로 쌓은 적층형 DNN(stacked DNN)보다 LSTM을 기반으로 연속적은 음성 데이터를 모델링한 뒤 다시 한번 심화신경망(DNN)을 통해 학습하여 최종 음성 신호를 생성하는 것, 즉, LSTM-DNN 기반으로 최종 음성 신호를 생성하는 것이 가장 우수한 성능을 가짐을 확인할 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (16)

  1. 잡음이 포함된 음성 신호로부터 특징 벡터를 추출하는 단계;
    상기 특징 벡터 및 상기 잡음이 포함된 음성 신호를 LSTM(Long Short Term Memory) 모델의 입력 파라미터로 이용하여 잡음이 감소 또는 제거된 음성 신호를 출력하는 단계; 및
    출력된 상기 음성 신호와 상기 잡음이 포함된 음성 신호를 심화신경망(DNN) 모델의 입력 파라미터로 이용하여 음성 합성된 최종 음성 신호를 출력하는 단계
    를 포함하고,
    상기 최종 음성 신호는 상기 LSTM 모델과 상기 심화신경망(DNN) 모델을 적층으로 쌓은 구조를 통해 학습되어 출력되는 신호를 나타내고,
    상기 특징 벡터를 추출하는 단계는,
    상기 잡음이 포함된 음성 신호를 대상으로 STFT(Short Time Frequency Transform)을 수행하여 시간영역에서 주파수 영역의 신호로 변환하는 단계;
    연속 데이터인 음성 신호의 특성이 반영되도록, 상기 변환된 주파수 영역의 신호의 크기에 로그 연산자(log)를 적용함으로써, 주파수 영역의 신호의 로그 파워 스펙트럼(log power spectrum)을 계산하는 단계; 및
    계산된 로그파워 스펙트럼을 상기 특징 벡터로 추출하는 단계
    를 포함하는 음성 신호 처리 방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 잡음이 감소 또는 제거된 음성 신호를 출력하는 단계는,
    상기 특징 벡터 및 상기 잡음이 포함된 음성 신호의 크기에 해당하는 로그 파워 스펙트럼을 학습이 완료된 상기 LSTM 모델의 입력 파라미터로 이용하여 상기 잡음이 감소 또는 제거된 음성 신호를 생성하는 것
    을 특징으로 하는 음성 신호 처리 방법.
  5. 제1항에 있어서,
    상기 최종 음성 신호의 로그파워 스펙트럼과 상기 잡음이 포함된 음성 신호의 위상을 대상으로 ISTFT(Inverse Short Time Frequency Transform)를 수행하여 최종 음성 신호를 재구성하는 단계
    를 더 포함하는 음성 신호 처리 방법.
  6. 제1항에 있어서,
    상기 LSTM 모델은 메모리 셀과 은닉 스테이트(hidden state)에 저장된 이전 프레임에 해당하는 음성 신호와 상기 LSTM 모델의 입력 파라미터에 기초하여 현재 프레임에 해당하는 음성 신호를 생성하는 것
    을 특징으로 하는 음성 신호 처리 방법.
  7. 제1항에 있어서,
    상기 LSTM 모델은 특징 벡터인 잡음이 포함된 음성 신호의 로그 파워 스펙트럼과 타겟 벡터인 잡음이 포함되지 않은 음성 신호의 로그 파워 스펙트럼의 차이가 기정의된 차이값 이하로 감소하도록 학습이 진행되어 생성되는 것
    을 특징으로 하는 음성 신호 처리 방법.
  8. 제1항에 있어서,
    상기 심화신경망(DNN) 모델은 MSE(Mean Square Error)를 심화신경망(DNN) 모델의 목적 함수로 설정하고, 심화신경망(DNN) 모델의 입력 파라미터와 출력 파라미터 사이의 관계를 모델링하는 BP(Backpropagation)에 기초하여 학습이 완료됨에 따라 생성되는 것
    을 특징으로 하는 음성 신호 처리 방법.
  9. 잡음이 포함된 음성 신호로부터 특징 벡터를 추출하는 특징 벡터 추출부;
    상기 특징 벡터 및 상기 잡음이 포함된 음성 신호를 LSTM(Long Short Term Memory) 모델의 입력 파라미터로 이용하여 잡음이 감소 또는 제거된 음성 신호를 출력하는 LSTM 처리부; 및
    출력된 상기 음성 신호와 상기 잡음이 포함된 음성 신호를 심화신경망(DNN) 모델의 입력 파라미터로 이용하여 음성 합성된 최종 음성 신호를 출력하는 DNN 처리부
    를 포함하고,
    상기 최종 음성 신호는 상기 LSTM 모델과 상기 심화신경망(DNN) 모델을 적층으로 쌓은 구조를 통해 학습되어 출력되는 신호를 나타내고,
    상기 특징 벡터 추출부는,
    상기 잡음이 포함된 음성 신호를 대상으로 STFT(Short Time Frequency Transform)을 수행하여 시간영역에서 주파수 영역의 신호로 변환하고,
    연속 데이터인 음성 신호의 특성이 반영되도록, 상기 변환된 주파수 영역의 신호의 크기에 로그 연산자(log)를 적용함으로써, 주파수 영역의 신호의 로그 파워 스펙트럼(log power spectrum)을 계산하고,
    계산된 로그파워 스펙트럼을 상기 특징 벡터로 추출하는 것
    을 특징으로 하는 음성 신호 처리 장치.
  10. 삭제
  11. 삭제
  12. 제9항에 있어서,
    상기 LSTM 처리부는,
    상기 특징 벡터 및 상기 잡음이 포함된 음성 신호의 크기에 해당하는 로그 파워 스펙트럼을 학습이 완료된 상기 LSTM 모델의 입력 파라미터로 이용하여 상기 잡음이 감소 또는 제거된 음성 신호를 생성하는 것
    을 특징으로 하는 음성 신호 처리 장치.
  13. 제9항에 있어서,
    상기 최종 음성 신호의 로그파워 스펙트럼과 상기 잡음이 포함된 음성 신호의 위상을 대상으로 ISTFT(Inverse Short Time Frequency Transform)를 수행하여 최종 음성 신호를 재구성하는 음성 신호 재구성부
    를 더 포함하는 음성 신호 처리 장치.
  14. 제9항에 있어서,
    상기 LSTM 모델은 메모리 셀과 은닉 스테이트(hidden state)에 저장된 이전 프레임에 해당하는 음성 신호와 상기 LSTM 모델의 입력 파라미터에 기초하여 현재 프레임에 해당하는 음성 신호를 생성하는 것
    을 특징으로 하는 음성 신호 처리 장치.
  15. 제9항에 있어서,
    상기 LSTM 모델은 특징 벡터인 잡음이 포함된 음성 신호의 로그 파워 스펙트럼과 타겟 벡터인 잡음이 포함되지 않은 음성 신호의 로그 파워 스펙트럼의 차이가 기정의된 차이값 이하로 감소하도록 학습이 진행되어 생성되는 것
    을 특징으로 하는 음성 신호 처리 장치.
  16. 제9항에 있어서,
    상기 심화신경망(DNN) 모델은 MSE(Mean Square Error)를 심화신경망(DNN) 모델의 목적 함수로 설정하고, 심화신경망(DNN) 모델의 입력 파라미터와 출력 파라미터 사이의 관계를 모델링하는 BP(Backpropagation)에 기초하여 학습이 완료됨에 따라 생성되는 것
    을 특징으로 하는 음성 신호 처리 장치.
KR1020160106135A 2016-06-07 2016-08-22 Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치 KR101807961B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160070284 2016-06-07
KR20160070284 2016-06-07

Publications (1)

Publication Number Publication Date
KR101807961B1 true KR101807961B1 (ko) 2017-12-11

Family

ID=60943243

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160106135A KR101807961B1 (ko) 2016-06-07 2016-08-22 Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101807961B1 (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108257592A (zh) * 2018-01-11 2018-07-06 广州势必可赢网络科技有限公司 一种基于长短期记忆模型的人声分割方法及系统
CN109767778A (zh) * 2018-12-27 2019-05-17 中国人民解放军陆军工程大学 一种融合Bi-LSTM和WaveNet的语音转换方法
KR102069893B1 (ko) * 2019-05-29 2020-02-11 한림국제대학원대학교 산학협력단 최적증폭을 위한 보청기 시스템의 제어 방법, 장치 및 프로그램
KR20200084466A (ko) 2018-12-27 2020-07-13 엘지전자 주식회사 노이즈 캔슬링 장치 및 그 방법
CN111652355A (zh) * 2020-06-02 2020-09-11 中南大学 一种基于lstm&dnn的高炉铁水硅含量预测方法及装置
CN112039907A (zh) * 2020-09-03 2020-12-04 重庆邮电大学 一种基于物联网终端评测平台的自动测试方法及系统
US11042797B2 (en) 2019-01-08 2021-06-22 SimpleMachines Inc. Accelerating parallel processing of data in a recurrent neural network
WO2022086196A1 (ko) * 2020-10-22 2022-04-28 가우디오랩 주식회사 기계 학습 모델을 이용하여 복수의 신호 성분을 포함하는 오디오 신호 처리 장치
KR102492332B1 (ko) * 2022-09-16 2023-01-27 주식회사 브로드씨엔에스 뉴럴 네트워크를 이용하여 단말로부터 획득된 통화 음성 데이터를 기반으로 음악 데이터를 상기 단말에게 제공하는 방법 및 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Felix Weninger et al., ‘Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR’, International conference on LVA/ICA, pp.1~9, August 2015.*
Tianxing He et al., ‘Exploiting LSTM structure in deep neural networks for speech recognition’, ICASSP 2016, pp.5445~5449, March 2016.*

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108257592A (zh) * 2018-01-11 2018-07-06 广州势必可赢网络科技有限公司 一种基于长短期记忆模型的人声分割方法及系统
US10818309B2 (en) 2018-12-27 2020-10-27 Lg Electronics Inc. Apparatus for noise canceling and method for the same
KR20200084466A (ko) 2018-12-27 2020-07-13 엘지전자 주식회사 노이즈 캔슬링 장치 및 그 방법
CN109767778B (zh) * 2018-12-27 2020-07-31 中国人民解放军陆军工程大学 一种融合Bi-LSTM和WaveNet的语音转换方法
CN109767778A (zh) * 2018-12-27 2019-05-17 中国人民解放军陆军工程大学 一种融合Bi-LSTM和WaveNet的语音转换方法
US11042797B2 (en) 2019-01-08 2021-06-22 SimpleMachines Inc. Accelerating parallel processing of data in a recurrent neural network
KR102069893B1 (ko) * 2019-05-29 2020-02-11 한림국제대학원대학교 산학협력단 최적증폭을 위한 보청기 시스템의 제어 방법, 장치 및 프로그램
CN111652355A (zh) * 2020-06-02 2020-09-11 中南大学 一种基于lstm&dnn的高炉铁水硅含量预测方法及装置
CN111652355B (zh) * 2020-06-02 2023-04-07 中南大学 一种基于lstm&dnn的高炉铁水硅含量预测方法及装置
CN112039907A (zh) * 2020-09-03 2020-12-04 重庆邮电大学 一种基于物联网终端评测平台的自动测试方法及系统
WO2022086196A1 (ko) * 2020-10-22 2022-04-28 가우디오랩 주식회사 기계 학습 모델을 이용하여 복수의 신호 성분을 포함하는 오디오 신호 처리 장치
US11714596B2 (en) 2020-10-22 2023-08-01 Gaudio Lab, Inc. Audio signal processing method and apparatus
KR102492332B1 (ko) * 2022-09-16 2023-01-27 주식회사 브로드씨엔에스 뉴럴 네트워크를 이용하여 단말로부터 획득된 통화 음성 데이터를 기반으로 음악 데이터를 상기 단말에게 제공하는 방법 및 장치

Similar Documents

Publication Publication Date Title
KR101807961B1 (ko) Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치
KR101934636B1 (ko) 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치
CN109841206B (zh) 一种基于深度学习的回声消除方法
CN110619885B (zh) 基于深度完全卷积神经网络的生成对抗网络语音增强方法
Luo et al. Real-time single-channel dereverberation and separation with time-domain audio separation network.
US11948552B2 (en) Speech processing method, apparatus, electronic device, and computer-readable storage medium
CN110867181B (zh) 基于scnn和tcnn联合估计的多目标语音增强方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
JP5127754B2 (ja) 信号処理装置
KR100908121B1 (ko) 음성 특징 벡터 변환 방법 및 장치
Zhao et al. Late reverberation suppression using recurrent neural networks with long short-term memory
CN112037809A (zh) 基于多特征流结构深度神经网络的残留回声抑制方法
KR20200145219A (ko) 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
Ganapathy Multivariate autoregressive spectrogram modeling for noisy speech recognition
WO2023001128A1 (zh) 音频数据的处理方法、装置及设备
KR102410850B1 (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
Kothapally et al. Skipconvgan: Monaural speech dereverberation using generative adversarial networks via complex time-frequency masking
Ratnarajah et al. Ts-rir: Translated synthetic room impulse responses for speech augmentation
JP2006510060A (ja) 複数の音響源が生成した複数の音響信号を分離する方法及びシステム
CN114267372A (zh) 语音降噪方法、系统、电子设备和存储介质
JP5443547B2 (ja) 信号処理装置
CN111968627B (zh) 一种基于联合字典学习和稀疏表示的骨导语音增强方法
Gomez et al. Robustness to speaker position in distant-talking automatic speech recognition
Al-Ali et al. Enhanced forensic speaker verification performance using the ICA-EBM algorithm under noisy and reverberant environments

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant