KR20110024969A - 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법 - Google Patents

음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법 Download PDF

Info

Publication number
KR20110024969A
KR20110024969A KR1020090083167A KR20090083167A KR20110024969A KR 20110024969 A KR20110024969 A KR 20110024969A KR 1020090083167 A KR1020090083167 A KR 1020090083167A KR 20090083167 A KR20090083167 A KR 20090083167A KR 20110024969 A KR20110024969 A KR 20110024969A
Authority
KR
South Korea
Prior art keywords
signal
noise
estimating
statistical model
clean
Prior art date
Application number
KR1020090083167A
Other languages
English (en)
Inventor
이성주
이윤근
강병옥
강점자
박기영
박전규
왕지현
전형배
정의석
정호영
정훈
김종진
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020090083167A priority Critical patent/KR20110024969A/ko
Publication of KR20110024969A publication Critical patent/KR20110024969A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)

Abstract

본 발명은 음성신호에서 통계적 모델을 이용한 잡음 제거 기술에 관한 것으로, 입력된 음성신호로부터 잡음성분을 추정하고, 결정지향(Decision-Directed) 기반 위너 필터와 미리 훈련된 깨끗한 음성신호와 부가 잡음에 의해 왜곡된 음성신호의 공동 밀도(joint density) GMM 을 이용하여 MMSE 방식으로 잡음이 제거된 깨끗한 음성신호를 추정하는 것을 특징으로 한다. 본 발명에 의하면, 부가 잡음에 손상된 음성 입력 신호로부터 원래의 음성 신호를 복원함으로써, 위너 필터의 성능을 더욱 향상시킬 수 있으며, 이를 통해 원래 음성 신호의 특성을 그대로 유지시킬 수 있다.
음성신호, 잡음, 공동 밀도 가우시안 믹스쳐 모델(Joint Density Gaussian Mixture Model), 음질 향상

Description

음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법{Apparatus for filtering noise by using statistical model in voice signal and method thereof}
본 발명은 음성 신호의 음질 향상 기술에 관한 것으로서, 특히 잡음 환경에서 효과적인 잡음성분의 제거를 수행하여 원래 음성신호의 특성을 그대로 유지할 수 있도록 구현하는데 적합한 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법에 관한 것이다.
본 발명은 지식경제부의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-04, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].
잡음 환경에서 발성된 음성신호의 음질을 향상시키는 기술은 수많은 응용분야를 가지고 있으며, 수많은 잠재적 가치를 가진 연구분야로 현재까지도 그 연구가 활발히 이루어지고 있다.
음질향상 기술의 응용분야의 예를 들면, 음성 코딩(speech coding), 원격 회의(teleconference), 핸즈프리 모바일 통신(hand-free mobile telephony), 보청기(hearing aids), 음성 인식(voice recognition) 등이 있다. 음성의 음질과 명확성에 대한 인간의 인지특성은 단시간 스펙트럼 크기에 의존하는 경향이 있고 음성신호의 위상에는 비교적 둔감한 특성을 가지는데, 이를 근거로 현재까지의 음질 향상 기술은 음성신호에 더해져 있는 부가잡음을 억제하는데 초점을 맞춰 오고 있다.
자동 음성인식 기술을 구성하고 있는 요소기술 중 하나인 음질향상 기술의 발달에 힘입어 자동차 환경에서 사용자가 음성을 통하여 간단히 전자기기들을 제어할 수 있게 되었다. 예를 들어, 운전자가 음성을 통하여 MP3 플레이어 재생장치에서 선곡을 하거나, 운전 중에 음성인식기술을 이용하여 전화를 거는 일 등을 할 수 가 있다. 그리고 이러한 운전 중에 이루어지는 기기조작은 운전자가 자신의 음성을 통하여 이루어지고 있으므로, 운전자가 직접 기기를 조작하기 위해 주의가 산만해지는 것을 방지할 수 있어 안전운전에도 크게 도움이 되고 있다.
하지만 현재의 음성인식 기술수준으로도 극심한 잡음환경에서는 음성인식성능에 대한 사용자의 요구를 만족시키지 못하는 문제가 있다. 마이크가 사용자와 거리를 두고 위치하게 되는 핸즈프리 응용의 경우, 음성인식기술의 성능저하문제는 더욱 심각해 진다. 또한 음성통신을 위해서도 잡음이 많은 열악한 환경에서는 부가된 잡음을 완벽하게 제거할 수 없다는 문제가 있다.
이에 자동 음성인식을 위한 음질향상 기술의 목표는 음성의 왜곡 없이 배경잡음만을 제거하는 것으로 비교적 알고리즘이 간단하면서도 배경잡음 제거에 효과적인 위너 필터(Wiener filter) 기술이 가장 널리 사용되고 있다.
하기에서는 종래의 위너 필터를 이용한 잡음 제거 장치에 대해 설명하도록 환다.
도 1은 종래 기술에 따른 음성신호에서 통계적 모델을 이용한 잡음 제거 장치의 구조를 도시한 블록도이다.
도 1을 참조하면, 잡음 제거 장치는 마이크(100), A/D 컨버터(A/D Converter)(102), 프레임 버퍼링부(Input Signal Framing)(104), 고속 퓨리에 변환부(Fast Fourier Transform)(106), 음성활성 프레임 검출부(Voice Activity Detection, 이하 VAD라 한다)(108), 배경잡음 파워 스펙트럼 밀도 추정부(Noise Power Spectral Density Estimation)(110), 입력신호 파워 스펙트럼 밀도 추정부(Power Spectral Density Estimation)(112), 위너 필터 전달함수 추정부(Wiener Filter Coefficient Estimation)(114), 위너 필터링부(Wiener Filtering)(116), 신호 복원부(Signal Reconstruction)(118) 등을 포함한다.
구체적으로 마이크(100)는 사용자로부터의 음성 신호를 입력 받아 A/D 컨버터(102)로 전달하고, A/D 컨버터(102)에서는 전달 받은 아날로그 음성 신호를 디지털 신호로의 변환을 수행한다. 프레임 버퍼링부(104)는 프레임 단위로 실시간 처리를 위한 루틴으로서, 디지털 신호로 변환된 신호를 프레임 단위로 버퍼링(buffering)을 수행한다.
이에 프레임 버퍼링부(104)에서 프레임 단위로 버퍼링이 수행된 신호는 고속 퓨리에 변환부(106)와, 음성활성 프레임 검출부(108)로 전달된다. 먼저, 고속 퓨리에 변환부(106)는 프레임 단위로 버퍼링이 수행된 신호, 즉 시간축의 신호를 주파수 대역의 콤플렉스 신호(complex signal)로 변환하는 고속 퓨리에 변환을 수행하고, 고속 퓨리에 변환된 신호는 음성활성 프레임 검출부(108)와, 입력신호 파워 스펙트럼 밀도 추정부(112), 위너 필터링부(116)로 전달된다.
음성활성 프레임 검출부(108)는 프레임 단위로 버퍼링이 수행된 신호와 고속 퓨리에 변환된 신호를 전달받아, 이를 토대로 음성 활성 프레임을 검출(VAD)하게 된다. 배경잡음 파워 스펙트럼 밀도 추정부(110)에서는 음성활성 프레임 검출부(108)의 VAD 과정을 통해 음성 비활성 프레임으로 판정된 입력 프레임의 주파수축 콤플렉스 신호를 이용하여 배경잡음의 파워 스펙트럼 밀도(Power Spectral Density, 이하 PSD라 한다)를 추정하게 된다. 이에 배경 잡음에 대해 PSD 추정된 신호정보는 위너 필터 전달함수 추정부(114)로 전달된다.
한편, 고속 퓨리에 변환부(106)로부터 고속 퓨리에 변환된 신호를 전달받은 입력신호 파워 스펙트럼 밀도 추정부(112)는 고속 퓨리에 변환된 주파수축 콤플렉스 신호를 이용하여 입력신호의 PSD를 추정하게 된다. 이에 위너 필터 전달함수 추정부(114)에서는 배경잡음의 PSD 정보와 입력신호의 PSD 정보를 이용하여 위너 필터의 전달함수 추정을 수행하게 된다.
이를 통해 위너 필터링부(116)에서는 위너 필터 전달함수 추정부(114)를 통해 추정된 위너 필터의 전달함수와 고속 퓨리에 변환부(106)로부터 전달된 입력신호, 즉 고속 퓨리에 변환된 주파수측 콤플렉스 신호를 이용하여 잡음억제 필터링을 수행하게 된다.
그리고 신호 복원부(118)는 위너 필터링부(116)를 통해 잡음이 억제된 신호 를 시간축 신호로 복원을 수행하여, 복원된 음성신호를 출력하게 된다.
이러한 위너 필터를 포함하는 잡음 제거 장치에서 위너 필터의 성능 저하문제를 확인하기 위해, 먼저 위너 필터 전달 함수 추정부(114)에서 수행하는 잡음억제 필터의 전달함수 산출 과정을 살펴보기로 한다. 사후(Posteriori) 신호대 잡음비(signal-to-noise ratio, 이하 SNR이라 한다)는 다음과 같이 구할 수 있다.
Figure 112009054448211-PAT00001
여기서
Figure 112009054448211-PAT00002
는 입력신호 PSD 의 진폭 스펙트럼(amplitude spectrum)이고
Figure 112009054448211-PAT00003
은 배경잡음 PSD의 진폭 스펙트럼을 나타낸다. Bin은 주파수 인덱스를 t는 시간의 인덱스를 각각 나타낸다.
이와 같이 상기 <수학식 1>을 통해 구해진 사후 SNR을 이용하여 다음 <수학식 2> 내지 <수학식 3>과 같은 과정을 거쳐 <수학식 4>와 같이 선행(priori) SNR을 구할 수 있다.
Figure 112009054448211-PAT00004
Figure 112009054448211-PAT00005
Figure 112009054448211-PAT00006
이렇게 구한 선행 SNR을 이용하여 종래 기술에 따른 위너 필터의 전달함수를 구하면 다음 <수학식 5>와 같다.
Figure 112009054448211-PAT00007
이렇게 구한 잡음억제 전달함수를 이용하여 잡음이 부가되지 않은 원래 신호의 진폭 스펙트럼을 추정하면 다음 <수학식 6>과 같다.
Figure 112009054448211-PAT00008
여기서,
Figure 112009054448211-PAT00009
는 입력신호의 진폭 스펙트럼을 나타낸다.
이에 <수학식 1> 내지 <수학식 6>까지를 살펴보면, 종래 기술에 따른 위너 필터 방식에서는 잡음이 부가되어 주파수 성분들이 왜곡된 입력신호, 즉 마이 크(100)로부터 입력된 음성신호를 그대로 이용하여 잡음이 부가되지 않은 원래 신호를 추정하는데 사용하고 있는 것을 알 수가 있다. 이는 잡음환경에서 위너 필터의 성능을 저하시키는 원인이 된다.
상기한 바와 같이 구현되는 종래 기술에 의한 위너 필터를 이용한 배경잡음 제거 방식에 있어서는, 부가잡음 제거를 위한 잡음억제 필터의 전달함수를 구하기 위해서는 선행 SNR을 추정해야 하는데, 이러한 선행 SNR의 추정을 위해서는, 먼저 사후 SNR을 구해야 하고, 사후 SNR으로부터 선행 SNR을 구하는 방법은 소위, "Decision-Directed(결정지향)" 방법이라 알려져 있다(by Ephraim and Malah).
그런데 종래기술에 따른 위너 방법에서는 이러한 사후 SNR을 입력신호의 스펙트럼으로부터 직접 구하기 때문에 잡음환경에서는 부가잡음에 의해 왜곡된 입력신호로부터 잡음이 부가되지 않은 원래의 음성신호를 추정하는 형태가 되어 그 음질 향상 성능이 저하되는 원인이 된다는 문제점이 있었다.
이에 본 발명은, 잡음 환경에서 효과적인 잡음성분의 제거를 수행하여 원래 음성신호의 특성을 그대로 유지할 수 있도록 구현할 수 있는 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법을 제공한다.
또한 본 발명은, 잡음이 포함되어 입력된 음성신호에서 단일채널 기반의 위너 필터와 공동 밀도(joint density) 가우시안 믹스쳐 모델(Gaussian mixture model, 이하 GMM이라 한다) 기반 최소 평균 제곱 오류(Minimum Mean Square Error, 이하 MMSE라 한다) 추정법을 통하여 배경 잡음 제거를 수행하여 원래 음성신호로 복원시킬 수 있는 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법을 제공한다.
또한 본 발명은, 입력된 음성신호로부터 잡음성분을 추정하고, 결정지향(Decision-Directed) 기반 위너 필터와 미리 훈련된 깨끗한 음성신호와 부가 잡음에 의해 왜곡된 음성신호의 공동 밀도(joint density) GMM 을 이용하여 MMSE 방식으로 잡음이 제거된 깨끗한 음성신호를 추정할 수 있는 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법을 제공한다.
본 발명의 일 실시예에 따른 음성신호에서 통계적 모델을 이용한 잡음 제거 장치는, 입력된 음성 신호에서 음성 비활성 프레임의 주파수축 콤플렉스 신호를 이용하여 추정된 배경잡음의 파워 스펙트럼 밀도(PSD)와, 상기 음성 신호를 고속 퓨리에 변환한 주파수축 콤플렉스 신호를 이용하여 추정된 입력신호의 PSD 추정 정보와, 기 설정된 통계 모델을 이용하여 클린 신호의 스펙트럼 벡터를 추정하는 클린 신호 스펙트럼 벡터 추정부와, 상기 클린 신호의 스펙트럼 벡터를 로그 변환한 후, 상기 클린 신호의 스펙트럼 벡터를 토대로 사후 신호대 잡음비(SNR) 을 추정하는 사후 SNR 추정부와, 상기 사후 SNR을 이용하여 잡음 억제 필터의 전달 함수를 추정하는 전달함수 추정부와, 상기 추정된 전달 함수와, 상기 고속 퓨리에 변환된 주파 수축 콤플렉스 신호를 이용하여 잡음 억제 필터링을 수행하는 잡음억제 필터링부를 포함한다.
여기서, 상기 클린 신호 스펙트럼 벡터 추정부는, 상기 기 설정된 통계 모델인, 잡음이 부가된 신호와 잡음이 부가되지 않은 신호의 스펙트럼들간의 상관관계에 대한 지식을 학습 데이터베이스를 이용한 학습과정을 거쳐 형성된 공동밀도 가우시안 믹스쳐 모델(GMM)을 이용하여 잡음이 부가되지 않은 클린 신호의 스펙트럼 벡터를 추정하는 것을 특징으로 한다.
또한, 상기 전달 함수 추정부는, 상기 추정된 클린 신호의 스펙트럼 벡터를 토대로 사후 SNR을 통하여 선행 SNR을 추정한 후, 상기 선행 SNR을 이용하여 전달함수를 추정하는 것을 특징으로 한다.
그리고 상기 잡음 제거 장치는, 디지털 신호로 변환된 음성 신호를 프레임 단위로 버퍼링을 수행하는 프레임 버퍼링부와, 상기 프레임 단위로 버퍼링된 시간축의 신호를 주파수 대역의 콤플렉스 신호로 고속 퓨리에 변환하는 고속 퓨리에 변환부와, 상기 프레임 버퍼링부의 출력 신호와, 상기 고속 퓨리에 변환부의 출력 신호를 입력 받아, 이를 토대로 음성 활성 프레임을 검출하는 음성 활성 프레임 검출부와, 상기 검출된 음성 활성 프레임 외에 음성 비활성 프레임의 주파수축 콤플렉스 신호를 이용하여 배경잡음의 파워 스펙트럼 밀도를 추정하는 배경잡음 파워 스펙트럼 밀도 추정부와, 상기 고속 퓨리에 변환한 주파수축 콤플렉스 신호를 이용하여 입력신호의 파워 스펙트럼 밀도를 추정하는 입력신호 파워 스펙트럼 밀도 추정부와, 상기 잡음억제 필터링부를 통해 필터링된 신호를 시간축 신호로 복원하여 출 력하는 신호 복원부를 더 포함하는 것을 특징으로 한다.
한편, 상기 잡음억제 필터는, 위너 필터(Wiener filter)인 것을 특징으로 한다.
본 발명의 일 실시예에 따른 음성신호에서 통계적 모델을 이용한 잡음 제거 방법은, 입력된 음성 신호에서 음성 비활성 프레임의 주파수축 콤플렉스 신호를 이용하여 추정된 배경잡음의 파워 스펙트럼 밀도(PSD)와, 상기 음성 신호를 고속 퓨리에 변환한 주파수축 콤플렉스 신호를 이용하여 추정된 입력신호의 PSD 추정 정보와, 기 설정된 통계 모델을 이용하여 클린 신호의 스펙트럼 벡터를 추정하는 과정과, 상기 클린 신호의 스펙트럼 벡터를 로그 변환한 후, 상기 클린 신호의 스펙트럼 벡터를 토대로 사후 신호대 잡음비(SNR) 을 추정하는 과정과, 상기 사후 SNR을 이용하여 잡음 억제 필터의 전달 함수를 추정하는 과정과, 상기 추정된 전달 함수와, 상기 고속 퓨리에 변환된 주파수축 콤플렉스 신호를 이용하여 상기 잡음 억제 필터로 필터링을 수행하는 과정을 포함한다.
여기서, 상기 클린 신호의 스펙트럼 벡터를 추정하는 과정은, 상기 기 설정된 통계 모델인, 잡음이 부가된 신호와 잡음이 부가되지 않은 신호의 스펙트럼들간의 상관관계에 대한 지식을 학습 데이터베이스를 이용한 학습과정을 거쳐 형성된 공동밀도 가우시안 믹스쳐 모델(GMM)을 이용하여 잡음이 부가되지 않은 클린 신호의 스펙트럼 벡터를 추정하는 것을 특징으로 한다.
또한, 상기 전달 함수를 추정하는 과정은, 상기 추정된 클린 신호의 스펙트럼 벡터를 토대로 사후 SNR을 통하여 선행 SNR을 추정한 후, 상기 선행 SNR을 이용 하여 상기 전달 함수를 추정하는 것을 특징으로 한다.
그리고 상기 잡음 제거 방법은, 디지털 신호로 변환된 음성 신호를 프레임 단위로 버퍼링을 수행하는 과정과, 상기 프레임 단위로 버퍼링된 시간축의 신호를 주파수 대역의 콤플렉스 신호로 고속 퓨리에 변환하는 과정과, 상기 버퍼링된 프레임 단위 음성 신호와, 상기 고속 퓨리에 변환된 신호를 입력 받아, 이를 토대로 음성 활성 프레임을 검출하는 과정과, 상기 검출된 음성 활성 프레임 외에 음성 비활성 프레임의 주파수축 콤플렉스 신호를 이용하여 배경잡음의 파워 스펙트럼 밀도를 추정하는 과정과, 상기 고속 퓨리에 변환된 주파수축 콤플렉스 신호를 이용하여 입력신호의 파워 스펙트럼 밀도를 추정하는 과정과, 상기 잡음억제 필터링된 신호를 시간축 신호로 복원하여 출력하는 과정을 더 포함하는 것을 특징으로 한다.
한편, 상기 잡음억제 필터는, 위너 필터(Wiener filter)인 것을 특징으로 한다.
상기와 같은 본 발명의 실시예에 따른 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법에 따르면 다음과 같은 효과가 있다.
본 발명의 실시예에 따른 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법에 의하면, 통계적 모델인 공동밀도(joint density) GMM을 이용하여 부가 잡음에 손상된 음성 입력 신호로부터 원래의 음성 신호를 복원함으로써, 위너 필터의 성능을 더욱 향상시킬 수 있으며, 이를 통해 원래 음성 신호의 특성을 그대 로 유지시킬 수 있는 효과가 있다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
본 발명 실시예는 입력된 음성신호로부터 잡음성분을 추정하고, 결정지향(Decision-Directed) 기반 위너 필터와 미리 훈련된 깨끗한 음성신호와 부가 잡음에 의해 왜곡된 음성신호의 공동 밀도(joint density) GMM 을 이용하여 MMSE 방식으로 잡음이 제거된 깨끗한 음성신호를 추정하는 것이다.
이는 위너 필터의 성능을 더욱 향상시키기 위하여 통계적 모델 기반의 스펙트럼 복원을 수행하는 것으로서, 부가 잡음 제거를 목적으로 하는 위너 필터의 전달함수를 추정하기 위해서는 잡음이 부가되지 않은 원래의 음성신호(clean speech signal)의 스펙트럼을 필요로 하는데 배경잡음에 노출된 음성신호로부터 원래 음성신호의 스펙트럼을 통계적 모델을 이용하여 복원함으로써 종래의 위너 필터 성능을 대폭 향상시킬 수 있다.
구체적으로 본 발명의 실시예에서 잡음 제거 장치는, 종래 기술을 이용한 위너 필터의 단점을 보완하기 위하여 통계적 모델에 기반한 스펙트럼 보정을 수행한다. 이러한 스펙트럼 보정 방법은, 공동밀도 GMM을 이용하여 잡음이 부가되지 않은 원래 신호의 스펙트럼을 추정하는 방법으로서, 공동밀도 GMM은 잡음이 부가된 신호와, 잡음이 부가되지 않은 신호의 스펙트럼들간의 상관관계에 대한 지식을 학습 데이터베이스를 이용한 학습과정을 거쳐 얻은 통계적 모델이다.
공동밀도 GMM 학습에 필요한 데이터베이스는 잡음이 부가되지 않은 클린 음성신호와 이 신호에 해당하는 배경잡음이 부가된 음성신호로 구성된다. 즉, 조용한 환경에서 녹음된 음성신호를 기반으로 하고 조용한 환경에서 녹음된 음성신호에 배경잡음을 인위적으로 더하여 공동밀도 GMM 훈련에 필요한 클린과 잡음신호의 쌍(pair)를 구할 수 있다.
Figure 112009054448211-PAT00010
를 배경잡음이 부가된 신호의 스펙트럼 벡터라 하고
Figure 112009054448211-PAT00011
를 잡음이 부가되지 않은 클린 신호의 스펙트럼 벡터라고 가정한다. 그리고 클린 신호와 잡음이 부가된 신호의 스펙트럼 벡터를
Figure 112009054448211-PAT00012
라고 하자. 그러면 2n 차의 차수를 가지고 Q개의 믹스쳐(mixture)를 가지는 공동 밀도 GMM을 이용하여 잡음이 부가된 신호로부터 잡음이 부가되지 않은 클린 신호를 다음과 같이 구할 수 있다.
Figure 112009054448211-PAT00013
여기서,
Figure 112009054448211-PAT00014
,
Figure 112009054448211-PAT00015
,
Figure 112009054448211-PAT00016
이다.
상기 <수학식 7>을 통하여 구한 클린 신호의 로그 PSD를 공동밀도 GMM을 이용하여 클린 신호의 스펙트럼 벡터를 구하는 방법은 다음 <수학식 8>과 같다.
Figure 112009054448211-PAT00017
여기서 최적의 알파값(α)은 다음과 같이 기준(criterion)을 최소화하는 방식으로 구할 수 있다.
Figure 112009054448211-PAT00018
Figure 112009054448211-PAT00019
여기서,
Figure 112009054448211-PAT00020
이다.
이렇게 구한 알파값을 시간-주파수축간의 스무딩(smoothing) 과정을 거치면 다음 <수학식 11>과 같다.
Figure 112009054448211-PAT00021
Figure 112009054448211-PAT00022
상기 <수학식 11> 과 같이 시간-주파수축간의 스무딩 과정을 거친 알파값을 상기 <수학식 8> 에 적용함으로써, 공동밀도 GMM을 이용하여 스펙트럼이 보정된 클린 신호의 스펙트럼 벡터를 구할 수 있으며, 이를 기반으로 새로운 위너 필터의 전달함수를 구하는 과정은 다음과 같다. 먼저, 잡음에 의해 손상된 스펙트럼 정보가 보정된 클린 신호의 스펙트럼 벡터를 이용하여 다음 <수학식 12>와 같이 새로운 사후 SNR을 추정한다.
Figure 112009054448211-PAT00023
그런 다음, 새로운 선행 SNR을 추정하면 다음 <수학식 13>과 같다.
Figure 112009054448211-PAT00024
상기 <수학식 13>을 이용하여 위너 필터의 새로운 전달함수를 다음 <수학식 14>와 같이 추정한다.
Figure 112009054448211-PAT00025
상기 <수학식 14>를 이용하여 새롭게 구한 위너 필터의 전달함수를 이용하여 잡음이 부가되지 않은 클린신호의 스펙트럼 벡터를 다음 <수학식 15>과 같이 추정할 수 있다.
Figure 112009054448211-PAT00026
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명하기로 한다.
도 2는 본 발명의 실시예에 따른 음성신호에서 통계적 모델을 이용한 잡음 제거 장치의 구조를 도시한 블록도이다.
도 2를 참조하면, 잡음 제거 장치는 마이크(200), A/D 컨버터(202), 프레임 버퍼링부(204), 고속 퓨리에 변환부(206), 음성활성 프레임 검출부(208), 배경잡음 파워 스펙트럼 밀도 추정부(210), 입력신호 파워 스펙트럼 밀도 추정부(212), 클린신호 스펙트럼 벡터 추정부(214), 사후 SNR 추정부(216), 위너 필터 전달함수 추정부(218), 위너 필터링부(220), 신호 복원부(222) 등을 포함한다.
구체적으로 마이크(200)는 사용자로부터의 음성 신호를 입력 받아 A/D 컨버터(202)로 전달하고, A/D 컨버터(202)에서는 전달 받은 아날로그 음성 신호를 디지 털 신호로 변환한다. 프레임 버퍼링부(204)는 프레임 단위로 실시간 처리를 위한 루틴으로서, 디지털 신호로 변환된 신호를 프레임 단위로 버퍼링(buffering)을 수행한다.
이에 프레임 버퍼링부(204)에서 프레임 단위로 버퍼링이 수행된 신호는 고속 퓨리에 변환부(206)와, 음성활성 프레임 검출부(108)와, 입력신호 파워 스펙트럼 밀도 추정부(212)로 전달된다. 먼저, 고속 퓨리에 변환부(206)는 프레임 단위로 버퍼링이 수행된 신호, 즉 시간축의 신호를 주파수 대역의 콤플렉스 신호로 변환하는 고속 퓨리에 변환을 수행하고, 고속 퓨리에 변환된 신호는 음성활성 프레임 검출부(208)와, 입력신호 파워 스펙트럼 밀도 추정부(212), 위너 필터링부(220)로 전달된다.
음성활성 프레임 검출부(208)는 프레임 단위로 버퍼링이 수행된 신호와 고속 퓨리에 변환된 신호를 전달받아, 이를 토대로 음성 활성 프레임을 검출(VAD)하게 된다.
배경잡음 파워 스펙트럼 밀도 추정부(210)에서는 음성활성 프레임 검출부(208)의 VAD 과정을 통해 음성 비활성 프레임으로 판정된 입력 프레임의 주파수축 콤플렉스 신호를 이용하여 배경잡음의 파워 스펙트럼 밀도(PSD)를 추정하게 된다. 이에 배경 잡음에 대해 PSD 추정된 신호정보는 클린신호 스펙트럼 벡터 추정부(214)로 전달된다. 그리고 고속 퓨리에 변환부(206)로부터 고속 퓨리에 변환된 신호를 전달받은 입력신호 파워 스펙트럼 밀도 추정부(212)는 고속 퓨리에 변환된 주파수축 콤플렉스 신호를 이용하여 입력신호의 PSD를 추정하게 된다.
이에 클린신호 스펙트럼 벡터 추정부(214)에서는 결정지향(decision-directed) 접근법으로 배경잡음의 PSD 정보와 입력신호의 PSD 정보를 이용하여 클린 신호의 스펙트럼 벡터를 추정하는 것으로서, 상기 <수학식 7> 내지 <수학식 11>과, <수학식 15>와 같은 과정을 통해 클린 신호의 스펙트럼 벡터를 추정하게 된다.
이는 잡음이 부가된 신호와, 잡음이 부가되지 않은 신호의 스펙트럼들 간의 상관관계에 대한 지식을 학습 데이터베이스를 이용한 학습과정을 거쳐 형성된 공동밀도 GMM 을 이용하여 MMSE 방식으로 잡음이 부가되지 않은 원래 신호의 스펙트럼 벡터를 추정하게 되는 것이다.
한편, 클린 신호의 스펙트럼 벡터가 추정된 정보는 사후 SNR 추정부(216)로 전달되어, 사후 SNR 추정부(216)에서는 잡음에 의해 손상된 스펙트럼 정보가 보정된 클린 신호의 스펙트럼 벡터를 로그 변환한 후, 사후 SNR을 추정하고, 위너 필터 전달 함수 추정부(218)에서는 추정된 사후 SNR을 통하여 선행 SNR을 추정한 후, 추정된 선행 SNR을 이용하여 위너 필터의 전달함수 추정을 수행하게 된다.
이와 같이 클린신호 스펙트럼 벡터 추정부(214), 사후 SNR 추정부(216) 및 위너 필터 전달 함수 추정부(218)는 상기 <수학식 12> 내지 <수학식 14> 와 같은 과정을 통해 추정된 클린 신호 스펙트럼 벡터로 사후 SNR 및 선행 SNR을 추정한 후, 이를 통해 위너 필터 전달 함수를 추정하게 된다.
이후, 위너 필터링부(220)에서는 위너 필터 전달함수 추정부(218)를 통해 추정된 위너 필터의 전달함수와 고속 퓨리에 변환부(206)로부터 전달된 입력신호, 즉 고속 퓨리에 변환된 주파수측 콤플렉스 신호를 이용하여 잡음억제 필터링을 수 행하게 된다.
그리고 신호 복원부(222)는 위너 필터링부(220)를 통해 잡음이 억제된 신호를 시간축 신호로 복원을 수행하여, 복원된 음성신호를 출력하게 된다.
도 3은 본 발명의 실시예에 따른 음성신호에서 통계적 모델을 이용한 잡음 제거 장치의 동작 절차를 도시한 흐름도이다.
도 3을 참조하면, 300단계에서 A/D 컨버터(202)에서는 마이크(200)로부터 전달 받은 아날로그 음성 신호를 디지털 신호로 변환을 수행하고, 302단계에서 프레임 버퍼링부(204)에서는 A/D 컨버터(202)를 통해 디지털 신호로 변환된 신호를 프레임 단위로 버퍼링을 수행한다.
그리고 304단계에서는 고속 퓨리에 변환부(206)는 프레임 단위로 버퍼링이 수행된 신호, 즉 시간축의 신호를 주파수 대역의 콤플렉스 신호로 변환하는 고속 퓨리에 변환을 수행하고, 306단계에서 음성활성 프레임 검출부(208)는 프레임 단위로 버퍼링이 수행된 신호와 고속 퓨리에 변환된 신호를 전달받아, 이를 토대로 음성 활성 프레임을 검출(VAD)한다.
이후, 308단계에서 배경잡음 파워 스펙트럼 밀도 추정부(210)에서는 음성활성 프레임 검출부(208)의 VAD 과정을 통해 음성 비활성 프레임으로 판정된 입력 프레임의 주파수축 콤플렉스 신호를 이용하여 배경잡음의 파워 스펙트럼 밀도(PSD)를 추정한 후, 이를 클린신호 스펙트럼 벡터 추정부(214)로 전달한다.
310단계에서 입력신호 파워 스펙트럼 밀도 추정부(212)는 고속 퓨리에 변환된 주파수축 콤플렉스 신호를 이용하여 입력신호의 PSD를 추정하고, 312단계에서 클린신호 스펙트럼 벡터 추정부(214)는 결정지향(decision-directed) 접근법으로, 전달된 배경잡음의 PSD 정보와 입력신호의 PSD 정보에 공동밀도 GMM을 이용하여 클린 신호의 스펙트럼 벡터를 추정한다.
이에 314단계에서 사후 SNR 추정부(216)는 클린 신호의 스펙트럼 벡터를 로그 변환한 후, 사후 SNR을 추정하고, 316단계에서 위너 필터 전달 함수 추정부(218)는 추정된 사후 SNR을 통하여 선행 SNR을 추정함으로써, 최종적으로 위너 필터의 전달함수를 추정할 수 있다.
이후 318단계에서 필터링부(220)는 위너 필터 전달함수 추정부(218)를 통해 추정된 위너 필터의 전달함수와 고속 퓨리에 변환부(206)로부터 고속 퓨리에 변환된 주파수측 콤플렉스 신호를 이용하여 잡음억제 필터링을 수행함으로써, 320단계에서 신호 복원부(222)는 위너 필터링부(220)를 통해 잡음이 억제된 신호를 시간축 신호로의 복원을 수행하여, 복원된 음성신호를 출력하게 된다.
이상 설명한 바와 같이, 본 발명의 실시예에 따른 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법은, 입력된 음성신호로부터 잡음성분을 추정하고, 결정지향(Decision-Directed) 기반 위너 필터와 미리 훈련된 깨끗한 음성신호와 음성신호의 부가 잡음에 의해 왜곡된 음성신호의 공동 밀도(joint density) GMM 을 이용하여 MMSE 방식으로 잡음이 제거된 깨끗한 음성신호를 추정한다.
한편 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되지 않으며, 후술되는 특허 청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
도 1은 종래 기술에 따른 음성신호에서 통계적 모델을 이용한 잡음 제거 장치의 구조를 도시한 블록도,
도 2는 본 발명의 실시예에 따른 음성신호에서 통계적 모델을 이용한 잡음 제거 장치의 구조를 도시한 블록도,
도 3은 본 발명의 실시예에 따른 음성신호에서 통계적 모델을 이용한 잡음 제거 장치의 동작 절차를 도시한 흐름도.
< 도면의 주요 부분에 대한 부호 설명 >
200 : 마이크 202 : A/D 컨버터
204 : 프레임 버퍼링부 206 : 고속 퓨리에 변환부
208 : 음성활성 프레임 검출부
210 : 배경잡음 파워 스펙트럼 밀도 추정부
212 : 입력신호 파워 스펙트럼 밀도 추정부
214 : 클린신호 스펙트럼 벡터 추정부
216 : 사후 SNR 추정부 218 : 위너 필터 전달함수 추정부
220 : 위너 필터링부 222 : 신호 복원부

Claims (10)

  1. 입력된 음성 신호에서 음성 비활성 프레임의 주파수축 콤플렉스 신호를 이용하여 추정된 배경잡음의 파워 스펙트럼 밀도(PSD)와, 상기 음성 신호를 고속 퓨리에 변환한 주파수축 콤플렉스 신호를 이용하여 추정된 입력신호의 PSD 추정 정보와, 기 설정된 통계 모델을 이용하여 클린 신호의 스펙트럼 벡터를 추정하는 클린 신호 스펙트럼 벡터 추정부와,
    상기 클린 신호의 스펙트럼 벡터를 로그 변환한 후, 상기 클린 신호의 스펙트럼 벡터를 토대로 사후 신호대 잡음비(SNR) 을 추정하는 사후 SNR 추정부와,
    상기 사후 SNR을 이용하여 잡음 억제 필터의 전달 함수를 추정하는 전달함수 추정부와,
    상기 추정된 전달 함수와, 상기 고속 퓨리에 변환된 주파수축 콤플렉스 신호를 이용하여 잡음 억제 필터링을 수행하는 잡음억제 필터링부
    를 포함하는 음성신호에서 통계적 모델을 이용한 잡음 제거 장치.
  2. 제 1항에 있어서,
    상기 클린 신호 스펙트럼 벡터 추정부는,
    상기 기 설정된 통계 모델인, 잡음이 부가된 신호와 잡음이 부가되지 않은 신호의 스펙트럼들간의 상관관계에 대한 지식을 학습 데이터베이스를 이용한 학습 과정을 거쳐 형성된 공동밀도 가우시안 믹스쳐 모델(GMM)을 이용하여 잡음이 부가되지 않은 클린 신호의 스펙트럼 벡터를 추정하는 것을 특징으로 하는 음성신호에서 통계적 모델을 이용한 잡음 제거 장치.
  3. 제 1항에 있어서,
    상기 전달 함수 추정부는,
    상기 추정된 클린 신호의 스펙트럼 벡터를 토대로 사후 SNR을 통하여 선행 SNR을 추정한 후, 상기 선행 SNR을 이용하여 전달함수를 추정하는 것을 특징으로 하는 음성신호에서 통계적 모델을 이용한 잡음 제거 장치.
  4. 제 1항에 있어서,
    상기 잡음 제거 장치는,
    디지털 신호로 변환된 음성 신호를 프레임 단위로 버퍼링을 수행하는 프레임 버퍼링부와,
    상기 프레임 단위로 버퍼링된 시간축의 신호를 주파수 대역의 콤플렉스 신호로 고속 퓨리에 변환하는 고속 퓨리에 변환부와,
    상기 프레임 버퍼링부의 출력 신호와, 상기 고속 퓨리에 변환부의 출력 신호를 입력 받아, 이를 토대로 음성 활성 프레임을 검출하는 음성 활성 프레임 검출 부와,
    상기 검출된 음성 활성 프레임 외에 음성 비활성 프레임의 주파수축 콤플렉스 신호를 이용하여 배경잡음의 파워 스펙트럼 밀도를 추정하는 배경잡음 파워 스펙트럼 밀도 추정부와,
    상기 고속 퓨리에 변환한 주파수축 콤플렉스 신호를 이용하여 입력신호의 파워 스펙트럼 밀도를 추정하는 입력신호 파워 스펙트럼 밀도 추정부와,
    상기 잡음억제 필터링부를 통해 필터링된 신호를 시간축 신호로 복원하여 출력하는 신호 복원부
    를 더 포함하는 것을 특징으로 하는 음성신호에서 통계적 모델을 이용한 잡음 제거 장치.
  5. 제 1항에 있어서,
    상기 잡음억제 필터는,
    위너 필터(Wiener filter)인 것을 특징으로 하는 음성신호에서 통계적 모델을 이용한 잡음 제거 장치.
  6. 입력된 음성 신호에서 음성 비활성 프레임의 주파수축 콤플렉스 신호를 이용하여 추정된 배경잡음의 파워 스펙트럼 밀도(PSD)와, 상기 음성 신호를 고속 퓨 리에 변환한 주파수축 콤플렉스 신호를 이용하여 추정된 입력신호의 PSD 추정 정보와, 기 설정된 통계 모델을 이용하여 클린 신호의 스펙트럼 벡터를 추정하는 과정과,
    상기 클린 신호의 스펙트럼 벡터를 로그 변환한 후, 상기 클린 신호의 스펙트럼 벡터를 토대로 사후 신호대 잡음비(SNR) 을 추정하는 과정과,
    상기 사후 SNR을 이용하여 잡음 억제 필터의 전달 함수를 추정하는 과정과,
    상기 추정된 전달 함수와, 상기 고속 퓨리에 변환된 주파수축 콤플렉스 신호를 이용하여 상기 잡음 억제 필터로 필터링을 수행하는 과정
    을 포함하는 음성신호에서 통계적 모델을 이용한 잡음 제거 방법.
  7. 제 6항에 있어서,
    상기 클린 신호의 스펙트럼 벡터를 추정하는 과정은,
    상기 기 설정된 통계 모델인, 잡음이 부가된 신호와 잡음이 부가되지 않은 신호의 스펙트럼들 간의 상관관계에 대한 지식을 학습 데이터베이스를 이용한 학습과정을 거쳐 형성된 공동밀도 가우시안 믹스쳐 모델(GMM)을 이용하여 잡음이 부가되지 않은 클린 신호의 스펙트럼 벡터를 추정하는 것을 특징으로 하는 음성신호에서 통계적 모델을 이용한 잡음 제거 방법.
  8. 제 6항에 있어서,
    상기 전달 함수를 추정하는 과정은,
    상기 추정된 클린 신호의 스펙트럼 벡터를 토대로 사후 SNR을 통하여 선행 SNR을 추정한 후, 상기 선행 SNR을 이용하여 상기 전달 함수를 추정하는 것을 특징으로 하는 음성신호에서 통계적 모델을 이용한 잡음 제거 방법.
  9. 제 6항에 있어서,
    상기 잡음 제거 방법은,
    디지털 신호로 변환된 음성 신호를 프레임 단위로 버퍼링을 수행하는 과정과,
    상기 프레임 단위로 버퍼링된 시간축의 신호를 주파수 대역의 콤플렉스 신호로 고속 퓨리에 변환하는 과정과,
    상기 버퍼링된 프레임 단위 음성 신호와, 상기 고속 퓨리에 변환된 신호를 입력 받아, 이를 토대로 음성 활성 프레임을 검출하는 과정과,
    상기 검출된 음성 활성 프레임 외에 음성 비활성 프레임의 주파수축 콤플렉스 신호를 이용하여 배경잡음의 파워 스펙트럼 밀도를 추정하는 과정과,
    상기 고속 퓨리에 변환된 주파수축 콤플렉스 신호를 이용하여 입력신호의 파워 스펙트럼 밀도를 추정하는 과정과,
    상기 잡음억제 필터링된 신호를 시간축 신호로 복원하여 출력하는 과정
    을 더 포함하는 것을 특징으로 하는 음성신호에서 통계적 모델을 이용한 잡음 제거 방법.
  10. 제 6항에 있어서,
    상기 잡음억제 필터는,
    위너 필터(Wiener filter)인 것을 특징으로 하는 음성신호에서 통계적 모델을 이용한 잡음 제거 방법.
KR1020090083167A 2009-09-03 2009-09-03 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법 KR20110024969A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090083167A KR20110024969A (ko) 2009-09-03 2009-09-03 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090083167A KR20110024969A (ko) 2009-09-03 2009-09-03 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20110024969A true KR20110024969A (ko) 2011-03-09

Family

ID=43932721

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090083167A KR20110024969A (ko) 2009-09-03 2009-09-03 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20110024969A (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101247652B1 (ko) * 2011-08-30 2013-04-01 광주과학기술원 잡음 제거 장치 및 방법
KR101602724B1 (ko) * 2014-12-17 2016-03-14 경북대학교 산학협력단 인터렉티브 건축에서의 외피 구축 시스템 및 그 방법
US9369803B2 (en) 2012-05-22 2016-06-14 Samsung Electronics Co., Ltd. Apparatus and method for removing noise
CN111917427A (zh) * 2020-08-11 2020-11-10 电子科技大学 一种基于功率谱的数字话音静噪方法
CN113593599A (zh) * 2021-09-02 2021-11-02 北京云蝶智学科技有限公司 一种去除语音信号中噪声信号的方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101247652B1 (ko) * 2011-08-30 2013-04-01 광주과학기술원 잡음 제거 장치 및 방법
US9369803B2 (en) 2012-05-22 2016-06-14 Samsung Electronics Co., Ltd. Apparatus and method for removing noise
KR101602724B1 (ko) * 2014-12-17 2016-03-14 경북대학교 산학협력단 인터렉티브 건축에서의 외피 구축 시스템 및 그 방법
CN111917427A (zh) * 2020-08-11 2020-11-10 电子科技大学 一种基于功率谱的数字话音静噪方法
CN113593599A (zh) * 2021-09-02 2021-11-02 北京云蝶智学科技有限公司 一种去除语音信号中噪声信号的方法

Similar Documents

Publication Publication Date Title
US10580430B2 (en) Noise reduction using machine learning
KR101168002B1 (ko) 잡음 신호 처리 방법 및 상기 방법을 구현하기 위한 장치
US7313518B2 (en) Noise reduction method and device using two pass filtering
KR101224755B1 (ko) 음성-상태 모델을 사용하는 다중-감각 음성 향상
US7133825B2 (en) Computationally efficient background noise suppressor for speech coding and speech recognition
JP5595605B2 (ja) 音声信号復元装置および音声信号復元方法
KR20130108063A (ko) 다중 마이크로폰의 견고한 잡음 억제
Soon et al. Wavelet for speech denoising
KR20110024969A (ko) 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법
Nuha et al. Noise Reduction and Speech Enhancement Using Wiener Filter
Lei et al. Speech enhancement for nonstationary noises by wavelet packet transform and adaptive noise estimation
CN112185405B (zh) 一种基于差分运算和联合字典学习的骨导语音增强方法
CN113593599A (zh) 一种去除语音信号中噪声信号的方法
Manikandan Speech enhancement based on wavelet denoising
KR20090111739A (ko) 잡음 제거 장치 및 방법
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment
Rao et al. Speech enhancement using perceptual Wiener filter combined with unvoiced speech—A new Scheme
Shafi et al. Transform Based Speech Enhancement Using DCT Based MMSE Filter, & Its Comparison With DFT Filter
Krishnamoorthy et al. Processing noisy speech for enhancement
CN116524944A (zh) 音频降噪方法、介质、装置和计算设备
Kim et al. Improved noise reduction with packet loss recovery based on post-filtering over IP networks
Yermolenko et al. The Procedures of the Noise Clipping in the Signal, Based on Fourirer-and Wavelet–Transform and on Classification of Sounds of Speech
Kadam et al. Wavelet Filter Bank based robust speech enhancement
Liu et al. MTF based Kalman filtering with linear prediction for power envelope restoration
Kamaraju et al. Speech Enhancement Technique Using Eigen Values

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination