KR20030031660A - 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법 - Google Patents

음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법 Download PDF

Info

Publication number
KR20030031660A
KR20030031660A KR1020010063404A KR20010063404A KR20030031660A KR 20030031660 A KR20030031660 A KR 20030031660A KR 1020010063404 A KR1020010063404 A KR 1020010063404A KR 20010063404 A KR20010063404 A KR 20010063404A KR 20030031660 A KR20030031660 A KR 20030031660A
Authority
KR
South Korea
Prior art keywords
snrs
speech
noise
probability
post
Prior art date
Application number
KR1020010063404A
Other languages
English (en)
Other versions
KR100400226B1 (ko
Inventor
손창용
신블라드
김상룡
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR10-2001-0063404A priority Critical patent/KR100400226B1/ko
Priority to US10/253,418 priority patent/US7080007B2/en
Priority to EP02256950A priority patent/EP1304681B1/en
Priority to DE60211826T priority patent/DE60211826T2/de
Priority to JP2002299846A priority patent/JP2003177770A/ja
Publication of KR20030031660A publication Critical patent/KR20030031660A/ko
Application granted granted Critical
Publication of KR100400226B1 publication Critical patent/KR100400226B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Noise Elimination (AREA)

Abstract

음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을 이용한 잡음 제거 장치 및 방법이 개시된다. 음성 신호의 m번째 프레임에 대해 계산된 제1 ∼ 제Nc(여기서, Nc는 채널의 총수를 의미한다.) 포스트 SNR(신호 대 잡음비)들과 m번째 프레임에 대해 예측된 제1 ∼ 제Nc 예측 SNR들로부터 m번째 프레임에 음성이 부재할 확률인 음성 부재 확률을 계산하는 이 장치는, 제1 ∼ 제Nc 포스트 SNR들과 제1 ∼ 제Nc 예측 SNR들로부터 제1 ∼ 제Nc 가능비들을 생성하여 출력하는 제1 ∼ 제Nc 가능비 생성부들과, 제1 ∼ 제Nc 가능비들을 소정의 어프리어 확률에 각각 승산하고, 승산된 결과들을 출력하는 제1 승산부와, 제1 승산부로부터 입력한 승산된 결과들 각각을 소정값과 가산하고, 가산된 결과들을 출력하는 가산부와, 가산부로부터 입력한 가산된 결과들을 승산하고, 승산된 결과를 출력하는 제2 승산부 및 제2 승산부로부터 입력한 승산된 결과의 역수를 계산하고, 계산된 역수를 음성 부재 확률로서 출력하는 역수 계산부를 구비하는 것을 특징으로 한다. 그러므로, 보다 정확하게 음성 부재 확률을 계산하기 때문에, 잡음을 가질 수 있는 음성 신호로부터 효과적으로 잡음을 제거하여 향상된 음질을 갖는 개선된 음성 신호를 제공할 수 있는 효과를 갖는다.

Description

음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을 이용한 잡음 제거 장치 및 방법{Apparatus and method for computing speech absence probability, apparatus and method for removing noise using the computation appratus and method}
본 발명은 음성 신호 처리에 관한 것으로서, 특히, 음성 부재 확률 (SAP:Speech Absence Probability)을 계산하는 장치 및 방법과 이 장치 및 방법을 이용하여 음성에 존재할 수 있는 잡음을 제거하는 장치 및 방법에 관한 것이다.
음성 부재 확률은 주어진 음성 구간에 음성이 존재하지 않을 확률이며, 이 확률에 근거하여 그 구간에 음성이 존재하거나 존재하지 않는다고 판단할 수 있다. 여기서, 음성이 존재하지 않는다고 판단된 구간은 잡음만 존재한다고 간주되며, 잡음만 존재한다고 간주된 구간에서만 잡음의 분산이 갱신된다. 이 때, 잡음의 분산은 잡음 제거 장치의 성능에 큰 영향을 미치므로, 음성 부재 확률을 보다 정확히 계산하면 효과적으로 잡음을 제거할 수 있다.
음성 향상(Speech enhancement)은 음성 통신 시스템의 입력 또는 출력 신호가 잡음에 의해 오염되어 있을 때 시스템의 성능을 향상시키는 즉, 시스템의 성능에 미치는 잡음의 영향을 최소화하는 것을 의미한다. 음성 향상의 필요성은 사람과 사람간의 통신이나 사람과 기계간의 통신에서 다양한 상황 예를 들면, 통신 채널상에서 잡음의 영향을 받을 때 또는 수신단에서 잡음이 섞일 때에 요구된다. 특히, 잡음에 오염된 입력 음성 신호을 음성 코딩할 때, 음성 인식 시스템의 성능을 향상시킬 때, 전반적인 음성의 품질을 향상시킬 때, 인지도 또는 청취자의 피로를 줄이고자 할 때, 음성을 향상시킬 필요가 있다. 일반적으로, 음성 향상이란, 음성 부재에 대한 불확실성을 갖는 잡음 음성 환경에서 깨끗한 음성 신호를 추정하는 것을 의미한다. 잡음 음성 스펙트럼의 각 주파수 채널에 존재하는 '음성 부재에 대한 불확실성을 이용하는 개념'은 많은 사람들에 의해 음성 향상 시스템의 성능 개선에 적용되어왔다. 여기서, '음성 부재에 대한 불확실성을 이용하는 개념'은 "Speech Enhancement using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator"라는 제목으로 Yariv Ephraim 및 David Malah에 의해 1984년도에 IEEETransactions on Accoustics, Speech, and Signal Processing, Vol. ASSP-32, No. 6 페이지 1109-1121쪽에 발표된 논문에 개시되어 있다. 대부분의 연구에서, 종래의 음성 부재 확률 계산 방식은 다른 주파수 채널과 무관하게 각각의 주파수 채널에 대해서만 국소적으로(locally) 음성 부재 확률을 계산하였다. 그러나, 이러한 종래의 방식은 충분하지 못한 데이터를 이용하기 때문에 음성 향상을 실현할 때 통계적 신뢰성을 저하시키는 문제점을 갖는다.
이를 해결하기 위한 종래의 다른 방식으로서, "Spectral enhancement based on global soft decision"라는 제목으로 N.Kim 및 J. Chang에 의해 2000년도에 IEEE Signal Processing Letters, Vol. 7의 페이지 108-110에 발표된 논문에 개시된 글로벌 소프트 결정(GSD:global soft decision) 방식이 있다. 여기에 개시된 종래의 GSD 방식은 IS-127 표준에서 쓰이는 방법보다 우수함이 검증되었다. 이 GSD 방식은 모든 주파수 채널들의 데이터를 사용하여, 주어진 시간 프레임이 음성 부재 프레임인가 아닌가를 전역적으로(globally) 결정하며, 충분한 양의 데이터를 사용하므로 전술한 종래의 방법보다 통계적 신뢰성을 향상시킬 수 있다. 게다가, 종래의 GSD 방식은 종래의 다른 방법들과 달리 음성 부재 프레임에서 뿐만 아니라 음성 존재 프레임에서도 잡음 음성으로부터 잡음 전력 스펙트럼을 추정하므로, 음성 부재 확률 계산을 보다 정확하게 수행할 수 있고, 스펙트럼 이득 수정과 잡음 스펙트럼 추정 방법에 강인성을 제공한다. 이러한, 종래의 GSD 방식들중 하나가 대한민국 특허 출원 번호 99-36115에 '음성 향상 방법'이라는 제목으로 개시되어 있다. 그러나, 전술한 종래의 GSD 방식은 각 주파수 채널에서 스펙트럼 성분이 독립적이라는정확하지 못한 가정을 사용하였기 때문에, 음성 부재 확률을 정확하게 계산할 수 없고, 잡음 환경에서 효과적으로 잡음을 제거할 수 없는 문제점을 갖는다.
본 발명이 이루고자 하는 제1 기술적 과제는, 각 주파수 대역에서 잡음 구간을 효과적으로 검출하기 위해 사용되며 음성이 존재하지 않을 확률을 나타내는 음성 부재 확률을 정확하게 계산할 수 있는 음성 부재 확률 계산 장치를 제공하는 데 있다.
본 발명이 이루고자 하는 제2 기술적 과제는, 상기 음성 부재 확률 계산 장치에서 음성 부재 확률을 계산하는 음성 부재 확률 계산 방법을 제공하는 데 있다.
본 발명이 이루고자 하는 제3 기술적 과제는, 상기 음성 부재 확률 계산 장치에 의해 구해진 음성 부재 확률을 이용하여 음성에 포함된 잡음을 효과적으로 제거할 수 있는 음성 부재 확률 계산 장치를 이용한 잡음 제거 장치를 제공하는 데 있다.
본 발명이 이루고자 하는 제4 기술적 과제는, 상기 잡음 제거 장치에서 잡음을 제거하는 잡음 제거 방법을 제공하는 데 있다.
도 1은 본 발명에 의한 음성 부재 확률 계산 장치의 블럭도이다.
도 2는 도 1에 도시된 장치에서 수행되는 본 발명에 의한 음성 부재 확률 계산 방법을 설명하기 위한 플로우차트이다.
도 3은 도 1에 도시된 음성 부재 확률 계산 장치를 이용하는 본 발명에 의한 잡음 제거 장치의 블럭도이다.
도 4는 도 3에 도시된 잡음 제거 장치에서 수행되는 본 발명에 의한 잡음 제거 방법을 설명하기 위한 플로우차트이다.
상기 제1 과제를 이루기 위해, 음성 신호의 m번째 프레임에 대해 계산된 제1 ∼ 제Nc(여기서, Nc는 채널의 총수를 의미한다.) 포스트 SNR(신호 대 잡음비)들과 상기 m번째 프레임에 대해 예측된 제1 ∼ 제Nc 예측 SNR들로부터 상기 m번째 프레임에 음성이 부재할 확률인 음성 부재 확률을 계산하는 본 발명에 의한 음성 부재확률 계산 장치는, 상기 제1 ∼ 제Nc 포스트 SNR들과 상기 제1 ∼ 제Nc 예측 SNR들로부터 제1 ∼ 제Nc 가능비들을 생성하여 출력하는 제1 ∼ 제Nc 가능비 생성부들과, 제1 ∼ 제Nc 가능비들을 소정의 어프리어 확률에 각각 승산하고, 승산된 결과들을 출력하는 제1 승산부와, 상기 제1 승산부로부터 입력한 상기 승산된 결과들 각각을 소정값과 가산하고, 가산된 결과들을 출력하는 가산부와, 상기 가산부로부터 입력한 상기 가산된 결과들을 승산하고, 승산된 결과를 출력하는 제2 승산부 및 상기 제2 승산부로부터 입력한 상기 승산된 결과의 역수를 계산하고, 계산된 역수를 상기 음성 부재 확률로서 출력하는 역수 계산부로 구성되는 것이 바람직하다.
상기 제2 과제를 이루기 위해, 제1 항에 있어서, 상기 음성 부재 확률 계산 장치에서 수행되는 본 발명에 의한 음성 부재 확률 계산 방법은, 상기 제1 ∼ 제Nc 포스트 SNR들과 상기 제1 ∼ 제Nc 예측 SNR들로부터 제1 ∼ 제Nc 가능비들을 생성하는 (a) 단계와, 제1 ∼ 제Nc 가능비들을 상기 어프리어 확률에 각각 승산하는 (b) 단계와, 상기 승산된 결과들 각각을 소정값과 가산하는 (c) 단계와, 상기 가산된 결과들을 승산하는 (d) 단계 및 상기 (d) 단계에서 승산된 결과의 역수를 계산하고, 계산된 역수를 상기 음성 부재 확률로서 결정하는 (e) 단계로 이루어지는 것이 바람직하다.
상기 제3 과제를 이루기 위해, 상기 음성 부재 확률을 이용하여 상기 음성 신호로부터 잡음을 제거하는 본 발명에 의한 잡음 제거 장치는, 시간 영역에서 전 처리된 후에 주파수 영역으로 변환되고 잡음을 포함할 수 있는 상기 음성 신호의 상기 포스트 SNR들을 프레임 단위로 계산하여 상기 음성 부재 확률 계산 장치로 출력하는 포스트 SNR 계산부와, 상기 음성 부재 확률, 상기 포스트 SNR들 및 이전 SNR들로부터 프리 SNR들과 상기 포스트 SNR들을 수정하고, 수정된 프리 SNR들과 수정된 포스트 SNR들을 출력하는 SNR 수정부와, 상기 수정된 프리 SNR들과 상기 수정된 포스트 SNR들로부터 각 주파수 채널에 적용될 이득을 계산하고, 계산된 이득을 출력하는 이득 계산부와, 상기 음성 신호와 상기 이득을 승산하고, 승산된 결과를 출력하는 제3 승산부와, 잡음 전력의 추정치와 상기 제3 승산부로부터 입력한 상기 승산된 결과로부터 상기 이전 SNR들을 계산하고, 계산된 상기 이전 SNR들을 상기 SNR 수정부로 출력하는 이전 SNR 계산부와, 상기 음성 신호, 상기 음성 부재 확률 및 상기 예측 SNR들로부터 상기 잡음 전력의 추정치 및 음성 전력의 추정치를 계산하는 음성/잡음 전력 갱신부 및 상기 음성 전력의 추정치와 상기 잡음 전력의 추정치로부터 상기 예측 SNR들을 계산하고, 계산된 상기 예측 SNR들을 상기 음성 부재 확률 계산 장치 및 상기 음성/잡음 전력 갱신부로 각각 출력하는 SNR 예측부로 구성되는 것이 바람직하다.
상기 제4 과제를 이루기 위해, 상기 잡음 제거 장치에서 수행되는 본 발명에 의한 잡음 제거 방법은, 상기 음성 신호의 상기 포스트 SNR들을 프레임 단위로 구하고 상기 (a) 단계로 진행하는 (f) 단계와, 상기 (e) 단계후에, 상기 음성 부재 확률, 상기 포스트 SNR들 및 상기 이전 SNR들을 이용하여 상기 수정된 프리 SNR들과 상기 수정된 포스트 SNR들을 구하는 (g) 단계와, 상기 수정된 프리 SNR들과 상기 수정된 포스트 SNR들을 이용하여 상기 이득을 구하는 (h) 단계와, 상기 음성 신호와 상기 이득을 승산하는 (i) 단계와, 상기 잡음 전력의 추정치와 상기 (i) 단계에서 승산된 결과를 이용하여 상기 이전 SNR들을 구하는 (j) 단계와, 상기 음성 신호, 상기 음성 부재 확률 및 상기 예측 SNR들을 이용하여 상기 잡음 전력의 추정치와 상기 음성 전력의 추정치를 구하는 (k) 단계 및 상기 음성 전력의 추정치와 상기 잡음 전력의 추정치를 이용하여 상기 예측 SNR들을 구하는 (l) 단계로 이루어지는 것이 바람직하다.
이하, 본 발명에 의한 음성 부재 확률 계산 장치의 구성 및 동작과 그 장치에서 수행되는 본 발명에 의한 음성 부재 확률 계산 방법을 첨부된 도면들을 참조하여 다음과 같이 설명한다.
도 1은 본 발명에 의한 음성 부재 확률 계산 장치의 블럭도로서, 제1 ∼ 제Nc 가능비 생성부들(10, 12, ... 및 14), 제1 승산부(20), 가산부(30), 제2 승산부(40) 및 역수 계산부(50)로 구성된다.
도 2는 도 1에 도시된 장치에서 수행되는 본 발명에 의한 음성 부재 확률 계산 방법을 설명하기 위한 플로우차트로서, 생성한 가능비(Likelihood ratio)들 각각과 어프리어 확률(a priori probability)을 승산하는 단계(제60 및 제62 단계들), 승산된 결과들과 소정값을 가산한 결과들을 서로 승산한 후 역수를 취하는 단계(제64 ∼ 제68 단계들)로 이루어진다.
먼저, m번째 프레임에 대해 계산된 제1 ∼ 제Nc(여기서, Nc는 각 프레임에 포함된 채널의 총 수를 의미한다.) 포스트(posteriori) 신호 대 잡음비(SNR:Signal to Noise Ratio)들과 m번째 프레임에 대해 예측된 제1 ∼ 제Nc 예측 SNR들로부터 제1 ∼ 제Nc 가능비들을 생성한다(제60 단계). 이를 위해, 도 1에 도시된 제1,제2, ... 및 제Nc 가능비 생성부들(10, 12, ... 및 14)은 입력단자 IN1을 통해 입력한 제1 ∼ 제Nc 포스트 SNR들과 입력단자 IN2를 통해 입력한 제1 ∼ 제Nc 예측 SNR들로부터 제1 ∼ 제Nc 가능비들을 생성하고, 생성된 제1 ∼ 제Nc 가능비들을 제1 승산부(20)로 출력한다. 예컨데, 제i(1≤i≤Nc) 가능비 생성부(10, 12, ... 또는 14)는 입력단자 IN1 및 IN2를 통해 각각 입력한 다음 수학식 1과 같이 표현되는 제i 포스트 SNR[ξpost]과 다음 수학식 2와 같이 표현되는 제i 예측 SNR[ξpred]을 이용하여 다음 수학식 3과 같이 표현되는 가능비[Λm(i)(Gm(i))]를 계산한다.
,
여기서, Gm(i)는 m번째 프레임의 i번째 채널에 있는 신호의 스펙트럼을 나타내고, Sm(i) 및 Nm(i)은 음성 및 잡음 스펙트럼을 각각 나타내고,는 m번째 프레임의 i번째 채널에서 잡음 전력의 추정치를 나타낸다.
여기서,는 m번째 프레임의 i번째 채널에서 음성 전력의 추정치를 나타낸다.
제60 단계후에, 제1 승산부(20)는 제1 ∼ 제Nc 가능비 생성부들(10, 12, ... 및 14)로부터 입력한 제1 ∼ 제Nc 가능비들 각각을 다음 수학식 4와 같이 표현되는 소정의 어프리어 확률(q)에 승산하고, 승산된 결과들을 가산부(30)로 출력한다(제62 단계).
여기서, p(H1)은 잡음과 음성이 공존할 확률을 나타내고, p(H0)은 잡음만 존재할 확률을 각각 나타낸다. 제62 단계를 수행하기 위해, 제1 승산부(20)는 Nc개의 승산기들(22, 24, ... 및 26)로 구성된다. 제i 승산기(22, 24, ... 또는 26)는 제i 가능비 생성부(10, 12, ... 또는 14)로부터 입력한 가능비[Λm(i)(Gm(i))]와 어프리어 확률(q)을 승산하고, 승산된 결과를 가산부(30)로 출력한다.
제62 단계후에, 가산부(30)는 제1 승산부(20)로부터 입력한 승산된 결과들[qΛm(1)(Gm(1)), qΛm(2)(Gm(2)), ... 및 qΛm(Nc)(Gm(Nc))] 각각을 입력단자 IN3을 통해 입력한 소정값 예를 들면 '1'과 가산하고, 가산된 결과들을 제2 승산부(40)로 출력한다(제64 단계). 이를 위해, 가산부(30)는 제1 ∼ 제Nc 가산기들(32, 34, ... 및 36)로 구성된다. 여기서, 제i 가산기(32, 34, ... 또는 36)는 제i 승산기(22,24, ... 또는 26)로부터 입력한 승산된 결과[qΛm(i)(Gm(i))]와 '1'을 가산하고, 가산된 결과를 제2 승산부(40)로 출력한다.
제64 단계후에, 제2 승산부(40)는 가산부(30)로부터 입력한 가산된 결과들을 승산하고, 승산된 결과를 역수 계산부(50)로 출력한다(제66 단계). 제66 단계후에, 역수 계산부(50)는 제2 승산부(40)로부터 입력한 승산된 결과의 역수를 계산하고, 계산된 역수를 m번째 프레임에 음성이 부재할 확률인 음성 부재 확률[p(HO|G(m)]로서 출력단자 OUT1을 통해 출력한다(제68 단계).
결국, 종래의 방식에 의해 계산된 음성 부재 확률[p(HO|G(m)]은 Gm(1), Gm(2),... 및 Gm(Nc)이 서로 독립적이라는 가정 즉, 각 주파수 채널에서의 스펙트럼 성분이 독립적이라는 가정하에서 다음 수학식 5와 같이 구해진다.
여기서, G(m)은 m번째 프레임의 스펙트럼 성분들을 나타내는 벡터로서, 다음 수학식 6과 같이 표현되고, p(Gm(i)|HO) 및 p(Gm(i)|H1)은 다음 수학식 7과 같이 표현된다.
여기서, λn,m(i) 및 λs,m(i)는 각각 m번째 프레임에서 i번째 채널의 잡음 및 음성의 전력을 의미한다.
반면에, 본 발명에 의해 계산된 음성 부재 확률[p(HO|G(m)]은 음성의 부재 여부가 m번째 프레임에서 각 채널별로 존재한다고 가정하에서 다음 수학식 8과 같이 구해진다.
이하, 전술한 음성 부재 확률 계산 장치 및 방법을 이용하는 본 발명에 의한 잡음 제거 장치의 구성 및 동작과 그 잡음 제거 장치에서 수행되는 본 발명에 의한 잡음 제거 방법을 첨부된 도면들을 참조하여 다음과 같이 설명한다.
도 3은 도 1에 도시된 음성 부재 확률 계산 장치를 이용하는 본 발명에 의한 잡음 제거 장치의 블럭도로서, 포스트 SNR 계산부(80), 음성 부재 확률 계산 장치(82), SNR 수정부(84), 이득 계산부(86), 제3 승산부(88), 이전 SNR 계산부(90), 음성/잡음 전력 갱신부(92) 및 SNR 예측부(94)로 구성된다.
도 4는 도 3에 도시된 잡음 제거 장치에서 수행되는 본 발명에 의한 잡음 제거 방법을 설명하기 위한 플로우차트로서, 포스트 SNR들과 예측 SNR들을 이용하여 음성 부재 확률을 구하는 단계(제110 및 제112 단계들), 수정한 프리 SNR들과 수정한 포스트 SNR들을 이용하여 이득을 구하는 단계(제114 및 제116 단계들), 음성 신호와 이득을 승산하고 이전 SNR을 구하는 단계(제118 및 제120 단계들) 및 음성과 잡음 전력들의 추정치들 및 예측 SNR들을 구하는 단계(제122 및 제124 단계들)로 이루어진다.
먼저, 시간 영역에서 전 처리된 후에 주파수 영역으로 변환되고 잡음을 포함할 수 있는 음성 신호의 포스트 SNR들을 프레임 단위로 구하고, 제60 단계로 진행한다(제110 단계). 이를 위해, 도 3에 도시된 포스트 SNR 계산부(80)는 잡음을 가질 수 있으며 입력단자 IN4를 통해 전 처리부(미도시)로부터 입력되는 음성 신호의 각 프레임에서 Nc개의 포스트 SNR들을 계산하며, 계산된 포스트 SNR들을 음성 부재 확률 계산 장치(82)로 출력한다. 여기서, 전 처리부(미도시)는 잡음이 섞인 음성신호를 프리 엠퍼시스(pre-emphasis)하고, M-포인트 고속 푸리에 변환(M-point Fast Fourier Transform) 한다. 예를 들면, 포스트 SNR 계산부(80)는 m번째 프레임에 대한 제1 ∼ 제Nc 포스트 SNR들중 하나인 제i 포스트 SNR[ξpost(m,i)]을 다음 수학식 9와 같이 구한다.
여기서, Eacc(m,i)는 음성 신호의 프레임들간에 상관성(correlation)을 고려할 때 평활화(smoothing)된 음성 신호의 전력으로서 다음 수학식 10과 같이 표현되고, SNRMIN은 사용자에 의해 사전에 결정되는 포스트 SNR의 최저값을 나타낸다.
여기서, ξacc는 평활화 파라미터를 나타낸다.
제110 단계후에, 음성 부재 확률 계산 장치(82)는 Nc개의 포스트 SNR들과 Nc개의 예측 SNR들을 이용하여 음성 부재 확률을 전술한 바와 같이 구한다(제112 단계). 도 3에 도시된 음성 부재 확률 계산 장치(82)는 도 1에 도시된 음성 부재 확률 장치에 해당하며, 동일한 구성을 갖고 동일한 기능을 수행하며, 도 4에 도시된 제112 단계는 도 2에 도시된 음성 부재 확률 계산 방법과 동일하므로 음성 부재 확률 계산 장치(82) 및 제112 단계에 대한 상세한 설명은 생략한다.
제112 단계후에, SNR 수정부(84)는 도 1 또는 도 3에 도시된 음성 부재 확률 계산 장치(82)로부터 입력한 음성 부재 확률[p(HO|Gm(i)], 포스트 SNR 계산부(80)로부터 입력한 포스트 SNR[ξpost(m,i)]들 및 이전 프레임에 대해 이전 SNR 계산부(90)에서 계산되어 입력되는 이전 SNR[ξprev(m,i)]들을 이용하여 프리 SNR[ξpri(m,i)]들과 포스트 SNR[ξpost(m,i)]들을 수정하고, 다음 수학식 11에 표현된 수정된 프리 SNR[ξ'pri(m,i)]들과 수정된 포스트 SNR[ξ'post(m,i)]들을 이득 계산부(86)로 출력한다(제114 단계).
여기서, 프리 SNR[ξpri(m,i)]은 결정 진행(DD:Decision-Directed) 방식에 의해 다음 수학식 12와 같이 구해질 수 있다.
여기서, 이전 SNR[ξprev(m,i)]은 다음 수학식 13와 같이 표현된다.
여기서,는 m-1번째 프레임에서 음성 전력의 추정치를 의미한다.
제114 단계후에, 이득 계산부(86)는 SNR 수정부(84)로부터 입력한 수정된 프리 SNR[ξ'pri(m,i)]들과 수정된 포스트 SNR[ξ'post(m,i)]들로부터 각 주파수 채널에 적용될 이득[H(m,i)]을 다음 수학식 14와 같이 계산하고, 계산된 이득[H(m,i)]을 제3 승산부(88)로 출력한다(제118 단계).
여기서,는 다음 수학식 15와 같고, I0은 0차의 수정된 베셀 함수(modified Bessel function of zero order)를 의미하고, I1은 1차의 수정된 베셀 함수(modified Bessel function of first order)를 각각 의미한다.
제116 단계후에, 제3 승산부(88)는 입력단자 IN4를 통해 입력된 음성 신호[G(m)]와 이득[H(m)]을 승산하고, 승산된 결과[G(m)H(m)]를 출력단자 OUT2를 통해 잡음이 제거된 즉, 개선된 음성 신호로서 후 처리부(미도시)로 출력한다(제118 단계). 여기서, 후 처리부(미도시)는 개선된 음성 신호를 역 고속 푸리에 변환(IFFT)한 후, 디엠퍼시스(de-emphasis)한다.
제118 단계후에, 이전 SNR 계산부(90)는 m번째 프레임에 대한 잡음 전력의 추정치[]와 제3 승산부(88)로부터 입력한 승산된 결과[]를 이용하여 수학식 13에 표현된 이전 SNR[ξprev(m+1,i)]들을 계산하고, 계산된 이전 SNR[ξprev(m+1,i)]들을 SNR 수정부(84)로 출력한다(제120 단계).
제120 단계후에, 음성/잡음 전력 갱신부(92)는 입력단자 IN4를 통해 입력한 음성 신호[G(m)], 음성 부재 확률 계산부(82)로부터 입력한 음성 부재 확률 및 SNR예측부(94)로부터 입력한 예측 SNR들로부터 잡음 전력의 추정치 및 음성 전력의 추정치를 계산한다(제122 단계). 예컨데, 음성/잡음 전력 갱신부(92)는 m+1번째 프레임에 대한 잡음 전력의 추정치[]를 다음 수학식 16과 같이 구한다.
여기서, ξn은 평활화 파라미터를 나타내고, E[|Nm(i)|2|Gm(i)]는 Gm(i)가 주어질 때 잡음 전력의 기대치로서 GSD 방식에 따라 다음 수학식 17과 같이 구해질 수 있다.
여기서, E[|Nm(i)|2|Gm(i), H0]는 |Gm(i)|2이고, E[|Nm(i)|2|Gm(i),H1]는 다음 수학식 18과 같다.
이 때, 음성/잡음 전력 갱신부(92)는 m+1번째 프레임에 대한 음성 전력의 추정치[]를 다음 수학식 19와 같이 구한다.
여기서, ξs는 평활화 파라미터를 나타내고, E[|Sm(i)|2|Gm(i)]는 Gm(i)가 주어질 때 음성 전력의 기대치로서 GSD 방식에 따라 다음 수학식 20과 같다.
여기서, E[|Sm(i)|2|Gm(i), H0]는 '0'이고, E[|Sm(i)|2|Gm(i), H1]는 다음 수학식 21과 같이 표현된다.
수학식들 18과 21로부터 알 수 있듯이, 음성/잡음 전력 갱신부(92)는 m+1 번째 프레임의 음성 전력의 추정치와 m+1번째 프레임의 잡음 전력의 추정치를 구하기 위해, m번째 프레임의 음성 및 잡음 전력들의 추정치들을 저장함을 알 수 있다.
제122 단계후에, SNR 예측부(94)는 음성/잡음 전력 갱신부(92)로부터 입력한 음성 전력의 추정치와 잡음 전력의 추정치로부터 예측 SNR들을 계산하고, 계산된 예측 SNR들을 음성 부재 확률 계산 장치(82) 및 음성/잡음 전력 갱신부(92)로 각각 출력한다(제124 단계). 예컨데, SNR 예측부(94)는 m+1번째 프레임에 대한 i번째 음성 전력의 추정치[]와 m+1번째 프레임에 대한 i번째 잡음 전력의 추정치[]를 이용하여 m+1번째 프레임에 대한 i번째 채널의 예측 SNR[ξpred(m+1,i)]을 다음 수학식 22와 같이 구한다.
이하, 본 발명에 의해 구한 음성 부재 확률을 이용하여 잡음을 제거한 결과와 종래의 GSD 방식에 의해 잡음을 제거한 결과들을 다음과 같이 비교한다.
ITU-T에서 제공하는 한국어 음성 데이타 베이스를 이용하여 4명의 여자와 4명의 남자에 대해 음성의 음질에 대한 객관적 및 주관적인 평가들을 실시하였다. 이 때, 객관적인 평가 기준으로서, 분할(segmental) SNR을 이용하는 경우, 본 발명에 의해 잡음이 제거된 결과가 종래의 방식에 의해 잡음이 제거된 결과보다 높은 SNR을 제공한다. 또한, 프레임의 크기가 80샘플이고, 주파수 채널의 총 수(Nc)가16이고, p(H0)=0.996 이고, q=0.004 이며, 샘플링 율은 8㎑라고 가정할 때, 주관적인 평가로 실시된 청취 실험(MOS:Mean Opinion Score)의 결과는 다음 표 1과 같다.
잡음의 종류 G(m)의 SNR 잡음을 제거하지 않을 때 종래의 방식으로 잡음을 제거할 때 본 발명에 의한 장치 및 방법으로 잡음을 제거할 때
없음 - 4.47 4.73 4.70
백색 가우시안 10 1.17 2.17 2.27
20 1.41 3.14 3.38
버블 10 2.09 2.73 2.69
20 3.09 3.47 3.52
10 2.19 2.67 2.78
15 2.58 3.06 3.16
20 2.92 3.50 3.61
여기서, 오른쪽 세 개의 열들에 기재된 숫자들은 청취자가 본인의 주관적 기준에 따라 음질을 평가한 정도를 나타내며, 1에서 5 사이의 숫자로서 표현된다. 숫자가 클 수록 평균적으로 음질이 좋다고 청취자들이 평가한 것이다. 10dB의 버블(babble) 잡음을 제외하고, 백색 가우시안(White Gaussian) 잡음, 20dB의 버블 잡음, 카(Car) 잡음에서, 본 발명에 의한 장치 및 방법에 의해 잡음이 제거될 때 더 좋은 음질이 제공됨을 알 수 있다. 따라서, 본 발명에 의한 음성 부재 확률 계산 장치 및 방법이 종래의 GSD 방식보다 더 정확하게 음성 부재 확률을 계산함을 알 수 있다.
이상에서 설명한 바와 같이, 본 발명에 의한 음성 부재 확률 계산 장치 및 방법과 이들을 이용한 잡음 제거 장치 및 방법은 음성 부호화, 음악 부호화, 음질 향상 등 음향 신호의 음질과 관련된 신호 처리 전 분야에 걸쳐 적용될 때, 보다 정확하게 음성 부재 확률을 계산하기 때문에, 잡음을 가질 수 있는 음성 신호로부터 효과적으로 잡음을 제거하여 향상된 음질을 갖는 개선된 음성 신호를 제공할 수 있는 효과를 갖는다.

Claims (4)

  1. 음성 신호의 m번째 프레임에 대해 계산된 제1 ∼ 제Nc(여기서, Nc는 채널의 총수를 의미한다.) 포스트 SNR(신호 대 잡음비)들과 상기 m번째 프레임에 대해 예측된 제1 ∼ 제Nc 예측 SNR들로부터 상기 m번째 프레임에 음성이 부재할 확률인 음성 부재 확률을 계산하는 음성 부재 확률 계산 장치에 있어서,
    상기 제1 ∼ 제Nc 포스트 SNR들과 상기 제1 ∼ 제Nc 예측 SNR들로부터 제1 ∼ 제Nc 가능비들을 생성하여 출력하는 제1 ∼ 제Nc 가능비 생성부들;
    제1 ∼ 제Nc 가능비들을 소정의 어프리어 확률에 각각 승산하고, 승산된 결과들을 출력하는 제1 승산부;
    상기 제1 승산부로부터 입력한 상기 승산된 결과들 각각을 소정값과 가산하고, 가산된 결과들을 출력하는 가산부;
    상기 가산부로부터 입력한 상기 가산된 결과들을 승산하고, 승산된 결과를 출력하는 제2 승산부; 및
    상기 제2 승산부로부터 입력한 상기 승산된 결과의 역수를 계산하고, 계산된 역수를 상기 음성 부재 확률로서 출력하는 역수 계산부를 구비하는 것을 특징으로 하는 음성 부재 확률 계산 장치.
  2. 제1 항에 있어서, 상기 음성 부재 확률 계산 장치에서 수행되는 음성 부재 확률 계산 방법에 있어서,
    (a) 상기 제1 ∼ 제Nc 포스트 SNR들과 상기 제1 ∼ 제Nc 예측 SNR들로부터 제1 ∼ 제Nc 가능비들을 생성하는 단계;
    (b) 제1 ∼ 제Nc 가능비들을 상기 어프리어 확률에 각각 승산하는 단계;
    (c) 상기 승산된 결과들 각각을 소정값과 가산하는 단계;
    (d) 상기 가산된 결과들을 승산하는 단계; 및
    (e) 상기 (d) 단계에서 승산된 결과의 역수를 계산하고, 계산된 역수를 상기 음성 부재 확률로서 결정하는 단계를 구비하는 것을 특징으로 하는 음성 부재 확률 계산 방법.
  3. 제1 항 또는 제2 항에 있어서, 상기 음성 부재 확률을 이용하여 상기 음성 신호로부터 잡음을 제거하는 잡음 제거 장치에 있어서,
    시간 영역에서 전 처리된 후에 주파수 영역으로 변환되고 잡음을 포함할 수 있는 상기 음성 신호의 상기 포스트 SNR들을 프레임 단위로 계산하여 상기 음성 부재 확률 계산 장치로 출력하는 포스트 SNR 계산부;
    상기 음성 부재 확률, 상기 포스트 SNR들 및 이전 SNR들로부터 프리 SNR들과 상기 포스트 SNR들을 수정하고, 수정된 프리 SNR들과 수정된 포스트 SNR들을 출력하는 SNR 수정부;
    상기 수정된 프리 SNR들과 상기 수정된 포스트 SNR들로부터 각 주파수 채널에 적용될 이득을 계산하고, 계산된 이득을 출력하는 이득 계산부;
    상기 음성 신호와 상기 이득을 승산하고, 승산된 결과를 상기 음성 신호에서 상기 잡음이 제거된 결과로서 출력하는 제3 승산부;
    잡음 전력의 추정치와 상기 제3 승산부로부터 입력한 상기 승산된 결과로부터 상기 이전 SNR들을 계산하고, 계산된 상기 이전 SNR들을 상기 SNR 수정부로 출력하는 이전 SNR 계산부;
    상기 음성 신호, 상기 음성 부재 확률 및 상기 예측 SNR들로부터 상기 잡음 전력의 추정치 및 음성 전력의 추정치를 계산하는 음성/잡음 전력 갱신부; 및
    상기 음성 전력의 추정치와 상기 잡음 전력의 추정치로부터 상기 예측 SNR들을 계산하고, 계산된 상기 예측 SNR들을 상기 음성 부재 확률 계산 장치 및 상기 음성/잡음 전력 갱신부로 각각 출력하는 SNR 예측부를 구비하는 것을 특징으로 하는 상기 음성 부재 확률 계산 장치를 이용하는 잡음 제거 장치.
  4. 제3 항에 있어서, 상기 잡음 제거 장치에서 수행되는 잡음 제거 방법에 있어서,
    (f) 상기 음성 신호의 상기 포스트 SNR들을 프레임 단위로 구하고 상기 (a) 단계로 진행하는 단계;
    (g) 상기 (e) 단계후에, 상기 음성 부재 확률, 상기 포스트 SNR들 및 상기 이전 SNR들을 이용하여 상기 수정된 프리 SNR들과 상기 수정된 포스트 SNR들을 구하는 단계;
    (h) 상기 수정된 프리 SNR들과 상기 수정된 포스트 SNR들을 이용하여 상기 이득을 구하는 단계;
    (i) 상기 음성 신호와 상기 이득을 승산하는 단계;
    (j) 상기 잡음 전력의 추정치와 상기 (i) 단계에서 승산된 결과를 이용하여 상기 이전 SNR들을 구하는 단계;
    (k) 상기 음성 신호, 상기 음성 부재 확률 및 상기 예측 SNR들을 이용하여 상기 잡음 전력의 추정치와 상기 음성 전력의 추정치를 구하는 단계; 및
    (l) 상기 음성 전력의 추정치와 상기 잡음 전력의 추정치를 이용하여 상기 예측 SNR들을 구하는 단계를 구비하는 것을 특징으로 하는 잡음 제거 방법.
KR10-2001-0063404A 2001-10-15 2001-10-15 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법 KR100400226B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR10-2001-0063404A KR100400226B1 (ko) 2001-10-15 2001-10-15 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법
US10/253,418 US7080007B2 (en) 2001-10-15 2002-09-25 Apparatus and method for computing speech absence probability, and apparatus and method removing noise using computation apparatus and method
EP02256950A EP1304681B1 (en) 2001-10-15 2002-10-08 Speech absence probability estimation and noise removal
DE60211826T DE60211826T2 (de) 2001-10-15 2002-10-08 Wahrscheinlichkeitsschätzung der Abwesenheit eines Sprachsignals und Geräuschunterdrückung
JP2002299846A JP2003177770A (ja) 2001-10-15 2002-10-15 音声不在確率計算装置及び方法と、この装置及び方法を用いた雑音除去装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2001-0063404A KR100400226B1 (ko) 2001-10-15 2001-10-15 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20030031660A true KR20030031660A (ko) 2003-04-23
KR100400226B1 KR100400226B1 (ko) 2003-10-01

Family

ID=36590817

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-0063404A KR100400226B1 (ko) 2001-10-15 2001-10-15 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법

Country Status (5)

Country Link
US (1) US7080007B2 (ko)
EP (1) EP1304681B1 (ko)
JP (1) JP2003177770A (ko)
KR (1) KR100400226B1 (ko)
DE (1) DE60211826T2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100821177B1 (ko) * 2006-09-29 2008-04-14 한국전자통신연구원 통계적 모델에 기반한 선험적 음성 부재 확률 추정 방법

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100477699B1 (ko) * 2003-01-15 2005-03-18 삼성전자주식회사 양자화 잡음 분포 조절 방법 및 장치
CA2604210C (en) * 2005-04-21 2016-06-28 Srs Labs, Inc. Systems and methods for reducing audio noise
KR100745977B1 (ko) * 2005-09-26 2007-08-06 삼성전자주식회사 음성 구간 검출 장치 및 방법
US7813923B2 (en) * 2005-10-14 2010-10-12 Microsoft Corporation Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
US7565288B2 (en) 2005-12-22 2009-07-21 Microsoft Corporation Spatial noise suppression for a microphone array
US7885810B1 (en) * 2007-05-10 2011-02-08 Mediatek Inc. Acoustic signal enhancement method and apparatus
EP2168122B1 (en) * 2007-07-13 2011-11-30 Dolby Laboratories Licensing Corporation Audio processing using auditory scene analysis and spectral skewness
US9538286B2 (en) * 2011-02-10 2017-01-03 Dolby International Ab Spatial adaptation in multi-microphone sound capture
JP2013148724A (ja) * 2012-01-19 2013-08-01 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
CN104781880B (zh) 2012-09-03 2017-11-28 弗劳恩霍夫应用研究促进协会 用于提供通知的多信道语音存在概率估计的装置和方法
EP3503095A1 (en) * 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
CN106997768B (zh) * 2016-01-25 2019-12-10 电信科学技术研究院 一种语音出现概率的计算方法、装置及电子设备
CN111899752B (zh) * 2020-07-13 2023-01-10 紫光展锐(重庆)科技有限公司 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691087B2 (en) * 1997-11-21 2004-02-10 Sarnoff Corporation Method and apparatus for adaptive speech detection by applying a probabilistic description to the classification and tracking of signal components
JP3310225B2 (ja) * 1998-09-29 2002-08-05 松下電器産業株式会社 雑音レベル時間変動率計算方法及び装置と雑音低減方法及び装置
KR100303477B1 (ko) * 1999-02-19 2001-09-26 성원용 가능성비 검사에 근거한 음성 유무 검출 장치
KR100304666B1 (ko) * 1999-08-28 2001-11-01 윤종용 음성 향상 방법
EP1096471B1 (en) * 1999-10-29 2004-09-22 Telefonaktiebolaget LM Ericsson (publ) Method and means for a robust feature extraction for speech recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100821177B1 (ko) * 2006-09-29 2008-04-14 한국전자통신연구원 통계적 모델에 기반한 선험적 음성 부재 확률 추정 방법

Also Published As

Publication number Publication date
EP1304681B1 (en) 2006-05-31
DE60211826D1 (de) 2006-07-06
DE60211826T2 (de) 2007-05-24
KR100400226B1 (ko) 2003-10-01
US20030101055A1 (en) 2003-05-29
US7080007B2 (en) 2006-07-18
EP1304681A2 (en) 2003-04-23
JP2003177770A (ja) 2003-06-27
EP1304681A3 (en) 2004-04-21

Similar Documents

Publication Publication Date Title
AU696152B2 (en) Spectral subtraction noise suppression method
JP4973873B2 (ja) 残響抑圧の方法、装置及び残響抑圧用プログラム
KR100400226B1 (ko) 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법
US6351731B1 (en) Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US6263307B1 (en) Adaptive weiner filtering using line spectral frequencies
US7313518B2 (en) Noise reduction method and device using two pass filtering
EP1141948B1 (en) Method and apparatus for adaptively suppressing noise
CA2399706C (en) Background noise reduction in sinusoidal based speech coding systems
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及系统
KR100304666B1 (ko) 음성 향상 방법
Arslan et al. New methods for adaptive noise suppression
US20050152563A1 (en) Noise suppression apparatus and method
US20050143988A1 (en) Noise reduction apparatus and noise reducing method
US20210256988A1 (en) Method for Enhancing Telephone Speech Signals Based on Convolutional Neural Networks
EP3685378B1 (en) Signal processor and method for providing a processed audio signal reducing noise and reverberation
JP2013517531A (ja) ノイズ抑制システムのための歪み測定
Ma et al. Speech enhancement using a masking threshold constrained Kalman filter and its heuristic implementations
Kato et al. Noise suppression with high speech quality based on weighted noise estimation and MMSE STSA
Saleem Single channel noise reduction system in low SNR
JP2008219549A (ja) 信号処理の方法、装置、及びプログラム
Ju et al. A perceptually constrained GSVD-based approach for enhancing speech corrupted by colored noise
US7155387B2 (en) Noise spectrum subtraction method and system
EP1748426A2 (en) Method and apparatus for adaptively suppressing noise
CN113870884B (zh) 单麦克风噪声抑制方法和装置
Rustrana et al. Spectral Methods for Single Channel Speech Enhancement in Multi-Source Environment

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120830

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20130829

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee