KR20030031660A

KR20030031660A - 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법

Info

Publication number: KR20030031660A
Application number: KR1020010063404A
Authority: KR
Inventors: 손창용; 신블라드; 김상룡
Original assignee: 삼성전자주식회사
Priority date: 2001-10-15
Filing date: 2001-10-15
Publication date: 2003-04-23
Also published as: EP1304681B1; DE60211826D1; DE60211826T2; KR100400226B1; US20030101055A1; US7080007B2; EP1304681A2; JP2003177770A; EP1304681A3

Abstract

음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을 이용한 잡음 제거 장치 및 방법이 개시된다. 음성 신호의 m번째 프레임에 대해 계산된 제1 ∼ 제Nc(여기서, Nc는 채널의 총수를 의미한다.) 포스트 SNR(신호 대 잡음비)들과 m번째 프레임에 대해 예측된 제1 ∼ 제Nc 예측 SNR들로부터 m번째 프레임에 음성이 부재할 확률인 음성 부재 확률을 계산하는 이 장치는, 제1 ∼ 제Nc 포스트 SNR들과 제1 ∼ 제Nc 예측 SNR들로부터 제1 ∼ 제Nc 가능비들을 생성하여 출력하는 제1 ∼ 제Nc 가능비 생성부들과, 제1 ∼ 제Nc 가능비들을 소정의 어프리어 확률에 각각 승산하고, 승산된 결과들을 출력하는 제1 승산부와, 제1 승산부로부터 입력한 승산된 결과들 각각을 소정값과 가산하고, 가산된 결과들을 출력하는 가산부와, 가산부로부터 입력한 가산된 결과들을 승산하고, 승산된 결과를 출력하는 제2 승산부 및 제2 승산부로부터 입력한 승산된 결과의 역수를 계산하고, 계산된 역수를 음성 부재 확률로서 출력하는 역수 계산부를 구비하는 것을 특징으로 한다. 그러므로, 보다 정확하게 음성 부재 확률을 계산하기 때문에, 잡음을 가질 수 있는 음성 신호로부터 효과적으로 잡음을 제거하여 향상된 음질을 갖는 개선된 음성 신호를 제공할 수 있는 효과를 갖는다.

Description

음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을 이용한 잡음 제거 장치 및 방법{Apparatus and method for computing speech absence probability, apparatus and method for removing noise using the computation appratus and method}

본 발명은 음성 신호 처리에 관한 것으로서, 특히, 음성 부재 확률 (SAP:Speech Absence Probability)을 계산하는 장치 및 방법과 이 장치 및 방법을 이용하여 음성에 존재할 수 있는 잡음을 제거하는 장치 및 방법에 관한 것이다.

음성 부재 확률은 주어진 음성 구간에 음성이 존재하지 않을 확률이며, 이 확률에 근거하여 그 구간에 음성이 존재하거나 존재하지 않는다고 판단할 수 있다. 여기서, 음성이 존재하지 않는다고 판단된 구간은 잡음만 존재한다고 간주되며, 잡음만 존재한다고 간주된 구간에서만 잡음의 분산이 갱신된다. 이 때, 잡음의 분산은 잡음 제거 장치의 성능에 큰 영향을 미치므로, 음성 부재 확률을 보다 정확히 계산하면 효과적으로 잡음을 제거할 수 있다.

음성 향상(Speech enhancement)은 음성 통신 시스템의 입력 또는 출력 신호가 잡음에 의해 오염되어 있을 때 시스템의 성능을 향상시키는 즉, 시스템의 성능에 미치는 잡음의 영향을 최소화하는 것을 의미한다. 음성 향상의 필요성은 사람과 사람간의 통신이나 사람과 기계간의 통신에서 다양한 상황 예를 들면, 통신 채널상에서 잡음의 영향을 받을 때 또는 수신단에서 잡음이 섞일 때에 요구된다. 특히, 잡음에 오염된 입력 음성 신호을 음성 코딩할 때, 음성 인식 시스템의 성능을 향상시킬 때, 전반적인 음성의 품질을 향상시킬 때, 인지도 또는 청취자의 피로를 줄이고자 할 때, 음성을 향상시킬 필요가 있다. 일반적으로, 음성 향상이란, 음성 부재에 대한 불확실성을 갖는 잡음 음성 환경에서 깨끗한 음성 신호를 추정하는 것을 의미한다. 잡음 음성 스펙트럼의 각 주파수 채널에 존재하는 '음성 부재에 대한 불확실성을 이용하는 개념'은 많은 사람들에 의해 음성 향상 시스템의 성능 개선에 적용되어왔다. 여기서, '음성 부재에 대한 불확실성을 이용하는 개념'은 "Speech Enhancement using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator"라는 제목으로 Yariv Ephraim 및 David Malah에 의해 1984년도에 IEEETransactions on Accoustics, Speech, and Signal Processing, Vol. ASSP-32, No. 6 페이지 1109-1121쪽에 발표된 논문에 개시되어 있다. 대부분의 연구에서, 종래의 음성 부재 확률 계산 방식은 다른 주파수 채널과 무관하게 각각의 주파수 채널에 대해서만 국소적으로(locally) 음성 부재 확률을 계산하였다. 그러나, 이러한 종래의 방식은 충분하지 못한 데이터를 이용하기 때문에 음성 향상을 실현할 때 통계적 신뢰성을 저하시키는 문제점을 갖는다.

이를 해결하기 위한 종래의 다른 방식으로서, "Spectral enhancement based on global soft decision"라는 제목으로 N.Kim 및 J. Chang에 의해 2000년도에 IEEE Signal Processing Letters, Vol. 7의 페이지 108-110에 발표된 논문에 개시된 글로벌 소프트 결정(GSD:global soft decision) 방식이 있다. 여기에 개시된 종래의 GSD 방식은 IS-127 표준에서 쓰이는 방법보다 우수함이 검증되었다. 이 GSD 방식은 모든 주파수 채널들의 데이터를 사용하여, 주어진 시간 프레임이 음성 부재 프레임인가 아닌가를 전역적으로(globally) 결정하며, 충분한 양의 데이터를 사용하므로 전술한 종래의 방법보다 통계적 신뢰성을 향상시킬 수 있다. 게다가, 종래의 GSD 방식은 종래의 다른 방법들과 달리 음성 부재 프레임에서 뿐만 아니라 음성 존재 프레임에서도 잡음 음성으로부터 잡음 전력 스펙트럼을 추정하므로, 음성 부재 확률 계산을 보다 정확하게 수행할 수 있고, 스펙트럼 이득 수정과 잡음 스펙트럼 추정 방법에 강인성을 제공한다. 이러한, 종래의 GSD 방식들중 하나가 대한민국 특허 출원 번호 99-36115에 '음성 향상 방법'이라는 제목으로 개시되어 있다. 그러나, 전술한 종래의 GSD 방식은 각 주파수 채널에서 스펙트럼 성분이 독립적이라는정확하지 못한 가정을 사용하였기 때문에, 음성 부재 확률을 정확하게 계산할 수 없고, 잡음 환경에서 효과적으로 잡음을 제거할 수 없는 문제점을 갖는다.

본 발명이 이루고자 하는 제1 기술적 과제는, 각 주파수 대역에서 잡음 구간을 효과적으로 검출하기 위해 사용되며 음성이 존재하지 않을 확률을 나타내는 음성 부재 확률을 정확하게 계산할 수 있는 음성 부재 확률 계산 장치를 제공하는 데 있다.

본 발명이 이루고자 하는 제2 기술적 과제는, 상기 음성 부재 확률 계산 장치에서 음성 부재 확률을 계산하는 음성 부재 확률 계산 방법을 제공하는 데 있다.

본 발명이 이루고자 하는 제3 기술적 과제는, 상기 음성 부재 확률 계산 장치에 의해 구해진 음성 부재 확률을 이용하여 음성에 포함된 잡음을 효과적으로 제거할 수 있는 음성 부재 확률 계산 장치를 이용한 잡음 제거 장치를 제공하는 데 있다.

본 발명이 이루고자 하는 제4 기술적 과제는, 상기 잡음 제거 장치에서 잡음을 제거하는 잡음 제거 방법을 제공하는 데 있다.

도 1은 본 발명에 의한 음성 부재 확률 계산 장치의 블럭도이다.

도 2는 도 1에 도시된 장치에서 수행되는 본 발명에 의한 음성 부재 확률 계산 방법을 설명하기 위한 플로우차트이다.

도 3은 도 1에 도시된 음성 부재 확률 계산 장치를 이용하는 본 발명에 의한 잡음 제거 장치의 블럭도이다.

도 4는 도 3에 도시된 잡음 제거 장치에서 수행되는 본 발명에 의한 잡음 제거 방법을 설명하기 위한 플로우차트이다.

상기 제1 과제를 이루기 위해, 음성 신호의 m번째 프레임에 대해 계산된 제1 ∼ 제Nc(여기서, Nc는 채널의 총수를 의미한다.) 포스트 SNR(신호 대 잡음비)들과 상기 m번째 프레임에 대해 예측된 제1 ∼ 제Nc 예측 SNR들로부터 상기 m번째 프레임에 음성이 부재할 확률인 음성 부재 확률을 계산하는 본 발명에 의한 음성 부재확률 계산 장치는, 상기 제1 ∼ 제Nc 포스트 SNR들과 상기 제1 ∼ 제Nc 예측 SNR들로부터 제1 ∼ 제Nc 가능비들을 생성하여 출력하는 제1 ∼ 제Nc 가능비 생성부들과, 제1 ∼ 제Nc 가능비들을 소정의 어프리어 확률에 각각 승산하고, 승산된 결과들을 출력하는 제1 승산부와, 상기 제1 승산부로부터 입력한 상기 승산된 결과들 각각을 소정값과 가산하고, 가산된 결과들을 출력하는 가산부와, 상기 가산부로부터 입력한 상기 가산된 결과들을 승산하고, 승산된 결과를 출력하는 제2 승산부 및 상기 제2 승산부로부터 입력한 상기 승산된 결과의 역수를 계산하고, 계산된 역수를 상기 음성 부재 확률로서 출력하는 역수 계산부로 구성되는 것이 바람직하다.

상기 제2 과제를 이루기 위해, 제1 항에 있어서, 상기 음성 부재 확률 계산 장치에서 수행되는 본 발명에 의한 음성 부재 확률 계산 방법은, 상기 제1 ∼ 제Nc 포스트 SNR들과 상기 제1 ∼ 제Nc 예측 SNR들로부터 제1 ∼ 제Nc 가능비들을 생성하는 (a) 단계와, 제1 ∼ 제Nc 가능비들을 상기 어프리어 확률에 각각 승산하는 (b) 단계와, 상기 승산된 결과들 각각을 소정값과 가산하는 (c) 단계와, 상기 가산된 결과들을 승산하는 (d) 단계 및 상기 (d) 단계에서 승산된 결과의 역수를 계산하고, 계산된 역수를 상기 음성 부재 확률로서 결정하는 (e) 단계로 이루어지는 것이 바람직하다.

상기 제3 과제를 이루기 위해, 상기 음성 부재 확률을 이용하여 상기 음성 신호로부터 잡음을 제거하는 본 발명에 의한 잡음 제거 장치는, 시간 영역에서 전 처리된 후에 주파수 영역으로 변환되고 잡음을 포함할 수 있는 상기 음성 신호의 상기 포스트 SNR들을 프레임 단위로 계산하여 상기 음성 부재 확률 계산 장치로 출력하는 포스트 SNR 계산부와, 상기 음성 부재 확률, 상기 포스트 SNR들 및 이전 SNR들로부터 프리 SNR들과 상기 포스트 SNR들을 수정하고, 수정된 프리 SNR들과 수정된 포스트 SNR들을 출력하는 SNR 수정부와, 상기 수정된 프리 SNR들과 상기 수정된 포스트 SNR들로부터 각 주파수 채널에 적용될 이득을 계산하고, 계산된 이득을 출력하는 이득 계산부와, 상기 음성 신호와 상기 이득을 승산하고, 승산된 결과를 출력하는 제3 승산부와, 잡음 전력의 추정치와 상기 제3 승산부로부터 입력한 상기 승산된 결과로부터 상기 이전 SNR들을 계산하고, 계산된 상기 이전 SNR들을 상기 SNR 수정부로 출력하는 이전 SNR 계산부와, 상기 음성 신호, 상기 음성 부재 확률 및 상기 예측 SNR들로부터 상기 잡음 전력의 추정치 및 음성 전력의 추정치를 계산하는 음성/잡음 전력 갱신부 및 상기 음성 전력의 추정치와 상기 잡음 전력의 추정치로부터 상기 예측 SNR들을 계산하고, 계산된 상기 예측 SNR들을 상기 음성 부재 확률 계산 장치 및 상기 음성/잡음 전력 갱신부로 각각 출력하는 SNR 예측부로 구성되는 것이 바람직하다.

상기 제4 과제를 이루기 위해, 상기 잡음 제거 장치에서 수행되는 본 발명에 의한 잡음 제거 방법은, 상기 음성 신호의 상기 포스트 SNR들을 프레임 단위로 구하고 상기 (a) 단계로 진행하는 (f) 단계와, 상기 (e) 단계후에, 상기 음성 부재 확률, 상기 포스트 SNR들 및 상기 이전 SNR들을 이용하여 상기 수정된 프리 SNR들과 상기 수정된 포스트 SNR들을 구하는 (g) 단계와, 상기 수정된 프리 SNR들과 상기 수정된 포스트 SNR들을 이용하여 상기 이득을 구하는 (h) 단계와, 상기 음성 신호와 상기 이득을 승산하는 (i) 단계와, 상기 잡음 전력의 추정치와 상기 (i) 단계에서 승산된 결과를 이용하여 상기 이전 SNR들을 구하는 (j) 단계와, 상기 음성 신호, 상기 음성 부재 확률 및 상기 예측 SNR들을 이용하여 상기 잡음 전력의 추정치와 상기 음성 전력의 추정치를 구하는 (k) 단계 및 상기 음성 전력의 추정치와 상기 잡음 전력의 추정치를 이용하여 상기 예측 SNR들을 구하는 (l) 단계로 이루어지는 것이 바람직하다.

이하, 본 발명에 의한 음성 부재 확률 계산 장치의 구성 및 동작과 그 장치에서 수행되는 본 발명에 의한 음성 부재 확률 계산 방법을 첨부된 도면들을 참조하여 다음과 같이 설명한다.

도 1은 본 발명에 의한 음성 부재 확률 계산 장치의 블럭도로서, 제1 ∼ 제Nc 가능비 생성부들(10, 12, ... 및 14), 제1 승산부(20), 가산부(30), 제2 승산부(40) 및 역수 계산부(50)로 구성된다.

도 2는 도 1에 도시된 장치에서 수행되는 본 발명에 의한 음성 부재 확률 계산 방법을 설명하기 위한 플로우차트로서, 생성한 가능비(Likelihood ratio)들 각각과 어프리어 확률(a priori probability)을 승산하는 단계(제60 및 제62 단계들), 승산된 결과들과 소정값을 가산한 결과들을 서로 승산한 후 역수를 취하는 단계(제64 ∼ 제68 단계들)로 이루어진다.

먼저, m번째 프레임에 대해 계산된 제1 ∼ 제Nc(여기서, Nc는 각 프레임에 포함된 채널의 총 수를 의미한다.) 포스트(posteriori) 신호 대 잡음비(SNR:Signal to Noise Ratio)들과 m번째 프레임에 대해 예측된 제1 ∼ 제Nc 예측 SNR들로부터 제1 ∼ 제Nc 가능비들을 생성한다(제60 단계). 이를 위해, 도 1에 도시된 제1,제2, ... 및 제Nc 가능비 생성부들(10, 12, ... 및 14)은 입력단자 IN1을 통해 입력한 제1 ∼ 제Nc 포스트 SNR들과 입력단자 IN2를 통해 입력한 제1 ∼ 제Nc 예측 SNR들로부터 제1 ∼ 제Nc 가능비들을 생성하고, 생성된 제1 ∼ 제Nc 가능비들을 제1 승산부(20)로 출력한다. 예컨데, 제i(1≤i≤Nc) 가능비 생성부(10, 12, ... 또는 14)는 입력단자 IN1 및 IN2를 통해 각각 입력한 다음 수학식 1과 같이 표현되는 제i 포스트 SNR[ξ_post]과 다음 수학식 2와 같이 표현되는 제i 예측 SNR[ξ_pred]을 이용하여 다음 수학식 3과 같이 표현되는 가능비[Λ_m(i)(G_m(i))]를 계산한다.

,

여기서, G_m(i)는 m번째 프레임의 i번째 채널에 있는 신호의 스펙트럼을 나타내고, S_m(i) 및 N_m(i)은 음성 및 잡음 스펙트럼을 각각 나타내고,는 m번째 프레임의 i번째 채널에서 잡음 전력의 추정치를 나타낸다.

여기서,는 m번째 프레임의 i번째 채널에서 음성 전력의 추정치를 나타낸다.

제60 단계후에, 제1 승산부(20)는 제1 ∼ 제Nc 가능비 생성부들(10, 12, ... 및 14)로부터 입력한 제1 ∼ 제Nc 가능비들 각각을 다음 수학식 4와 같이 표현되는 소정의 어프리어 확률(q)에 승산하고, 승산된 결과들을 가산부(30)로 출력한다(제62 단계).

여기서, p(H₁)은 잡음과 음성이 공존할 확률을 나타내고, p(H₀)은 잡음만 존재할 확률을 각각 나타낸다. 제62 단계를 수행하기 위해, 제1 승산부(20)는 Nc개의 승산기들(22, 24, ... 및 26)로 구성된다. 제i 승산기(22, 24, ... 또는 26)는 제i 가능비 생성부(10, 12, ... 또는 14)로부터 입력한 가능비[Λ_m(i)(G_m(i))]와 어프리어 확률(q)을 승산하고, 승산된 결과를 가산부(30)로 출력한다.

제62 단계후에, 가산부(30)는 제1 승산부(20)로부터 입력한 승산된 결과들[qΛ_m(1)(G_m(1)), qΛ_m(2)(G_m(2)), ... 및 qΛ_m(Nc)(G_m(Nc))] 각각을 입력단자 IN3을 통해 입력한 소정값 예를 들면 '1'과 가산하고, 가산된 결과들을 제2 승산부(40)로 출력한다(제64 단계). 이를 위해, 가산부(30)는 제1 ∼ 제Nc 가산기들(32, 34, ... 및 36)로 구성된다. 여기서, 제i 가산기(32, 34, ... 또는 36)는 제i 승산기(22,24, ... 또는 26)로부터 입력한 승산된 결과[qΛ_m(i)(G_m(i))]와 '1'을 가산하고, 가산된 결과를 제2 승산부(40)로 출력한다.

제64 단계후에, 제2 승산부(40)는 가산부(30)로부터 입력한 가산된 결과들을 승산하고, 승산된 결과를 역수 계산부(50)로 출력한다(제66 단계). 제66 단계후에, 역수 계산부(50)는 제2 승산부(40)로부터 입력한 승산된 결과의 역수를 계산하고, 계산된 역수를 m번째 프레임에 음성이 부재할 확률인 음성 부재 확률[p(H_O｜G(m)]로서 출력단자 OUT1을 통해 출력한다(제68 단계).

결국, 종래의 방식에 의해 계산된 음성 부재 확률[p(H_O｜G(m)]은 G_m(1), G_m(2),... 및 G_m(Nc)이 서로 독립적이라는 가정 즉, 각 주파수 채널에서의 스펙트럼 성분이 독립적이라는 가정하에서 다음 수학식 5와 같이 구해진다.

여기서, G(m)은 m번째 프레임의 스펙트럼 성분들을 나타내는 벡터로서, 다음 수학식 6과 같이 표현되고, p(G_m(i)｜H_O) 및 p(G_m(i)｜H₁)은 다음 수학식 7과 같이 표현된다.

여기서, λ_n,m(i) 및 λ_s,m(i)는 각각 m번째 프레임에서 i번째 채널의 잡음 및 음성의 전력을 의미한다.

반면에, 본 발명에 의해 계산된 음성 부재 확률[p(H_O｜G(m)]은 음성의 부재 여부가 m번째 프레임에서 각 채널별로 존재한다고 가정하에서 다음 수학식 8과 같이 구해진다.

이하, 전술한 음성 부재 확률 계산 장치 및 방법을 이용하는 본 발명에 의한 잡음 제거 장치의 구성 및 동작과 그 잡음 제거 장치에서 수행되는 본 발명에 의한 잡음 제거 방법을 첨부된 도면들을 참조하여 다음과 같이 설명한다.

도 3은 도 1에 도시된 음성 부재 확률 계산 장치를 이용하는 본 발명에 의한 잡음 제거 장치의 블럭도로서, 포스트 SNR 계산부(80), 음성 부재 확률 계산 장치(82), SNR 수정부(84), 이득 계산부(86), 제3 승산부(88), 이전 SNR 계산부(90), 음성/잡음 전력 갱신부(92) 및 SNR 예측부(94)로 구성된다.

도 4는 도 3에 도시된 잡음 제거 장치에서 수행되는 본 발명에 의한 잡음 제거 방법을 설명하기 위한 플로우차트로서, 포스트 SNR들과 예측 SNR들을 이용하여 음성 부재 확률을 구하는 단계(제110 및 제112 단계들), 수정한 프리 SNR들과 수정한 포스트 SNR들을 이용하여 이득을 구하는 단계(제114 및 제116 단계들), 음성 신호와 이득을 승산하고 이전 SNR을 구하는 단계(제118 및 제120 단계들) 및 음성과 잡음 전력들의 추정치들 및 예측 SNR들을 구하는 단계(제122 및 제124 단계들)로 이루어진다.

먼저, 시간 영역에서 전 처리된 후에 주파수 영역으로 변환되고 잡음을 포함할 수 있는 음성 신호의 포스트 SNR들을 프레임 단위로 구하고, 제60 단계로 진행한다(제110 단계). 이를 위해, 도 3에 도시된 포스트 SNR 계산부(80)는 잡음을 가질 수 있으며 입력단자 IN4를 통해 전 처리부(미도시)로부터 입력되는 음성 신호의 각 프레임에서 Nc개의 포스트 SNR들을 계산하며, 계산된 포스트 SNR들을 음성 부재 확률 계산 장치(82)로 출력한다. 여기서, 전 처리부(미도시)는 잡음이 섞인 음성신호를 프리 엠퍼시스(pre-emphasis)하고, M-포인트 고속 푸리에 변환(M-point Fast Fourier Transform) 한다. 예를 들면, 포스트 SNR 계산부(80)는 m번째 프레임에 대한 제1 ∼ 제Nc 포스트 SNR들중 하나인 제i 포스트 SNR[ξ_post(m,i)]을 다음 수학식 9와 같이 구한다.

여기서, E_acc(m,i)는 음성 신호의 프레임들간에 상관성(correlation)을 고려할 때 평활화(smoothing)된 음성 신호의 전력으로서 다음 수학식 10과 같이 표현되고, SNR_MIN은 사용자에 의해 사전에 결정되는 포스트 SNR의 최저값을 나타낸다.

여기서, ξ_acc는 평활화 파라미터를 나타낸다.

제110 단계후에, 음성 부재 확률 계산 장치(82)는 Nc개의 포스트 SNR들과 Nc개의 예측 SNR들을 이용하여 음성 부재 확률을 전술한 바와 같이 구한다(제112 단계). 도 3에 도시된 음성 부재 확률 계산 장치(82)는 도 1에 도시된 음성 부재 확률 장치에 해당하며, 동일한 구성을 갖고 동일한 기능을 수행하며, 도 4에 도시된 제112 단계는 도 2에 도시된 음성 부재 확률 계산 방법과 동일하므로 음성 부재 확률 계산 장치(82) 및 제112 단계에 대한 상세한 설명은 생략한다.

제112 단계후에, SNR 수정부(84)는 도 1 또는 도 3에 도시된 음성 부재 확률 계산 장치(82)로부터 입력한 음성 부재 확률[p(H_O｜G_m(i)], 포스트 SNR 계산부(80)로부터 입력한 포스트 SNR[ξ_post(m,i)]들 및 이전 프레임에 대해 이전 SNR 계산부(90)에서 계산되어 입력되는 이전 SNR[ξ_prev(m,i)]들을 이용하여 프리 SNR[ξ_pri(m,i)]들과 포스트 SNR[ξ_post(m,i)]들을 수정하고, 다음 수학식 11에 표현된 수정된 프리 SNR[ξ'_pri(m,i)]들과 수정된 포스트 SNR[ξ'_post(m,i)]들을 이득 계산부(86)로 출력한다(제114 단계).

여기서, 프리 SNR[ξ_pri(m,i)]은 결정 진행(DD:Decision-Directed) 방식에 의해 다음 수학식 12와 같이 구해질 수 있다.

여기서, 이전 SNR[ξ_prev(m,i)]은 다음 수학식 13와 같이 표현된다.

여기서,는 m-1번째 프레임에서 음성 전력의 추정치를 의미한다.

제114 단계후에, 이득 계산부(86)는 SNR 수정부(84)로부터 입력한 수정된 프리 SNR[ξ'_pri(m,i)]들과 수정된 포스트 SNR[ξ'_post(m,i)]들로부터 각 주파수 채널에 적용될 이득[H(m,i)]을 다음 수학식 14와 같이 계산하고, 계산된 이득[H(m,i)]을 제3 승산부(88)로 출력한다(제118 단계).

여기서,와는 다음 수학식 15와 같고, I₀은 0차의 수정된 베셀 함수(modified Bessel function of zero order)를 의미하고, I₁은 1차의 수정된 베셀 함수(modified Bessel function of first order)를 각각 의미한다.

제116 단계후에, 제3 승산부(88)는 입력단자 IN4를 통해 입력된 음성 신호[G(m)]와 이득[H(m)]을 승산하고, 승산된 결과[G(m)H(m)]를 출력단자 OUT2를 통해 잡음이 제거된 즉, 개선된 음성 신호로서 후 처리부(미도시)로 출력한다(제118 단계). 여기서, 후 처리부(미도시)는 개선된 음성 신호를 역 고속 푸리에 변환(IFFT)한 후, 디엠퍼시스(de-emphasis)한다.

제118 단계후에, 이전 SNR 계산부(90)는 m번째 프레임에 대한 잡음 전력의 추정치[]와 제3 승산부(88)로부터 입력한 승산된 결과[]를 이용하여 수학식 13에 표현된 이전 SNR[ξ_prev(m+1,i)]들을 계산하고, 계산된 이전 SNR[ξ_prev(m+1,i)]들을 SNR 수정부(84)로 출력한다(제120 단계).

제120 단계후에, 음성/잡음 전력 갱신부(92)는 입력단자 IN4를 통해 입력한 음성 신호[G(m)], 음성 부재 확률 계산부(82)로부터 입력한 음성 부재 확률 및 SNR예측부(94)로부터 입력한 예측 SNR들로부터 잡음 전력의 추정치 및 음성 전력의 추정치를 계산한다(제122 단계). 예컨데, 음성/잡음 전력 갱신부(92)는 m+1번째 프레임에 대한 잡음 전력의 추정치[]를 다음 수학식 16과 같이 구한다.

여기서, ξ_n은 평활화 파라미터를 나타내고, E[｜N_m(i)｜²｜G_m(i)]는 Gm(i)가 주어질 때 잡음 전력의 기대치로서 GSD 방식에 따라 다음 수학식 17과 같이 구해질 수 있다.

여기서, E[｜N_m(i)｜²｜G_m(i), H₀]는 ｜G_m(i)｜²이고, E[｜N_m(i)｜²｜G_m(i),H₁]는 다음 수학식 18과 같다.

이 때, 음성/잡음 전력 갱신부(92)는 m+1번째 프레임에 대한 음성 전력의 추정치[]를 다음 수학식 19와 같이 구한다.

여기서, ξ_s는 평활화 파라미터를 나타내고, E[｜S_m(i)｜²｜G_m(i)]는 G_m(i)가 주어질 때 음성 전력의 기대치로서 GSD 방식에 따라 다음 수학식 20과 같다.

여기서, E[｜S_m(i)｜²｜G_m(i), H₀]는 '0'이고, E[｜S_m(i)｜²｜G_m(i), H₁]는 다음 수학식 21과 같이 표현된다.

수학식들 18과 21로부터 알 수 있듯이, 음성/잡음 전력 갱신부(92)는 m+1 번째 프레임의 음성 전력의 추정치와 m+1번째 프레임의 잡음 전력의 추정치를 구하기 위해, m번째 프레임의 음성 및 잡음 전력들의 추정치들을 저장함을 알 수 있다.

제122 단계후에, SNR 예측부(94)는 음성/잡음 전력 갱신부(92)로부터 입력한 음성 전력의 추정치와 잡음 전력의 추정치로부터 예측 SNR들을 계산하고, 계산된 예측 SNR들을 음성 부재 확률 계산 장치(82) 및 음성/잡음 전력 갱신부(92)로 각각 출력한다(제124 단계). 예컨데, SNR 예측부(94)는 m+1번째 프레임에 대한 i번째 음성 전력의 추정치[]와 m+1번째 프레임에 대한 i번째 잡음 전력의 추정치[]를 이용하여 m+1번째 프레임에 대한 i번째 채널의 예측 SNR[ξ_pred(m+1,i)]을 다음 수학식 22와 같이 구한다.

이하, 본 발명에 의해 구한 음성 부재 확률을 이용하여 잡음을 제거한 결과와 종래의 GSD 방식에 의해 잡음을 제거한 결과들을 다음과 같이 비교한다.

ITU-T에서 제공하는 한국어 음성 데이타 베이스를 이용하여 4명의 여자와 4명의 남자에 대해 음성의 음질에 대한 객관적 및 주관적인 평가들을 실시하였다. 이 때, 객관적인 평가 기준으로서, 분할(segmental) SNR을 이용하는 경우, 본 발명에 의해 잡음이 제거된 결과가 종래의 방식에 의해 잡음이 제거된 결과보다 높은 SNR을 제공한다. 또한, 프레임의 크기가 80샘플이고, 주파수 채널의 총 수(Nc)가16이고, p(H₀)=0.996 이고, q=0.004 이며, 샘플링 율은 8㎑라고 가정할 때, 주관적인 평가로 실시된 청취 실험(MOS:Mean Opinion Score)의 결과는 다음 표 1과 같다.

잡음의 종류	G(m)의 SNR	잡음을 제거하지 않을 때	종래의 방식으로 잡음을 제거할 때	본 발명에 의한 장치 및 방법으로 잡음을 제거할 때
없음	-	4.47	4.73	4.70
백색 가우시안	10	1.17	2.17	2.27
백색 가우시안	20	1.41	3.14	3.38
버블	10	2.09	2.73	2.69
버블	20	3.09	3.47	3.52
카	10	2.19	2.67	2.78
	15	2.58	3.06	3.16
	20	2.92	3.50	3.61

여기서, 오른쪽 세 개의 열들에 기재된 숫자들은 청취자가 본인의 주관적 기준에 따라 음질을 평가한 정도를 나타내며, 1에서 5 사이의 숫자로서 표현된다. 숫자가 클 수록 평균적으로 음질이 좋다고 청취자들이 평가한 것이다. 10dB의 버블(babble) 잡음을 제외하고, 백색 가우시안(White Gaussian) 잡음, 20dB의 버블 잡음, 카(Car) 잡음에서, 본 발명에 의한 장치 및 방법에 의해 잡음이 제거될 때 더 좋은 음질이 제공됨을 알 수 있다. 따라서, 본 발명에 의한 음성 부재 확률 계산 장치 및 방법이 종래의 GSD 방식보다 더 정확하게 음성 부재 확률을 계산함을 알 수 있다.

이상에서 설명한 바와 같이, 본 발명에 의한 음성 부재 확률 계산 장치 및 방법과 이들을 이용한 잡음 제거 장치 및 방법은 음성 부호화, 음악 부호화, 음질 향상 등 음향 신호의 음질과 관련된 신호 처리 전 분야에 걸쳐 적용될 때, 보다 정확하게 음성 부재 확률을 계산하기 때문에, 잡음을 가질 수 있는 음성 신호로부터 효과적으로 잡음을 제거하여 향상된 음질을 갖는 개선된 음성 신호를 제공할 수 있는 효과를 갖는다.

Claims

음성 신호의 m번째 프레임에 대해 계산된 제1 ∼ 제Nc(여기서, Nc는 채널의 총수를 의미한다.) 포스트 SNR(신호 대 잡음비)들과 상기 m번째 프레임에 대해 예측된 제1 ∼ 제Nc 예측 SNR들로부터 상기 m번째 프레임에 음성이 부재할 확률인 음성 부재 확률을 계산하는 음성 부재 확률 계산 장치에 있어서,

상기 제1 ∼ 제Nc 포스트 SNR들과 상기 제1 ∼ 제Nc 예측 SNR들로부터 제1 ∼ 제Nc 가능비들을 생성하여 출력하는 제1 ∼ 제Nc 가능비 생성부들;

제1 ∼ 제Nc 가능비들을 소정의 어프리어 확률에 각각 승산하고, 승산된 결과들을 출력하는 제1 승산부;

상기 제1 승산부로부터 입력한 상기 승산된 결과들 각각을 소정값과 가산하고, 가산된 결과들을 출력하는 가산부;

상기 가산부로부터 입력한 상기 가산된 결과들을 승산하고, 승산된 결과를 출력하는 제2 승산부; 및

상기 제2 승산부로부터 입력한 상기 승산된 결과의 역수를 계산하고, 계산된 역수를 상기 음성 부재 확률로서 출력하는 역수 계산부를 구비하는 것을 특징으로 하는 음성 부재 확률 계산 장치.
제1 항에 있어서, 상기 음성 부재 확률 계산 장치에서 수행되는 음성 부재 확률 계산 방법에 있어서,

(a) 상기 제1 ∼ 제Nc 포스트 SNR들과 상기 제1 ∼ 제Nc 예측 SNR들로부터 제1 ∼ 제Nc 가능비들을 생성하는 단계;

(b) 제1 ∼ 제Nc 가능비들을 상기 어프리어 확률에 각각 승산하는 단계;

(c) 상기 승산된 결과들 각각을 소정값과 가산하는 단계;

(d) 상기 가산된 결과들을 승산하는 단계; 및

(e) 상기 (d) 단계에서 승산된 결과의 역수를 계산하고, 계산된 역수를 상기 음성 부재 확률로서 결정하는 단계를 구비하는 것을 특징으로 하는 음성 부재 확률 계산 방법.
제1 항 또는 제2 항에 있어서, 상기 음성 부재 확률을 이용하여 상기 음성 신호로부터 잡음을 제거하는 잡음 제거 장치에 있어서,

시간 영역에서 전 처리된 후에 주파수 영역으로 변환되고 잡음을 포함할 수 있는 상기 음성 신호의 상기 포스트 SNR들을 프레임 단위로 계산하여 상기 음성 부재 확률 계산 장치로 출력하는 포스트 SNR 계산부;

상기 음성 부재 확률, 상기 포스트 SNR들 및 이전 SNR들로부터 프리 SNR들과 상기 포스트 SNR들을 수정하고, 수정된 프리 SNR들과 수정된 포스트 SNR들을 출력하는 SNR 수정부;

상기 수정된 프리 SNR들과 상기 수정된 포스트 SNR들로부터 각 주파수 채널에 적용될 이득을 계산하고, 계산된 이득을 출력하는 이득 계산부;

상기 음성 신호와 상기 이득을 승산하고, 승산된 결과를 상기 음성 신호에서 상기 잡음이 제거된 결과로서 출력하는 제3 승산부;

잡음 전력의 추정치와 상기 제3 승산부로부터 입력한 상기 승산된 결과로부터 상기 이전 SNR들을 계산하고, 계산된 상기 이전 SNR들을 상기 SNR 수정부로 출력하는 이전 SNR 계산부;

상기 음성 신호, 상기 음성 부재 확률 및 상기 예측 SNR들로부터 상기 잡음 전력의 추정치 및 음성 전력의 추정치를 계산하는 음성/잡음 전력 갱신부; 및

상기 음성 전력의 추정치와 상기 잡음 전력의 추정치로부터 상기 예측 SNR들을 계산하고, 계산된 상기 예측 SNR들을 상기 음성 부재 확률 계산 장치 및 상기 음성/잡음 전력 갱신부로 각각 출력하는 SNR 예측부를 구비하는 것을 특징으로 하는 상기 음성 부재 확률 계산 장치를 이용하는 잡음 제거 장치.
제3 항에 있어서, 상기 잡음 제거 장치에서 수행되는 잡음 제거 방법에 있어서,

(f) 상기 음성 신호의 상기 포스트 SNR들을 프레임 단위로 구하고 상기 (a) 단계로 진행하는 단계;

(g) 상기 (e) 단계후에, 상기 음성 부재 확률, 상기 포스트 SNR들 및 상기 이전 SNR들을 이용하여 상기 수정된 프리 SNR들과 상기 수정된 포스트 SNR들을 구하는 단계;

(h) 상기 수정된 프리 SNR들과 상기 수정된 포스트 SNR들을 이용하여 상기 이득을 구하는 단계;

(i) 상기 음성 신호와 상기 이득을 승산하는 단계;

(j) 상기 잡음 전력의 추정치와 상기 (i) 단계에서 승산된 결과를 이용하여 상기 이전 SNR들을 구하는 단계;

(k) 상기 음성 신호, 상기 음성 부재 확률 및 상기 예측 SNR들을 이용하여 상기 잡음 전력의 추정치와 상기 음성 전력의 추정치를 구하는 단계; 및

(l) 상기 음성 전력의 추정치와 상기 잡음 전력의 추정치를 이용하여 상기 예측 SNR들을 구하는 단계를 구비하는 것을 특징으로 하는 잡음 제거 방법.