KR100310030B1

KR100310030B1 - 노이지음성파라미터강화방법및장치

Info

Publication number: KR100310030B1
Application number: KR1019980705713A
Authority: KR
Inventors: 페터 핸델; 파트릭 쇨큐비스트
Original assignee: 에를링 블로메, 타게 뢰브그렌; 텔레폰아크티에볼라게트 엘엠 에릭슨
Priority date: 1996-02-01
Filing date: 1997-01-27
Publication date: 2001-11-15
Also published as: CN1210608A; KR19990081995A; SE9600363L; DE69714431T2; WO1997028527A1; US6324502B1; AU1679097A; DE69714431D1; EP0897574A1; CA2243631A1; SE9600363D0; AU711749B2; JP2000504434A; SE506034C2; EP0897574B1

Abstract

배경 노이즈 PSD 추정값을 결정하는 단계(22, 26)와, 노이지 음성 파라미터들을 결정하는 단계(18)와, 상기 음성 파라미터로부터 노이지 음성 PSD 추정값을 결정하는 단계(20)와, 상기 노이지 음성 PSD 추정값으로부터 배경 노이즈 PSD값을 감산하는 단계(30)와, 상기 강화된 음성 PSD 추정값으로부터 강화된 음성 파라미터들을 추정하는 단계(32)를 통해 노이지 음성 파라미터들을 강화한다.

Description

노이지 음성 파라미터 강화방법 및 장치{A NOISY SPEECH PARAMETER ENHANCEMENT METHOD AND APPARATUS}

신호처리에 있어 공통적인 문제는 노이즈로부터 신호를 강화하는 것이다. 이는, 예컨대, 통상적인 마이크로폰(microphone) 전화 시스템 및 셀룰러(cellular) 싱글 마이크로폰(single microphone) 전화 시스템 모두에 있어서 통화품질의 강화일 수 있으며, 여기에서, 통화는 셀룰러 시스템에서의 자동차 소음 같은 컬러 노이즈(colored noise)로 인해 성능이 저하된다.

가끔 이용되는 노이즈 억제방법은 칼만 필터링(Kalman filtering)에 근거한 것인 바, 이는, 해당 필터링법이 컬러 노이즈를 처리할 수 있고, 수적으로 적절한복잡도를 지니고 있기 때문이다. 칼만 필터링에 근거한 노이즈 억제에 관한 주요 참고문헌은〔1〕이다. 그러나, 칼만 필터링은 모델(model)에 바탕을 둔 변형형태로서, 노이즈뿐 아니라 통화까지도, 예를 들면, 오토-리그래시브(auto-regressive, AR) 프로세스(processes)로 모델화한다. 즉, 칼만 필터링에 있어서의 핵심은, 해당필터링 알고리즘(algorithm)이, 반드시 추정되어야 할 미지의 파라미터 세트(set)에 의존한다는 점이다. 상기 파라미터의 추정과 관련된 두 가지 중대문제는, (i) 상기 음성 AR 파라미터들이 성능 저하된 음성 데이터로부터 추정되며, (ii) 음성 데이터가 정적인 상태가 아니라는 점이다. 즉, 높은 가청품질을 갖는 칼만 필터 출력을 얻기 위해서, 상기 추정된 파라미터들의 정확도 및 정밀도가 매우 중요하다.

본 발명은, 예를 들어, 전화 시스템내의 노이즈 억제장치에 사용될 수 있는 노이지 음성 파라미터(noisy speech parameter) 강화방법(enhancement method) 및 장치에 관한 것이다.

도 1은 본 발명에 따른 장치를 나타내는 블록도,

도 2는 도 1의 장치에 사용된 음성 구동 검출기(voice activity detector)의 상태도,

도 3은 본 발명에 따른 방법을 나타내는 플로우챠트,

도 4는 노이지 음성의 전력 스팩트럼 밀도(PSD)의 본질적 특징을 나타내는도면,

도 5는 배경 노이즈(background noise)에 대한 유사 PSD를 나타내는 도면,

도 6은 도 4의 PSD로부터 도 5의 PSD를 감산한 결과로서 나온 PSD를 나타내는 도면,

도 7은 본 발명에 따라 손실함수(loss function)의 형태로 확보된 개선효과를 나타내는 도면,

도 8은 본 발명에 따라 손실율(loss ratio)의 형태로 확보된 개선효과를 나타내는 도면.

본 발명의 목적은, 노이지 음성 파라미터를 추정하기 위한 개선된 방법 및 장치를 제공하는 것이다. 이들 강화된 음성 파라미터들을, 노이즈 억제를 위해 칼만 필터링 노이지 음성에 이용할 수 있다. 그러나, 강화된 음성 파라미터들을, 음성 부호화에 있어서의 음성 파라미터로 직접 사용할 수도 있다.

상기 목적은, 특허청구범위 제1항에 따른 방법과 제11항에 따른 장치에 의해 달성된다.

첨부도면을 참조로 한 이하의 설명을 통하여, 본 발명의 목적 및 기타 장점들을 이해하게 될 것이다.

음성 처리과정에 있어서, 입력 음성은 가끔 배경 노이즈의 간섭을 받는다. 예를 들면, 핸즈프리(hands-free) 이동전화기의 경우, 음성 대 배경 노이즈 율은 0 dB 정도 또는 그 이하일 수도 있다. 이처럼 높은 노이즈 레벨은, 높은 노이즈 레벨 자체 뿐 아니라, 노이지 음성이 부호화되어 디지털 통신채널(communication channel)을 통해 전송되는 동안 생성되는 가청음으로 인해 통화품질을 심하게 저하시키게 된다. 이와 같은 가청음을 줄이기 위해, 칼만 필터링〔1〕같은 노이즈 저감법을 통해 해당 노이지 입력 음성을 전 처리할 수도 있다.

몇몇 노이즈 저감법(예컨대, 칼만 필터링)에 있어서는, 오토리그래시브(AR) 파라미터가 관련되어 있다. 따라서, 이들 저감법에 있어 높은 가청품질의 강화된 음성 출력을 얻기 위해서는, 노이지 음성으로부터의 정확한 AR 파라미터 추정이 필수적이다. 상기 노이지 음성 파라미터 강화법을 도 1-6과 관련하여 이하에서 설명한다.

도 1에 따르면, 마이크로폰(10)으로부터 연속적인 아날로그 신호(x(t))가 얻어진다. 신호(x(t))는 A/D변환기(12)로 보내진다. 이 A/D변환기{및 적절한 데이터 버퍼링(buffering)}은 오디오 데이터(어느 한쪽의 음성, 배경 노이즈 또는 이들 둘 다를 포함함.) 프레임(frame){x(k)}을 생성한다. 오디오 프레임은 8000Hz 샘플링 속도(sampling rate)하에서 100-300개의 오디오 샘플을 포함하는 것이 보통이다. 설명을 단순화하기 위하여, 프레임 길이, N=256인 샘플들을 가정한다. 상기 오디오 프레임{x(k)}은 음성 구동 검출기(VAD)(14)로 보내지는 바, 이 음성 구동 검출기는, 해당 VAD(14)의 상태에 의존하는 장치내의 다른 블록으로 오디오 프레임{x(k)}을 보내주기 위한 스위치(16)를 제어한다.

VAD(14)는 [2]에서 거론되는 바의 원리에 따라 설계될 수도 있으며, 보통, 스테이트 머신(state machine)의 형태로 지원된다. 도 2는 그러한 스테이트 머신의 가능 상태들을 나타낸다. 상태 0인 경우, VAD(14)는 아이들(idle) 또는 "인엑티브(inactive)"이며, 오디오 프레임{x(k)}이 더 이상 처리되지 않음을 의미한다. 상태 20은 노이즈 레벨 및 음성 없음을 뜻한다. 상태 21은 노이즈 레벨 및 낮은 음성/노이즈 비율을 의미한다. 이 상태는 주로 음성구동 및 노이즈간 변환(transition) 과정 동안에 엑티브(active)이다. 끝으로, 상태 22는 노이즈 레벨 및 높은 음성/노이즈 비율을 의미한다.

하나의 오디오 프레임{x(k)}은, 다음과 같이 표현될 수 있는 오디오 샘플들을 포함한다.

여기서, x(k)는 노이지 음성 샘플을, s(k)는 음성 샘플을, v(k)는 컬러 추가 배경 노이즈를 각각 나타낸다. 노이지 음성 신호(x(k))는 프레임 전체에 걸쳐 불변인 것으로 한다. 또한, 음성 신호(s(k))는 r차의 오토리그래시브(AR) 모델을 통해 기술할 수 있다. 즉,

이때, w_s(k)의 분산(variance)은 σ_s ²으로 주어진다. 같은 원리로, v(k)는 q차의 AR모델로 나타낼 수 있다.

여기서, w_v(k)의 분산은 σ_v ²으로 주어진다. 상기 r 및 q는 프레임 길이 N에 비해 매우 작다. 통상, r 값은 10 정도가 바람직하며, q는 0-7 범위내의 값, 예를 들면 4{q=0은, 일정한 전력 스팩트럼 밀도, 즉, 화이트 노이즈(white noise)에 해당함.} 정도임이 바람직하다. 음성 AR모델링에 관한 추가정보는 [3]에 수록되어 있다.

나아가, 노이지 음성의 전력 스팩트럼 밀도(Φ_x(ω))는, 음성의 전력 스팩트럼 밀도(Φ_s(ω))와 배경 노이즈의 전력 스팩트럼 밀도(Φ_v(ω))로 나누어진다. 즉,

상기 (2)식으로부터,

같은 방법으로, (3)식으로부터는,

(2)-(3)식으로부터, x(k)는, 전력 스팩트럼 밀도(Φ_x(ω))를 갖는 오토리그래시브 이동 평균(autoregressive moving average, ARMA)모델과 일치한다. Φ_x(ω) 추정(이하, 추정량을 모자표시 "^"로 나타냄)은 오토리그래시브(AR) 모델을 통해 이루어 질 수 있다. 즉,

및 _x ²은, AR모델의 추정된 파라메터들이다.

여기서, w_x(k)의 분산값은 σ_x ²로 주어지며, a≤p≤N이다. (7)식에서의 _x(ω)는 Φ_x(ω)의 일정 불변 추정값이 아님을 주목해야 한다. 그러나, x(k)는 실제 불변값과는 거리가 멀기 때문에, 음성 신호처리에 있어서 그다지 심각한 문제는 아니다.

도 1에 있어서, VAD(14)가 음성을 표시하는 경우(도 2상에서의 스테이트 21 및 22), 신호 x(k)는, (8)식에서 파라미터 σ _x ²및 {a_i}를 추정하는 노이지 음성 AR추정기(18)로 보내진다. 이 추정은 [3]에 따라 시행된다(도 3상의 플로우챠트에서 스탭 120에 해당한다). 상기 추정된 파라미터는 블록(20)으로 보내지는 바, 해당 블록에서는 (7)식에 따라 입력 신호 x(k)의 전력 스팩트럼 밀도 추정값을 계산한다(도 3상의 스탭 130).

상기 배경 노이즈를 장시간(long-time) 정지상태, 즉, 몇 개 프레임에 걸친 불변상태로 취급할 수 있다는 것이 본 발명의 본질적 특징이다. 음성 구동도는 보통, s(k)가 없는 기간에 노이즈 모델을 추정할 수 있을 정도로 충분히 낮기 때문에, 노이지 음성 프레임에서의 후속 이용을 위해 노이즈 프레임 도중 노이즈 모델 파라미터를 버퍼링(buffering)함으로써, 노이지 음성 프레임 도중 노이즈 전력 스팩트럼 밀도 감산(subtraction)을 위해, 상기 장시간 정지상태라는 특징을 이용할 수도 있다. 즉, VAD(14)가 배경 노이즈를 표시하는 경우(도 2상의 스테이트 20), 상기 프레임은, 프레임의 파라미터 σ_v ²및 {b_i}를 추정하는(도 3의 플로우챠트상에서는 스텝 140에 해당함) 노이즈 AR추정기(22)로 보내진다. 앞서 언급한 바와 같이, 상기 추정된 파라미터들은, 노이지 음성 프레임 도중의 후속이용을 위해 버퍼(24)에 저장된다(도 3상에서의 스탭 150). 이들 파라미터들은, 필요시(노이지 음성 프레임 도중) 버퍼(24)로부터의 검색을 거치게 된다. 상기 파라미터들은, 또한, 노이즈 프레임 중 또는 다음 음성 프레임 중, 상기 배경 노이즈의 전력 스팩트럼 밀도 추정(도 3상의 스탭 160)을 위해 블록(26)으로 보내지는 바, 노이즈 프레임 중 파라미터의 블록(26)으로의 전송은, 후속 이용을 위해서 상기 추정값이 버퍼링 과정을 거쳐야 함을 의미하는 한편, 다음 음성 프레임 중 파라미터의 블록(26)으로의 전송은, 단지 파라미터만이 버퍼링을 거쳐야 함을 의미한다. 즉, 배경 노이즈만을 포함하는 프레임에 있어서는, 상기 추정된 파라미터들이 실제 강화목적으로 이용되지 않는다. 대신, 상기 노이즈 신호는, 해당 노이즈 레벨을 감쇠, 예를 들면, 10dB 정도로 하는(도 3상의 스탭 170) 감쇠기(attenuator)(28)로 보내진다.

(7)식에서 정의된 전력스팩트럼 밀도(PSD) 추정값( _x(ω))과, 상기 AR 파라미터 및 σ_v ²에 대해 "^"가 붙기는 해도, (6)식과 유사한 식으로 정의되는 PSD 추정값( _v(ω))은 주파수(ω)의 함수이다. 이어지는 스탭은 실제 PSD 감산(sub- traction)을 수행하는 과정으로서, 블록(30)(도 3상의 스탭 180)에서 이루어진다. 본 발명에 따르면, 음성 신호의 전력스팩트럼 밀도는 다음의 식으로 추정된다.

여기서, δ는 스칼라(scalar) 설계변수로서, 전형적으로 0＜δ＜4를 취한다.보통의 경우, 1 정도로 한다(δ=1은 (4)식에 해당한다).

상기 강화된 PSD( _s(ω))를 샘플링함에 있어서, 그 강화된 PSD의 정확한 형상을 확보하기 위하여, 다수의 주파수(ω) 조건하에서 샘플링함은 본 발명의 본질적 특징이다. 실제, 상기 PSD는 다음의 이산적인 주파수 세트(set) 하에서 계산된다.

[3]을 참조하면, 이산적인 시퀀스(sequence)의 PSD 추정값 들이 다음과 같이 주어진다.

이 특징들은 도 4-6을 통해 도시된다. 도 4는 노이지 음성의 전형적인 PSD추정값(Φ_x(ω))을 나타낸다. 도 5는 배경 노이즈의 전형적 PSD 추정값( _v(ω))을 보여준다. 이 경우, 도 4 및 도 5상의 신호간 신호대 노이즈 비(signal-to-noise ratio)는 0 dB이다. 도 6은, (9)식에 따른 노이즈 감산후의 강화된 PSD 추정값( _s(ω))을 나타내는 바, 이 경우 δ=1이다. PSD 추정값( _s(ω))의 형상이 강화 음성 파라미터 추정에 있어 중요(이하에서 설명할 것임)하기 때문에, 상기 강화된 PSD 추정값( _s(ω))을 충분한 수의 주파수 조건하에서 샘플링함으로써, 상기 함수(특히, 피크(peak)값)의 정확한 형상을 구하는 것 또한 본 발명의 본질적특징이다.

실질적으로, 상기 (6) 및 (7)식을 이용하여 _s(ω)를 샘플링한다. 예컨대, (7)식의 경우, _x(ω)는 신속 푸리에 변환(Fast Fourier Transform, FFT)을 통해 샘플링할 수 있다. 즉, 1, a₁, a₂,...,a_p를 시퀀스(sequence)로 하여 그 FFT를 계산한다. 샘플수(M)는 p(p는 대략 10-20)보다 커야 하므로, 상기 시퀀스를 제로패드( zero pad)해야 할 필요가 있을 수 있다. 적절한 M값은 2의 멱수(冪數), 예를 들면, 64, 128, 256 등이다. 그러나, 상기 샘플수(M)는 프레임 길이(본 예에서는, N=256)보다 작은 수를 선택한다. 나아가, _s(ω)가 전력 스팩트럼 밀도, 즉, 넌-네가티브-엔티티(non-negative entity)이기 때문에, 상기 _s(ω)의 샘플링 값은, 샘플링된 강화 PSD 추정치 _s(ω)로부터의 강화 음성 파라미터 계산에 앞서, 음수가 아니라야 한다는 제한을 받게 된다.

상기 블록(30)에서 PSD 감산이 수행되고 나면, 상기 PSD 추정값으로부터의 강화 음성 파라미터 계산(도 3상의 스탭 190)을 위하여, 샘플들의 집합(collection)({ _s(m)})이 블록(32)으로 보내진다. 이는 상기 블록(20 및 26)의 역과정으로서, AR 파라미터로부터 PSD 추정값을 계산한다. 해당 PSD 추정값으로부터 이들 파라미터들을 바로 유도하는 것은 불가능하기 때문에, 반복적 알고리즘을 이용해야만 한다. 시스템 식별(identification)을 위한 일반적 알고리즘, 예컨대, [4]에 제안된 것을 이용해도 무방하다.

또한, 상기 강화 파라미터를 계산하기 위한 바람직한 과정이 부록에 설명되어 있다.

이들 강화 파라미터는, 예를 들면, 음성 부호화와 직접 연관지어 이용하든가, 또는, 도 1상의 노이즈 억제기내 칼만 필터(34)같은 필터 제어용(도 3상의 스탭 200)으로 사용할 수 있다. 칼만 필터(34)는 또한 상기 추정된 노이즈 AR 파라미터들에 의해 제어되고, 이들 두 파라미터 세트는, [1]에 기재된 바의 원리에 따라, 노이지 음성을 포함한 프레임{x(k)}을 필터링하는 칼만 필터(34)를 제어한다.

장치가 상기 강화 음성 파라미터만을 필요로 하는 경우에는, 실제로 노이즈 AR 파라미터를 추정할 필요가 없다(도 1상의 노이즈 억제기에 있어서는, 상기 파라미터들이 칼만 필터(34)를 제어하는 관계로, 반드시 추정해야 함). 대신, Φv(ω)를 추정함에 있어서는, 상기 장시간 정지상태의 배경 노이즈를 이용해도 무방하다. 예를 들면, 식

을 이용할 수 있다.

여기서, Φ_v(ω)^(m)은, 프레임수(m)를 포함하는, 그 수까지의 데이터에 근거한 (진행(running)) 평균 PSD 추정값이고, _v(ω)는, 현재 프레임에 바탕을 둔 추정값이다( _v(ω)은 페리오도그램(periodogram)(FFT)에 의해 상기 입력 데이터로부터 직접 추정될 수도 있음). 상기 스칼라 ρ∈(0,1)는 상기 v(k)의 추정불변도(assumed stationarity)에 따라 조절한다. τ개 프레임에 대한 평균은 대략 다음 에 함축적으로 주어진 ρ에 상응한다.

상기 파라미터(ρ)는, 예를 들어, 0.95 정도의 값으로 한다.

바람직한 실시예의 경우, (12)식에 따라 평균하는 것은, (6)식에 따른 파라메트릭(parametric) PSD 추정값에 대해서도 실시한다. 상기 평균화 과정을 도 1상 블록(26)의 일부분으로 할 수도 있으며, 또한, 도 3상 스탭 160의 일부로서 수행해도 무방하다.

도 1상의 실시예에 대한 수정 버전(version)으로서, 감쇠기(28)를 삭제할 수도 있다. 그 대신, 칼만 필터(34)를 신호(x(k)) 감쇠기로 이용해도 된다. 이 경우, 상기 배경 노이즈 AR모델의 파라미터들은, 칼만 필터(34)의 양측 제어 입력단으로 보내지지만, 음성 프레임 도중 강화된 음성 파라미터를 수신하는 해당 제어 입력단에 있어 낮은 분산 파라미터(희망하는 바의 감쇠에 상당함)를 갖는다.

더욱이, 상기 강화 음성 파라미터 계산으로 인한 지연이 너무 길다고 판단되면, 본 발명의 수정 실시예에 따라서, 현재 음성 프레임에 대한 상기 강화 음성 파라미터를 후속 프레임 필터링용으로 이용하는 것도 가능하다(이 실시예의 경우, 음성이 두 프레임에 걸쳐 불변인 것으로 함). 상기 수정 실시예에 있어서는, 음성 프레임에 대한 강화 음성 파라미터를, 앞선 음성 프레임에서 강화 파라미터를 가지고 해당 프레임에 대해 필터링하는 것과 동시에 계산할 수도 있다.

본 발명에 따른 방법의 기본적 알고리즘은 다음과 같이 요약할 수 있다.

음성 포즈(pause) 중에는,

M개 주파수 세트에 대한 상기 배경 노이즈의 PSD값( _v(ω))을 추정한다. 이때, 어떤 종류의 PSD 추정기, 예로서, 파라메트릭 또는 비파라메트릭(non-parametric)(페리오도그램)중 어느 것을 이용해도 무방함. (12)식에 따른 장시간 평균화를 이용하여, 해당 PSD 추정값의 에러 분산(error variance)을 줄일 수 있음.

음성 구동시에는: 각각의 프레임에 있어서,

- {x(k)}를 근거로 AR 파라미터{a_i}와 해당 노이지 음성의 레지듀얼(resi- dual) 에러 분산값(σ_x ²)을 추정함.

- 이들 노이지 음성 파라미터를 근거로 하여, M개 주파수 세트에 있어서의 노이지 음성의 PSD 추정값( _x(ω))을 계산함.

- _x(ω) 및 _v(ω)를 근거로, (9)식을 이용하여, 음성 PSD값( _s(ω))을 계산함. 스칼라(δ)는 대략 1 정도인 설계변수임.

- 상기 강화된 PSD값( _s(ω))을 근거로 강화 AR 파라미터 및 대응 레지듀얼 분산을 계산함.

도 1의 장치 중 거의 모든 블록은 하나 또는 몇 개의 마이크로(micro)/신호프로세서(processor) 조합으로 실시됨이 바람직하다(예를 들면, 블록 14, 18, 20, 22, 26, 30, 32 및 34).

본 발명에 따른 방법의 효과를 설명하기 위하여 몇 개 시뮬레이션(simula- tion) 시험을 수행하였다. 최초 파라미터에 대한 강화 파라미터의 개선효과를 측정코자, 200개의 각기 상이한 시뮬레이션에 대한 다음 값을 계산했다.

이 값(손실함수)을 노이지 파라미터 및 강화 파라미터 양쪽 모두에 대해 계산했다. 즉,(k)는 _x(k) 또는 _s(k)를 나타낸다. (14)식에 있어서, (·)^(m)은 시뮬레이션수(m)에 대한 결과임을 뜻한다. 이들 두 값을 도 7에 나타낸다. 도 8은 이들 값간의 비를 나타낸다. 이들 도면으로부터, 낮은 신호대 노이즈 비(SNR＜15 dB)에 있어서는 강화 파라미터가 노이지 파라미터보다 성능이 뛰어난 반면, 높은 신호대 노이즈 비의 경우 양자는 거의 동일한 결과를 가져옴을 알 수 있다. 낮은 SNR값에 있어서, 상기 강화 파라미터 및 노이지 파라미터간 SNR에 있어서의 개선효과는 주어진 수치(V)에 대해 7 dB 정도였다.

당업자라면, 첨부된 특허청구범위에 명시된 본 발명의 기본취지를 벗어나지 않고서도, 다양한 수정 또는 변형이 가능함을 이해할 것이다.

이상 설명한 바와 같이, 본 발명의 노이지 음성 파라미터 강화방법 및 장치는, 정확한 AR 파라미터 추정을 가능케 하는 관계로 통신분야에 있어 그 효용도가 지대한 발명이다.

부 록

상기 강화 파라미터를 추정함에 있어 그 수치적 차이를 보다 가시화하기 위하여, (11)식으로부터 추정된 강화 PSD 데이터를 다음의 비선형 데이터 변환식에 따라 변환시켰다.

여기서,

한편, ε는, 사용자에 의해 선택된, 또는,(k)를 실수(實數)로 하는 데이터 의존 임계값(threshold)이다. 다소의 약식 방법(푸리에(Fourier) 전개식, 많은 수의 샘플 가정, 및 높은 모델 차수를 바탕으로 함)을 써서, 다음과 같은 흥미있는 주파수 간격(frequency interval)을 얻게 된다.

상기 (17)식은 다음과 같이 주어진다.

(18)식에서, γ(k)는 다음과 같이 정의된다.

값 및 해당 공분산(covariance) 메트릭스(matrix) _Γ를 불변값으로 가정하면, 상기 벡터는,

이며, 초기 추정값들을, _Γ및(0)으로 하여, 그 공분산 메트릭스(Pχ)는 다음 식에 의해 계산할 수 있다.

상기 알고리즘에 있어서, Γ(x) 및 χ의 관계는 다음 식으로 주어진다.

이때, γ(k)는 (19)식에 의해 구해진다.

로부터, 상기 χ에 대한 Γ(x)의 기울기는,

로 주어진다.

상기 (21)식은, _Γ를 추정하기 위한 다수의 계산식을 포함한다. 이들 계산식의 주요부는 (M×M)메트릭스 _Γ와의 곱셈 및 그 역위(inversion)로부터 시작된다. 그러나, _Γ는 대각선에 가까운 관계로((18)식 참조), 다음 근사식을 얻을 수 있다.

여기서, I는 (M×M) 단위 메트릭스를 나타낸다. 즉, 바람직한 실시예에 따르면, 초기값을및(0)로 하여 다음과 같은 차선의 알고리즘을 사용해도 무방하다.

이때, (26)식에서의 G(k) 크기는 ((r+1)×M)이다.

참 고 문 헌

[1] J.D. Gibson, B. Koo and S.D. Gray, "Filtering of colored noise for speech enhancement and coding", IEEE Transaction on Acoustics, Speech and Signal Processing", vol.39, no.8, pp.1732-1742, August 1991.

[2] D.K. Freeman, G. Cosier, C.B. Southcott and I. Boyd, "The voice activity detector for the pan-European digital cellular mobile telephone service" 1989 IEEE International Conference Acoustics, Speech, and Signal Processing, 1989, pp.489-502.

[3] J.S. Lim and A.V. Oppenheim, "All-pole modeling degraded speech", IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSp-26, no.3, June 1978, pp.228-231.

[4] T. Soderstrom, P. Stoica and B. Friedlander, "An indirect prediction error method for system identification", Automatica, vol.27, no.1, pp.183-188, 1991.

Claims

제1 배경 노이즈 샘플 집합으로부터, M개(M은 미리 정해진 양의 정수) 주파수에 있어서의 배경 노이즈 전력 스팩트럼 밀도 추정값을 결정하는 단계와;

제2 노이지 음성 샘플 집합으로부터, p개(p는 상기 M보다 매우 작은 미리 정해진 양의 정수)의 오토리그래시브 파라미터 및 제1 레지듀얼 분산값을 추정하는 단계와;

상기 p개의 오토그래시브 파라미터 및 상기 제1 레지듀얼 분산값으로부터, 상기 M개 주파수에 있어서의 노이지 음성 전력 스팩트럼 밀도 추정값을 결정하는 단계와;

미리 정해진 양의 인수가 곱해진 상기 배경 노이즈 스팩트럼 밀도 추정값을 상기 노이지 음성 전력 스팩트럼 밀도 추정값으로부터 감산함으로써, 강화 음성 전력 스팩트럼 밀도 추정값을 결정하는 단계와;

상기 강화 음성 전력 스팩트럼 밀도로부터, r개(r은 미리 정해진 양의 정수)의 강화 오토리그래시브 파라미터 및 강화 레지듀얼 분산값을 결정하는 단계를 포함하여 구성된 것을 특징으로 하는 노이지 음성 파라미터 강화방법
제1항에 있어서, 상기 강화 음성 전력 스팩트럼 밀도 추정값을 음수가 아닌 값으로 한정하는 것을 특징으로 하는 노이지 음성 파라미터 강화방법.
제2항에 있어서, 상기 미리 정해진 양의 인수가 0-4 범위값을 가지는 것을 특징으로 하는 노이지 음성 파라미터 강화방법.
제3항에 있어서, 상기 미리 정해진 양의 인수가 대략 1과 일치하는 것을 특징으로 하는 노이지 음성 파라미터 강화방법.
제4항에 있어서, 상기 미리 정해진 정수(r)가 상기 미리 정해진 정수(p)와 일치하는 것을 특징으로 하는 노이지 음성 파라미터 강화방법.
제5항에 있어서, 상기 제1 배경 노이즈 샘플 집합으로부터, q개(q는 p보다 작은 미리 정해진 양의 정수)의 오토리그래시브 파라미터 및 제2 레지듀얼 분산값을 추정하는 단계와;

상기 q개의 오토리그래시브 파라미터 및 상기 제1 레지듀얼 분산값으로부터, 상기 M개 주파수에 있어서의 상기 배경 노이즈 전력 스팩트럼 밀도 추정값을 결정하는 단계를 포함하여 구성된 것을 특징으로 하는 노이지 음성 파라미터 강화방법.
제1항 또는 제6항에 있어서, 상기 배경 노이즈 전력 스팩트럼 밀도 추정값을, 미리 정해진 배경 노이즈 샘플 집합수에 대하여 평균하는 것을 특징으로 하는 노이지 음성 파라미터 강화방법.
제1항 내지 제7항중의 어느 한 항에 있어서, 제2 노이지 음성 샘플 집합을 필터링하는 필터를 조정함에 있어서 상기 강화 오토리그래시브 파라미터 및 상기 강화 레지듀얼 분산값을 사용하는 것을 특징으로 하는 노이지 음성 파라미터 강화방법.
제8항에 있어서, 상기 제2 및 제3 노이지 음성 샘플 집합이 동일한 집합인 것을 특징으로 하는 노이지 음성 파라미터 강화방법.
제8항 또는 제9항에 있어서, 상기 제3 노이지 음성 샘플 집합을 칼만 필터링하는 것을 특징으로 하는 노이지 음성 파라미터 강화방법.
제1 배경 노이즈 샘플 집합으로부터, M개(M은 미리 정해진 양의 정수)주파수에 있어서의 배경 노이즈 전력 스팩트럼 밀도 추정값을 결정하기 위한 수단(22, 26)과;

제2 노이지 음성 샘플 집합으로부터, p개(p는 M보다 상당히 작은 미리 정해진 양의 정수)의 오토리그래시브 파라미터 및 제1 레지듀얼 분산값을 추정하기 위한 수단(18)과;

상기 p개의 오토리그래시브 파라미터 및 상기 제1 레지듀얼 분산값으로부터, 상기 M개 주파수에 있어서의 노이지 음성 전력 스팩트럼 밀도 추정값을 결정하기 위한 수단(20)과;

미리 정해진 양의 인수가 곱해진 상기 배경 노이즈 스팩트럼 밀도 추정값을 상기 노이지 음성 전력 스팩트럼 밀도 추정값으로부터 감산함으로써, 강화 음성 전력 스팩트럼 밀도 추정값을 결정하기 위한 수단(30)과;

상기 강화 음성 전력 스팩트럼 밀도 추정값으로부터, r개(r은 미리 정해진 양의 정수)의 강화 오토리그래시브 파라미터 및 강화 레지듀얼 분산값을 결정하기 위한 수단(32)을 포함하여 구성된 것을 특징으로 하는 노이지 음성 파라미터 강화장치.
제11항에 있어서, 상기 강화 음성 전력 스팩트럼 밀도 추정값을 음수가 아닌 값으로 한정하기 위한 수단(30)을 포함하여 구성된 것을 특징으로 하는 노이지 음성 파라미터 강화장치.
제12항에 있어서, 상기 제1 배경 노이지 샘플 집합으로부터 q개(q는 p보다 작은 미리 정해진 양의 정수)의 오토리그래시브 파라미터 및 제2 레지듀얼 분산값을 추정하기 위한 수단(22)과;

상기 q개 오토리그래시브 파라미터 및 상기 제2 레지듀얼 분산값으로부터, 상기 M개 주파수에 있어서의 상기 배경 노이즈 전력 스팩트럼 밀도 추정값을 결정하기 위한 수단(26)을 포함하여 구성된 것을 특징으로 한 노이지 음성 파라미터 강화장치.
제11항 또는 제13항에 있어서, 상기 배경 노이즈 전력 스팩트럼 밀도 추정값을, 미리 정해진 배경 노이즈 샘플 집합수에 대하여 평균하기 위한 수단을 포함하여 구성된 것을 특징으로 하는 노이지 음성 파라미터 강화장치.
제11항 내지 제14항중의 어느 한 항에 있어서, 제3 노이지 음성 샘플 필터링용 필터를 조정함에 있어 상기 강화된 오토리그래시브 파라미터 및 상기 강화 레지듀얼 분산값을 사용하기 위한 수단(34)을 포함하여 구성된 것을 특징으로 하는 노이지 음성 파라미터 강화장치.
제15항에 있어서, 상기 제3 노이지 음성 집합을 필터링하기 위한 수단이 칼만 필터(34)인 것을 특징으로 하는 노이지 음성 파라미터 강화장치.
제15항에 있어서, 상기 제3 노이지 음성 샘플 조합을 필터링하기 위한 수단이 칼만 필터(34)이며, 상기 제2 및 제3 노이지 음성 샘플 집합이 동일한 집합인 것을 특징으로 하는 노이지 음성 파라미터 강화장치.