KR100870502B1

KR100870502B1 - 배경잡음의 존재하에 음성 강화를 위한 방법 및 기기

Info

Publication number: KR100870502B1
Application number: KR1020067015437A
Authority: KR
Inventors: 밀란 젤리넥
Original assignee: 노키아 코포레이션
Priority date: 2003-12-29
Filing date: 2004-12-29
Publication date: 2008-11-25
Also published as: WO2005064595A1; JP2007517249A; MY141447A; MXPA06007234A; AU2004309431B2; RU2006126530A; CA2454296A1; EP1700294B1; EP1700294A1; BRPI0418449A; RU2329550C2; TWI279776B; DE602004022862D1; AU2004309431C1; AU2004309431A1; ATE441177T1; CA2550905C; US20050143989A1; HK1099946A1; PT1700294E

Abstract

일 양태에서 본 발명은 복수의 주파수빈들로 분할가능한 주파수영역표현을 가지는 음성신호에 대해, 상기 주파수빈들 중의 적어도 일부를 위한 크기조정이득 값을 결정하는 단계 및 평활화된 크기조정이득 값들을 계산하는 단계를 구비하는 음성신호의 잡음 억제를 위한 방법을 제공한다. 평활화된 크기조정이득 값들의 계산은, 주파수빈들의 적어도 일부에 대해 현재 결정된 크기조정이득 값 및 이전에 결정된 평활화된 크기조정이득 값을 조합한다. 다른 양태에서 본 발명은 복수의 주파수빈들을 제1 및 제2집합들 사이에 경계주파수를 가지는 연속하는 주파수빈들의 제1집합과 연속하는 주파수빈들의 제2집합으로 구획하며, 경계주파수는 잡음 억제 기법들 간을 구별 짓고, 경계주파수의 값을 음성신호의 스펙트럼 내용의 함수로 하여 변경한다.

Description

배경잡음의 존재하에 음성 강화를 위한 방법 및 기기{Method and device for speech enhancement in the presence of background noise}

본 발명은 음성(speech)신호들을 강화시켜 배경잡음의 존재하에서 통신을 개선하는 기법에 관한 것이다. 특정되지만 한정적이지는 않게, 본 발명은 음성신호의 배경잡음의 레벨을 낮추는 잡음 감소 시스템의 설계에 관한 것이다.

배경잡음의 레벨을 낮추는 것은 많은 통신시스템들에서 매우 중요하다. 예를 들면, 이동전화기들은 높은 레벨의 배경잡음이 존재하는 많은 환경들에서 이용되고 있다. 그러한 환경들은 차들(점점 핸즈프리가 되어가고 있음), 또는 거리에서의 이용이고, 그것에 의해 통신시스템은 높은 레벨의 차 소음 또는 거리 소음의 존재 하에서 동작하는 것이 필요하다. 화상회의 및 핸즈프리 인터넷 애플리케이션과 같은 사무실 응용에서, 시스템은 사무실 소음을 효율적으로 잘 처리하는 것이 필요하다. 소음 억제, 또는 음성 강화라고 알려지기도 한 잡음 감소는, 이 응용들에서 매우 중요하게 되었고, 종종 낮은 신호-대-잡음비(SNR)에서 동작할 필요가 있다. 잡음감소는 각종 실제 환경들에서 점점 더 채용되는 자동 음성인식 시스템들에서 중요하다. 잡음감소는 전술한 응용들에서 통상 이용되는 음성 부호화 알고리즘들 또는 음성인식 알고리즘들의 성능을 개선한다.

스펙트럼 차감(spectral subtraction)은 잡음감소를 위해 가장 많이 사용되는 기법들 중의 하나이다(참조 S. F. Boll, "Suppression of acoustic noise in speech using spectral subtraction," IEEE Trans . Acoust ., Speech , Signal Processing, vol. ASSP-27, pp. 113-120, Apr. 1979). 스펙트럼 차감은 잡음성 음성로부터 잡음추정값을 감산하는 것에 의해 음성의 단시간 스펙트럼 크기를 추정하는 것을 시도한다. 잡음 음성의 위상은 위상왜곡이 사람의 귀에 의해 지각되지 않는다는 가정에 기초하여 처리되지 않는다. 실사용에서, 스펙트럼 차감은 잡음 스펙트럼 및 잡음성 음성 스펙트럼의 추정값들로부터 SNR기반 이득함수를 형성하는 것에 의해 이행된다. 이 이득함수는 낮은 SNR로 주파수 성분들을 억제하도록 입력스펙트럼에 의해 곱해진다. 기존의 스펙트럼 차감 알고리즘들을 이용하는 주된 불이익은 "악음(musical tones)"으로 구성되는 결과적인 음악적 잔여 잡음이 청취자뿐만 아니라 후속하는 신호처리 알고리즘들(이를테면 음성 부호화)을 방해한다는 것이다. 악음들은 주로 스펙트럼 추정값들의 변동 때문이다. 이 문제를 해결하기 위해, 스펙트럼 평활화(smoothing)가 제안되어 있는데, 결과적으로 변동 및 분해능을 감소시킨다. 악음들을 감소하기 위한 다른 알려진 방법은 스펙트럼마루(spectral floor)와 조합하여 과잉감산계수(over-subtraction factor)를 이용하는 것이다(M. Berouti, R. Schwartz, and J. Makhoul, "Enhancement of speech corrupted by acoustic noise," in Proc . IEEE ICASSP, Washington, DC, Apr. 1979, pp. 208-211 참조). 이 방법은 악음들이 충분히 감소될 때 음성을 열화시키는 불리점을 가진다. 다른 접근방법들은 연판정(soft-decision) 잡음 억제 필터링(R. J. McAulay and M. L. Malpass, "Speech enhancement using a soft decision noise suppression filter," IEEE Trans . Acoust ., Speech , Signal Processing, vol. ASSP-28, pp. 137-145, Apr. 1980 참조)과 비선형 스펙트럼 감산(P. Lockwood and J. Boudy, "Experiments with a nonlinear spectral subtractor (NSS), hidden Markov models and projection, for robust recognition in cars," Speech Commun., vol. 11, pp. 215-228, June 1992 참조)이다.

본 발명의 한 양태에서 음성신호의 잡음 억제를 위한 방법에 있어서,
주파수 분석을 수행하여 복수의 주파수빈들을 포함하는 음성신호의 스펙트럼영역 표현을 생성하는 단계; 및
주파수빈들을 다수의 주파수대역들로 그룹화하는 단계를 포함하며,
발성된 음성 활동도가 음성신호에서 검출될 때, 잡음 억제가 제1수의 주파수대역들에 대해 주파수빈마다 수행되고 잡음 억제는 제2수의 주파수대역들에 대해 주파수대역마다 수행되는 것을 특징으로 하는 방법이 제공된다.
본 발명의 다른 양태에서 음성신호의 잡음을 억제하기 위한 기기에 있어서, 상기 기기는,
주파수 분석을 수행하여 복수의 주파수빈들을 포함하는 음성신호의 스펙트럼영역 표현을 생성하도록; 그리고
주파수빈들을 다수의 주파수대역들로 그룹화하도록 구성되며,
상기 기기는 발성된 음성 활동도를 검출하도록 구성되고 발성된 음성 활동도가 음성신호에서 검출될 때, 제1수의 주파수대역들에 대해 주파수빈마다 잡음 억제를 수행하고 제2수의 주파수대역들에 대해 주파수대역마다 잡음 억제를 수행하는 것을 특징으로 하는 기기가 제공된다.
본 발명의 추가의 양태에서 잡음 억제를 위한 기기를 포함하는 음성 부호화기에 있어서,
주파수 분석을 수행하여 복수의 주파수빈들을 포함하는 음성신호의 스펙트럼영역 표현을 생성하도록; 그리고
주파수빈들을 다수의 주파수대역들로 그룹화하도록 구성되며,
상기 기기는 발성된 음성 활동도를 검출하도록 구성되며, 발성된 음성 활동도가 음성신호에서 검출될 때, 제1수의 주파수대역들에 대해 주파수빈마다 잡음 억제를 수행하고 제2수의 주파수대역들에 대해 주파수대역마다 잡음 억제를 수행하는 것을 특징으로 하는 음성 부호화기가 제공된다.
본 발명의 더 추가의 양태에서 잡음 억제를 위한 기기를 포함하는 자동 음성인식 시스템에 있어서, 상기 기기는
주파수 분석을 수행하여 복수의 주파수빈들을 포함하는 음성신호의 스펙트럼영역 표현을 생성하도록; 그리고
주파수빈들을 다수의 주파수대역들로 그룹화하도록 구성되며,
상기 기기는 발성된 음성 활동도를 검출하도록 구성되며, 발성된 음성 활동도가 음성신호에서 검출될 때, 제1수의 주파수대역들에 대해 주파수빈마다 잡음 억제를 수행하고 제2수의 주파수대역들에 대해 주파수대역마다 잡음 억제를 수행하는 것을 특징으로 하는 자동 음성인식 시스템이 제공된다.
본 발명의 또 다른 양태에서 잡음 억제를 위한 기기를 포함하는 이동전화기에 있어서, 상기 이동전화기는
주파수 분석을 수행하여 복수의 주파수빈들을 포함하는 음성신호의 스펙트럼영역 표현을 생성하도록; 그리고
주파수빈들을 다수의 주파수대역들로 그룹화하도록 구성되며,
상기 기기는 발성된 음성 활동도를 검출하도록 구성되며, 발성된 음성 활동도가 음성신호에서 검출될 때, 제1수의 주파수대역들에 대해 주파수빈마다 잡음 억제를 수행하고 제2수의 주파수대역들에 대해 주파수대역마다 잡음 억제를 수행하도록 구성되는 이동전화기가 제공된다.

삭제

본 발명의 전술한 및 다른 목적들, 이점들 및 특징들은 첨부 도면들에 관해 예로써만 주어지는 예시적인 실시예의 다음의 비제한적인 설명을 읽는 것에 의거하여 명백하게 될 것이다. 첨부 도면들에서:

도 1은 잡음감소를 포함하는 음성통신시스템의 개략적인 블록도이며;

도 2는 스펙트럼 분석 시의 창의 예시를 보이며;

도 3은 잡음감소 알고리즘의 예시적인 실시예의 개략도이며; 그리고

도 4는 잡음감소 알고리즘이 제안된 음성프레임의 성질에 의존하는 부류특화 잡음감소의 예시적인 실시예의 개략적인 블록도이다.

본 명세서에는, 잡음감소를 위한 효율적인 기법들이 개시되어 있다. 이 기법들은 적어도 부분적으로는 임계대역들에서의 진폭 스펙트럼을 나누는 것과 EVRC 음성코덱(3GPP2 C.S0014-0 "Enhanced Variable Rate Codec (EVRC) Service Option for Wideband Spread Spectrum Communication Systems", 3GPP2 Technical Specification, December 1999 참조)에서 이용되는 접근법에 유사한 임계대역당 SNR에 기초한 이득함수의 계산에 근거한다. 예를 들면, 처리되는 음성프레임의 성질에 기초하여 다른 처리기법들을 이용하는 특징들이 개시되어 있다. 무성 프레임들에서는, 대역마다의 처리가 전체 스펙트럼에서 이용된다. 발성(voicing)이 특정 주파수까지 검출되는 프레임들에서는, 빈(bin)마다의 처리가 발성이 검출되는 스펙트럼 하위부분에서 이용되고 대역마다의 처리는 나머지 대역들에서 이용된다. 배경잡음 프레임들의 경우에, 일정한 잡음 바닥(noise floor)이 전체 스펙트럼에서 동일한 크기조정이득을 이용하여 제거된다. 게다가, 각 대역 또는 주파수빈에서 크기조정이득의 평활화가 실제 크기조정이득에 역으로 관계되는 평활화계수(smoothing factor)를 이용하여 수행되는 기법(평활화는 이득들이 작을수록 더 강함)이 개시되어 있다. 이 접근방법은 예를 들면 발성개시(voiced onsets)의 경우와 같이 낮은 SNR 프레임들이 앞서는 높은 SNR 음성세그먼트들에서의 왜곡을 방지한다.

본 발명의 하나의 비제한적인 양태는 스펙트럼 차감 기법들에 기초한 잡음감소를 위한 신규한 방법들을 제공하는 것이고, 이로써 잡음감소 방법은 처리되는 음성프레임의 성질에 의존한다. 예를 들면, 발성 프레임들에서, 처리는 특정 주파수 미만의 빈마다 수행될 수 있다.

예시적인 실시예에서, 잡음감소는 음성부호화시스템 내에서 부호화 전에 음성신호에 있는 배경잡음의 레벨을 낮추기 위해 수행된다. 개시된 기법들은 8000샘플/s로 샘플링된 협대역 음성신호들이나 16000샘플/s로 샘플링된 광대역 음성신호들의 어느 한 종류로, 또는 임의의 다른 샘플링주파수로 샘플링된 음성신호들로 전개될 수 있다. 이 예시적인 실시예에서 이용되는 부호기는 AMR-WB 코덱(S. F. Boll, "Suppression of acoustic noise in speech using spectral subtraction," IEEE Trans . Acoust ., Speech , Signal Processing , vol. ASSP-27, pp. 113-120, Apr. 1979 참조)에 기초하며, 그것은 내부 샘플링변환을 이용하여 신호 샘플링 주파수를 12800샘플/s(6.4kHz 대역폭으로 동작)로 변환한다.

그래서 이 예시적인 실시예에서 개시된 잡음감소 기법은 12.8kHz로의 샘플링 변환 후에 협대역 또는 광대역 신호들에 대해 동작한다.

광대역 입력들의 경우에, 16kHz부터 12.8kHz까지 추림(decimation)되어야 한다. 추림은 4배의 1차 업샘플링을 한 후 그 출력을 6.4kHz의 차단주파수를 가지는 저역통과 FIR필터를 통해 필터링함으로써 수행된다. 그 다음에, 신호는 5배로 다운샘플링된다. 필터링 지연은 16kHz 샘플링주파수에서 15개 샘플이다.

협대역 입력들의 경우에, 협대역 입력들의 경우에는, 신호는 8 kHz부터 12.8 kHz까지 업샘플링되어야 한다. 이것은 8배의 1차 업샘플링을 한 후 그 출력을 6.4kHz의 차단주파수를 가지는 저역통과 FIR필터를 통해 필터링함으로써 수행된다. 그 다음에, 신호는 5배로 다운샘플링된다. 필터링 지연은 8kHz 샘플링주파수에서 8개 샘플이다.

샘플링 변환 후, 2가지 전처리 기능들인 고역통과 필터링 및 예비강조(pre-emphasizing)가 부호화 처리 전에 신호에 적용된다.

고역통과필터는 바라지 않은 저주파수 성분들에 대한 예방조치로서 쓸모가 있다. 이 예시적인 실시예에서, 차단주파수 50Hz의 필터가 이용되고, 그것은

로 주어진다.

예비강조에서, 1차 고역통과필터가 높은 주파수들을 강조하기 위해 이용되고, 그것은

로 주어진다.

예비강조는 AMR-WB 코덱에서 고주파수들의 코덱 성능을 개선하기 위해 그리고 부호화기에서 이용되는 오류최소화처리에서의 인지가중치(perceptual weighting)을 개선하기 위해 이용된다.

예시적인 실시예의 나머지에서 잡음감소 알고리즘의 입력에 있는 신호는 12.8kHz 샘플링주파수로 변환되고 전술한 바와 같이 전처리된다. 그러나, 개시된 기법들은 8kHz 또는 16kHz와 같은 다른 샘플링주파수들에서 전처리와 함께 그리고 전처리 없이 신호들에 동등하게 적용될 수 있다.

다음에서, 잡음감소 알고리즘이 상세히 설명될 것이다. 잡음감소 알고리즘이 이용되는 음성 부호화기는 12.8kHz 샘플링 주파수에서 256개 샘플을 담고 있는 20ms 프레임들에 대해 동작한다. 게다가, 이 부호화기는 그것의 분석 시에 장차의 프레임으로부터 13ms 예견능력(lookahead)을 이용한다. 잡음 감소는 동일한 프레이밍(framing) 구조를 따른다. 그러나, 약간의 변화가 부호화기 프레이밍과 잡음감소 프레이밍 사이에 도입되어 예견능력의 이용을 극대화할 수 있다. 이 설명에서, 샘 플들의 색인들은 잡음감소 프레이밍을 반영할 것이다.

도 1은 잡음감소를 구비한 음성통신시스템의 개략도를 보인다. 블록 101에서, 전처리는 위에서 설명된 예시적인 예로서 수행된다.

블록 102에서, 스펙트럼분석과 음성활동도검출(voice activity detection; VAD)이 수행된다. 2가지 스펙트럼분석이 각 프레임에서 50% 겹치는 20ms 윈도우들을 이용하여 수행된다. 블록 103에서, 잡음감소가 스펙트럼 매개변수들에 적용된 다음 역DFT가 증대된 신호를 시간영역으로 변환하기 위해 이용된다. 그 다음에 겹침-가산 연산이 신호를 재구성하기 위해 이용된다.

블록 104에서, 선형예측(LP) 분석과 개방루프 피치 분석이 (통상 음성 부호화 알고리즘의 일부로서) 수행된다. 이 예시적인 실시예에서, 블록 104로부터 나오는 매개변수들은 임계대역들에서의 잡음 추정값들을 갱신하는 판단에 이용된다(블록 105). VAD판단은 잡음 갱신 판단으로서 이용될 수도 있다. 블록 105에서 갱신된 잡음에너지 추정값들은 크기조정이득들을 계산하기 위해 잡음감소 블록(103)에서 다음 프레임에 이용된다. 블록 106은 증대된 음성신호에 대한 음성부호화를 수행한다. 다른 응용들에서, 블록 106은 자동 음성인식시스템일 수 있다. 블록 104의 기능들은 음성부호화알고리즘의 일부분(integral part)일 수 있다는 점에 주의한다.

스펙트럼 분석

이산 푸리에 변환이 스펙트럼 분석 및 스펙트럼 에너지 추정을 수행하기 위해 이용된다. 주파수 분석은 50퍼센트 겹치는 256-지점 고속 푸리에 변환(FET)을 이용하여 프레임당 2번씩 행해진다(도 2에 예시됨). 분석 윈도우들은 모든 예견능 력이 이용되도록 놓인다. 제1윈도우의 시작은 음성부호화기의 현재 프레임 시작 후의 24개 샘플에 놓인다. 제2윈도우는 그 후의 128개 샘플에 놓인다. 해닝(Hanning) 윈도우의 제곱근(이것은 사인 윈도우에 등가임)은 주파수분석을 위해 입력신호를 가중하기 위해 이용되고 있다. 이 윈도우는 겹침-가산법에 특히 잘 맞다(그래서 이 특정 스펙트럼분석은 스펙트럼 감산 및 겹침-가산 분석/합성에 기초하여 잡음 억제 알고리즘에 이용된다). 제곱근 해닝 윈도우는

에 의해 주어지고, 여기서 L _FFT = 256은 FTT분석의 크기이다. 윈도우는 그것이 대칭적이기 때문에 절반만이 계산되고 저장된다(0부터 L _FFT /2까지).

s'(n)은 잡음감소 프레임에서의 제1샘플에 해당하는 색인 0을 가지는 신호라고 하자(이 예시적인 실시예에서, 음성부호화기 프레임의 시작보다 24개 샘플들이 더 있음). 양 스펙트럼 분석을 위해 윈도우들에 들어 있는 신호들은 다음과 같이 얻어지고

여기서 s'(n)은 현재 잡음감소 프레임에서의 제1샘플이다.

FFT는 양 윈도우 신호들에 대해 수행되어 프레임당 스펙트럼 매개변수들의 다음 두 집합들을 얻는다:

FFT의 출력은 X _R (k), k = 0~128, X _I (k), k= 1~127로 표시되는 스펙트럼의 실수부 및 허수부를 준다. X _R (0)는 0Hz(DC)의 스펙트럼에 해당하고 X _R (128)은 6400Hz의 스펙트럼에 해당한다. 이 점들에서의 스펙트럼은 실수값으로만 되고 통상 후속하는 분석에서는 무시된다.

FFT분석 후, 결과적인 스펙트럼은 다음의 상한들을 가지는 간격들을 이용하여 임계대역들(주파수범위 0~6400Hz의 20개 대역들)로 나누어진다:

임계대역들 = {100.0, 200.0, 300.0, 400.0, 510.0, 630.0, 770.0, 920.0, 1080.0, 1270.0, 1480.0, 1720.0, 2000.0, 2320.0, 2700.0, 3150.0, 3700.0, 4400.0, 5300.0, 6350. 0}Hz.

D. Johnston, "Transform coding of audio signal using perceptual noise criteria," IEEE J. Select. Areas Commun., vol. 6, pp. 314-323, Feb. 1988 참조.

256-지점 FFT는 주파수분해능이 50Hz(6400/128)가 되게 한다. 그래서 스펙트럼의 DC성분을 무시한 후에는, 임계대역당 주파수빈들의 수는 M _CB = {2,2,2,2,2,2,3,3,3,4,4,5,6,6,8,9,11,14,18,21}이다.

임계대역의 평균에너지는 다음과 같이 계산되고

여기서 X _R (k)과 X _I (k)는 각각 k번째 주파수빈의 실수부 및 허수부이고 j _i 는 j _i ={1, 3, 5, 7, 9, 11, 13, 16, 19, 22, 26, 30, 35, 41, 47, 55, 64, 75, 89, 107}에 의해 주어진 i번째 임계대역에서의 제1빈의 색인이다.

스펙트럼분석 모듈은 주파수빈당 에너지인 E _BIN (k)를 제1의(처음의) 17개 임계대역들(DC성분을 제외한 74개 빈들)에 대해 계산한다:

최종적으로, 스펙트럼분석 모듈은 평균 임계대역 에너지들(E _CB )을 가산하는 것에 의해 20ms 프레임에서의 양쪽 FFT분석들에 대해 평균 총 에너지를 계산한다. 즉, 특정 스펙트럼분석을 위한 스펙트럼 에너지가 다음과 같이 계산되고:

총 프레임 에너지가 프레임에서 양 스펙트럼분석들의 스펙트럼에너지들의 평균으로서 계산된다. 즉,

스펙트럼분석 모듈의 출력매개변수들, 즉 임계대역당 평균에너지, 주파수빈당 에너지, 및 총 에너지는 VAD, 잡음감소, 및 비율선택 모듈들에서 사용된다.

8000샘플/s로 샘플링된 협대역 입력들의 경우, 12800샘플/s로 샘플링변환된 후, 스펙트럼의 양끝에는 내용물이 없고, 그래서 제1의 낮은 주파수의 임계대역뿐 아니라 나머지 3개의 고주파수 대역들은 출력매개변수들의 계산에서 고려되지 않는다(i=1~16의 대역들만이 고려됨).

음성 활동도 검출

위에서 설명된 스펙트럼분석은 프레임당 2번 수행된다.

과

는 제1 및 제2 스펙트럼분석들 각각을 위한 임계대역당 에너지 정보(수학식 (2)에 보인 것과 같음)를 나타낸다고 하자. 이전 프레임의 전체 프레임과 부분에 대한 임계대역당 에너지는 다음과 같이 계산되며

여기서

는 이전 프레임의 제2분석으로부터의 임계대역당 에너지 정보를 나타낸다. 그 다음에 임계대역당 신호-대-잡음비(SNR)가 다음과 같이 계산되며

여기서 N _CB (i)는 추정된 임계대역당 잡음에너지가고 다음 섹션에서 설명될 것이다. 그 다음에 프레임당 평균 SNR이 다음과 같이 계산되며

여기서 광대역신호들의 경우에 b _min =0이고 b _max =19이며, 협대역신호들의 경우에는 b _min =1이고 b _max =16이다.

음성활동도(voice activity)는 프레임당 평균 SNR을 장기간 SNR의 함수인 특정 문턱값과 비교함으로써 검출된다. 장기간 SNR은 다음에 의해 주어지며

여기서

와

는 각각 수학식 (12)와 (13)을 이용하여 계산되고, 그것들은 나중에 설명될 것이다.

의 초기값은 45dB이다.

문턱은 장기간 SNR의 단편성(piece-wise) 선형함수이다. 두 함수들이 사용되는데 하나는 깨끗한 음성을 위한 것이고 하나는 잡음성 음성을 위한 것이다.

광대역 신호들의 경우, SNR_LT < 35 (잡음성 음성)이면

th _VAD = 0. 4346 SNR _LT + 13.9575

그렇지 않으면(깨끗한 음성이면)

th _VAD = 1.0333 SNR _LT - 7

협대역 신호들의 경우, SNR _LT < 29.6 (잡음성 음성)이면

th _VAD = 0.313 SNR _LT + 14.6

그렇지 않으면(깨끗한 음성이면)

th _VAD =1.0333 SNR _LT -7

게다가, VAD 판정에서의 히스테리시스는 활동적 음성기간의 끝에서의 빈번한 전환을 방지하기 위해 부가된다. 그것은 프레임이 연성잔류기간(soft hangover period)인 경우에 또는 만일 마지막 프레임이 활동적 음성프레임이라면 적용된다. 연상잔류기간은 2개의 연속하는 프레임보다 긴 각각의 활동적 음성버스트 뒤의 처음 10개 프레임으로 구성된다. 잡음성 음성(SNR _LT < 35)의 경우 히스테리시스는

th _VAD = 0.95th _VAD

에 의해 VAD판정 문턱을 감소시킨다.

깨끗한 음성의 경우 히스테리시스는

th _VAD = th _VAD - 11

에 의해 VAD판정 문턱을 감소시킨다.

프레임당 평균 SNR이 VAD판정 문턱보다 크다면, 즉, SNRav > th _VAD 라면, 프레임은 활동적 음성프레임이라 선언되고 VAD플래그 및 국소 VAD플래그는 1로 설정된다. 그렇지 않으면 VAD플래그와 국소 VAD플래그는 0으로 설정된다. 그러나 잡음성 음성의 경우에, VAD플래그는 강성잔류프레임들에서는 1로 강제된다. 즉, 하나 또는 2개의 비활동적 프레임들이 2개의 연속하는 프레임들보다 긴 음성기간을 뒤따른다(그러면 국소 VAD플래그는 0과 동일하게 설정되지만 VAD플래그는 1로 강제된다.

제1레벨의 잡음 추정 및 갱신

이 섹션에서, 총 잡음에너지, 상대 프레임에너지, 장기간 평균 잡음에너지 및 장기간 평균 프레임에너지의 갱신물, 임계대역당 평균 에너지, 및 잡음 정정계수가 계산된다. 게다가, 하향식 잡음에너지 초기화 및 갱신이 주어진다.

프레임당 총 잡음에너지는

에 의해 주어지고, 여기서 N _CB (i)는 임계대역당 추정된 잡음에너지가다.

프레임의 상대 에너지는 dB의 프레임 에너지와 장기간 평균에너지 사이의 차이로 주어진다. 상대 프레임에너지는

에 의해 주어지고, 여기서 E _t 는 수학식 (5)에서 주어진다.

장기간 평균 잡음에너지 또는 장기간 평균 프레임에너지는 프레임마다 갱신된다. 활동적 음성프레임들(VAD플래그 = 1)의 경우에, 장기간 평균 프레임에너지는 다음 수학식

을 이용하여 갱신되고, 여기서 초기값

= 45dB이다.

비활동적 음성프레임들(VAD플래그 = 0)의 경우에, 장기간 평균 잡음에너지는

에 의해 갱신된다.

의 초기값은 처음 4개의 프레임에 대해 N _tot 에 동일하게 설정된다. 게다가, 처음 4개의 프레임에서,

의 값은

≥

+10에 의해 경계가 정해진다

임계대역당 프레임 에너지, 잡음 초기화, 및 하향 잡음 갱신 :

전체 프레임에 대한 임계대역당 프레임에너지는 프레임에서 양 스펙트럼분석들로부터의 에너지들을 평균하는 것에 의해 계산된다. 즉,

임계대역당 잡음에너지 N _CB (i)는 처음에는 0.03으로 초기화된다. 그러나, 처음 5개 프레임에서, 신호에너지가 너무 높지 않다면 또는 신호가 강한 고주파수 성분들을 가지지 않는다면, 잡음에너지는 임계대역당 에너지를 이용하여 초기화되어 잡음감소 알고리즘은 처리의 시작부터 바로 효율적일 수 있다. 2개의 고주파수비율들이 계산되는데, r ₁₅ , ₁₆ 는 임계대역 15 및 16의 평균에너지 및 처음 10개 대역에서의 평균에너지 사이의 비율(양 스펙트럼 분석들의 평균)이고, r _18,19 는 대역 18 및 19에 대해 동일하게 하여 얻어진 비율이다.

처음 5개 프레임에서, 만일 E _t < 49이고 r ₁₅ , ₁₆ < 2이고 r ₁₈ _,19 < 1.5라면, 처음 3개 프레임에 대해,

이고 다음 2개의 프레임에 대해 NCB(i)는

에 의해 갱신된다.

다음 프레임들의 경우, 이 단계에서, 하향 잡음에너지 갱신(noise energy update downward)만이 임계대역들에 대해 수행되어 에너지는 배경잡음 에너지 미만이 된다. 먼저, 임시 갱신된 잡음에너지는

와 같이 계산되고, 여기서

는 이전 프레임으로부터의 제2스펙트럼분석에 해당한다.

그러면, i = 0~19에 대해, 만일 N _tmp (i) < N _CB (i)이면 N _CB (i) = N _tmp (i)이다.

만일 프레임이 비활동적 프레임으로서 선언된다면 제2레벨의 잡음 갱신이 나중에 N _CB (i) = N _tmp (i)로 설정함으로써 수행된다. 잡음에너지 갱신을 두 부분들로 단편화하는 이유는 잡음 갱신이 비활동적 음성프레임들 동안에만 실행될 수 있고 그래서 음성활동도 판정에 필요한 모든 매개변수들이 필요하기 때문이다. 그러나 이 매개변수들은 잡음 제거된 음성신호에 대해 실행되는 LP예측분석 및 개방루프 피치 분석에 의존한다. 가능한 한 정확한 잡음 추정을 해야하는 잡음감소 알고리즘의 경우, 잡음 추정 갱신은 잡음감소 실행 전에 하향식으로 갱신되고 나중에 프레임이 비활동적이라면 상향식으로 갱신된다. 하향식 잡음 갱신은 안전하고 음성활동도에 무관하게 행해질 수 있다.

잡음감소 :

잡음감소는 신호영역에 적용되고 그러면 잡음 제거된 신호는 겹침 및 가산을 이용하여 재구성된다. 이 감소는 각 임계대역의 스펙트럼을 g_min와 1사이로 제한되 고 그 임계대역의 신호-대-잡음비(SNR)로부터 도출된 크기조정이득에 의해 크기조정함으로써 수행된다. 잡음 억제에서의 새로운 특징은 신호 발성(signal voicing)에 관계된 특정 주파수보다 낮은 주파수들에 대해 처리가 주파수빈 기반이지만 임계대역 기반은 아니게 수행된다는 것이다. 그래서, 크기조정이득은 그 빈(bin)의 SNR로부터 도출된 모든 주파수빈에 적용된다(SNR은 그 빈에 포함된 임계대역의 잡음에너지에 의해 나누어진 빈에너지를 이용하여 계산된다). 이 새로운 특징은 고조파(harmoincs) 근처의 주파수들에서 에너지를 보존하여 고조파 사이에서의 잡음을 강하게 감소하면서 왜곡을 방지할 수 있다. 이 특징은 발성 신호들에만 이용될 수 있고, 비교적 짧은 피치 기간을 가진 신호들의 경우, 사용되는 주파수분석의 주파수 분해능이 제공될 수 있다. 그러나, 이것들은 정확히 고조파들 사이의 잡음이 대부분 인지가능한 신호들이다.

도 3은 개시된 절차의 개요를 보인다. 블록 301에서, 스펙트럼분석이 수행된다. 블록 302는 발성된 임계대역들의 수가 0보다 큰지를 확인한다. 만일 그렇다면 잡음감소가 블록 304에서 수행되어 빈마다(per bin) 처리가 처음 발성된 K개 대역들에서 수행되고 대역마다(per band) 처리가 나머지 대역들에서 수행된다. 만일 K = 0이면 대역마다 처리는 모든 임계대역들에 적용된다. 스펙트럼에 대한 잡음감소 후, 블록 305는 역DFT 분석을 수행하고 겹침-가산연산이 이용되어 나중에 설명될 바와 같이 증대된 음성신호를 재구성한다.

최소 크기조정이득(g_min)이 최대로 허용된 잡음감소 dB인 NR _max 로부터 도출된 다. 최대로 허용된 잡음감소는 14dB의 디폴트값을 가진다. 그래서 최소 크기조정이득은

로 주어지고 그것은 14dB의 디폴트값에 대해 0.199953이다.

VAD = 0을 가지는 비활동적 프레임들의 경우에, 동일한 크기조정은 전체 스펙트럼에 적용되고 잡음 억제가 가동된다면(g_min이 1보다 작다면) g_s = 0.9g_min로 주어진다. 즉, 스펙트럼의 크기조정된 실수 및 허수 성분들은

로 주어진다.

협대역 입력들의 경우, 수학식 (19)의 상한들은 79(3950Hz까지)로 설정된다는 점에 주의한다.

활동적 프레임들의 경우, 크기조정이득은 처음 발성된 대역들에 대해 임계대역당의 또는 빈당의 SNR에 관계하여 계산된다. 만일 K _VOIC > 0이라면 빈마다 잡음 억제는 처음 K _VOIC 대역들에 대해 수행된다. 대역마다 잡음 억제는 나머지 대역들에 대해 수행된다. K _VOIC = 0인 경우에 대역마다 잡음 억제는 전체 스펙트럼에 이용된다. K _VOIC 의 값은 나중에 설명될 바와 같이 갱신된다. K _VOIC 의 최대값은 17이고, 그러므로 빈당 처리는 최대주파수 3700Hz에 상응하는 처음 17개 임계대역에만 적용될 수 있다. 빈당 처리가 이용될 수 있는 빈들의 최대 수는 74(처음 17개 대역의 빈(bin) 수)이다. 이 섹션의 나중에 설명될 강성잔류프레임들에 대해 예외가 만들어진다.

대체 구현예에서, K _VOIC 의 값은 고정될 수 있다. 이 경우, 모든 유형들의 음성프레임들에서, 빈마다 처리가 특정 대역까지 수행되고 대역마다 처리는 다른 대역들에 적용된다.

특정 임계대역에서의 또는 특정 주파수빈에 대한 크기조정이득은, SNR의 함수로서 계산되고

로 주어진다.

k _s 와 c _s 의 값들은 SNR = 에 대해 g _s = g _min , 그리고 SNR = 45에 대해 g _s = 1과 같이 결정된다. 즉, 1dB 이하에서의 SNR들의 경우, 크기조정은 g _s 로 제한되고 45dB 이상에서의 SNR들의 경우, 주어진 임계대역에서는 잡음 억제가 수행되지 않는다(g _s = 1). 그래서, 이 두 끝점들이 주어지면, 수학식 (20)에서의 k _s 와 c _s 의 값들은 다음에 의해 주어진다:

수학식 (20)에서의 변수 SNR은 처리 유형에 의존하여 임계대역당 SNR인 SNR _CB (i), 또는 주파수빈당 SNR인 SNR _BN (k) 중의 하나이다.

임계대역당 SNR은 프레임에서의 제1스펙트럼분석의 경우에는 다음과 같이 계산되고

제2스펙트럼분석의 경우, SNR은 다음과 같이 계산되며,

여기서

와

는 각각 제1 및 제2 스펙트럼분석들에 대한 임계대역당 에너지 정보(수학식 (2)로 계산됨)를 나타내고,

는 이전 프레임의 제2분석으로부터의 임계대역당 에너지 정보이고, N _CB(i)는 임계대역당 잡음에너지 추정값을 나타낸다.

특정 임계대역(i)에서의 임계 빈당 SNR은 프레임에서의 제1스펙트럼분석의 경우에는 다음과 같이 계산되고

제2스펙트럼분석의 경우, SNR은 다음과 같이 계산되며

여기서

와

는 각각 제1 및 제2 스펙트럼분석들에 대한 주파수빈당 에너지들(수학식 (3)으로 계산됨)을 나타내며,

는 이전 프레임의 제2분석으로부터의 주파수빈당 에너지 정보이며, N _CB(i)는 임계대역당 잡음에너지 추정값을 나 타내며, j _i 는 i번째 임계대역에서의 제1빈의 색인이고 M _CB (i)는 위에서 정의된 임계대역(i)에서의 빈들의 수이다.

색인 i를 가지는 대역에 대한 임계대역마다의 처리의 경우에, 수학식 (22)에서와 같은 크기조정이득을 결정한 후, 그리고 수학식 (24) 또는 (25)에서 정의된 SNR을 이용하면, 실제 크기조정은 모든 주파수분석마다 갱신되는 평활화된 크기조정이득을 이용하여 다음과 같이 수행된다:

이 발명에서, 평활화계수(smoothing factor)가 적응적이고 이득 자체에 역의 관계를 이룬다는 신규한 특징이 개시된다. 이 예시적인 실시예에서 평활화계수는 α_gs = l-g_s로 주어진다. 즉, 평활화는 이득(g_s)이 작을수록 더 강하다. 이 접근법은 발성개시를 위한 경우처럼 낮은 SNR의 프레임들이 앞서는 높은 SNR의 음성세그먼트들에서의 왜곡을 방지한다. 예를 들면 비발성 음성프레임들에서 SNR은 낮고 그래서 강한 크기조정이득이 스펙트럼에서 잡음을 줄이기 위해 이용된다. 만일 발성개시가 비발성 프레임을 뒤따른다면, SNR은 더 높게 되고, 만일 이득 평활화가 크기조정이득의 신속한 갱신을 방지한다면, 열악한 성능에 이르게 할 발성개시에는 강한 크기조정이 사용되기 쉽다. 제안된 접근법에서, 평활화 절차는 신속히 적합하게 될 수 있고 개시(onset)에 대해 더 낮은 크기조정이득을 이용한다.

임계대역에서의 크기조정은 다음과 같이 수행되며

여기서 j _i 는 임계대역(i)에서 처음 빈의 색인이고 M _CB (i)는 그 임계대역에서 빈들의 수이다.

색인 i를 가지는 대역에서의 빈마다 처리의 경우에, 수학식 (20)에서처럼 크기조정이득을 결정한 후, 그리고 수학식 (24) 또는 (25)에서 정의된 바와 같은 SNR을 이용하면, 실제 크기조정은 모든 주파수분석마다 갱신되는 평활화된 크기조정이득을 이용하여 다음과 같이 수행되며,

여기서 수학식 (26)과 마찬가지로 α_g _s = 1- g_s이다.

이득들의 일시적인 평활화는 가청 에너지 진동들을 방지하는 반면 α_g _s를 이용한 평활화 제어는 낮은 SNR의 프레임들이 앞서는 높은 SNR 음성세그먼트들에서의 왜곡을 방지하는데, 예를 들면 발성개시들의 경우와 같다.

임계대역(i)에서의 크기조정은 다음과 같이 수행되며,

평활화된 크기조정이득들인 g _BIN _,LP (k) 및 g _CB,LP (i)는 초기에 1로 설정된다. 비활동적 프레임이 처리되는 각 시간에(VAD=0), 평활화된 이득값들은 수학식 (18)에서 정의된 g_min으로 재설정된다.

위에서 언급된 바와 같이, 만일 K _VOIC > 0이면 빈마다 잡음 억제가 처음 K _VOIC 대역들에 대해 수행되고, 대역마다 잡음 억제는 전술한 절차들을 이용하여 나머지 대역들에 대해 수행된다. 매 스펙트럼분석에서 평활화된 크기조정이득들인 g _CB, _LP (i)는 모든 임계대역들에 대해 갱신된다(빈마다 처리로 처리되는 발성 대역들의 경우에도 - 이 경우 g _CB, _LP (i)는 대역 i에 속한 g _BIN _, _LP (k)의 평균으로 갱신된다). 마찬가지로, 크기조정이득들인 g _BIN _, _LP (k)는 처음 17개 대역들의 모든 주파수빈들(빈 74까지)에 대해 갱신된다. 밴드마다 처리로 처리된 대역들의 경우 그것들은 그것들을 이 17개 특정 대역들에서 g _CB, _LP (i)와 동일하게 설정하는 것에 의해 갱신된다.

깨끗한 음성의 경우에, 잡음 억제는 활동적 음성프레임들(VAD=1)에서 수행되지 않는다. 이것은 모든 임계대역들에서 최대 잡음에너지인 max(N _CB (i)), i = 0,..., 19를 찾음으로써 검출되고, 만일 이 값이 15 이하라면 잡음 억제는 수행되지 않는다.

위에서 언급된 바와 같이, 비활동적 프레임들(VAD=0)의 경우, 0.9g_min의 크기조정은 전체 스펙트럼에 적용되고, 그것은 일정한 잡음 마루를 제거하는 것과 동등 하다. VAD 단기잔류 프레임들의 경우(VAD=1이고 local_VAD=0), 대역마다 처리는 위에서 설명된 바와 같이 처음 10개 대역에 적용되고(1700Hz에 해당), 스펙트럼의 나머지에 대해서는, 스펙트럼의 나머지를 일정한 값 g_min로 크기조정하는 것에 의해 일정한 잡음 마루가 감산된다. 이 방책은 고주파수 잡음에너지 진동들을 상당히 감소시킨다. 10번째 대역 위의 이 대역들의 경우, 평활화된 크기조정이득들인 g _CB,LP (i)는 재설정되지 않지만 g_s = g _min 와 수학식 (26)을 이용하여 갱신되고 빈마다 평활화된 크기조정이득들인 g _BIN _,LP (k)는 그것들을 대응하는 임계대역들에서 g _CB, _LP (i)와 동일하게 설정하는 것에 의해 갱신된다.

위에서 설명된 절차는 잡음감소 알고리즘이 처리되는 음성프레임의 성질에 의존하는 부류특화 잡음감소로 이해될 수 있다. 이것은 도 4에 도시되어 있다. 블록 401은 VAD플래그가 0(비활동적 음성)인지를 확인한다. 만일 이것이 그 경우라면 동일한 크기조정이득을 전체 스펙트럼에 적용하는 것에 의해 일정한 잡음 마루가 스펙트럼으로부터 제거된다. 그렇지 않다면, 블록 403은 프레임이 VAD 잔류 프레임인지를 확인한다. 만일 이것이 그 경우라면 대역마다 처리가 처음 10개 대역에 이용되고 동일한 크기조정이득이 나머지 대역들에 이용된다(블록 406). 그렇지 않다면, 블록 405는 발성이 스펙트럼의 처음 대역들에서 검출되는지를 확인한다. 만일 이것이 그 경우라면 빈마다 처리가 처음 K개 발성대역들에서 수행되고 대역마다 처리는 나머지 대역들에서 수행된다(블록 406). 발성 대역들이 검출되지 않는다면 대역마다 처리는 모든 임계대역들에서 수행된다(블록 407).

협대역 신호들의 전처리의 경우에(12800Hz로 업샘플링됨), 잡음 억제는 처음 17개 대역에 대해 수행된다(3700Hz까지). 3700Hz와 4000Hz 사이의 나머지 5개 주파수빈의 경우, 스펙트럼은 3700Hz의 빈에 마지막 크기조정이득 g_s를 이용하여 크기조정된다. 스펙트럼의 나머지(4000Hz부터 6400Hz까지)에 대해, 스펙트럼은 제로화된다.

잡음 제거된 신호의 재구성:

크기조정된 스펙트럼 성분들인 X' _R (k) 및 X' _I (k)를 결정한 후, 역FFT가 크기조정된 스펙트럼에 적용되어 시간영역에서 윈도우 내에 있는 잡음 제거된 신호를 얻는다.

이것은 잡음 제거된 윈도우 내의 신호들인

및

를 얻기 위해 프레임의 양 스펙트럼분석들에 반복된다. 모든 절반 프레임마다, 신호는 분석의 겹침부분들을 위한 겹침-가산 동작을 이용하여 재구성된다. 제곱근 해닝 윈도우가 스펙트럼분석 전에 원본신호에 대해 사용되므로, 동일한 위도우가 겹침-가산 동작 전의 역FFT의 출력에 적용된다. 그래서, 이중 윈도우의 잡음 제거된 신호는 다음에 의해 주어진다:

분석윈도우의 처음 반분의 경우, 잡음 제거된 신호를 재구성하기 위한 겹침-가산 동작은 다음과 같이 수행되며:

그리고 분석 윈도우의 제2절반의 경우, 잡음 제거된 신호를 재구성하기 위한 동작-가산 정보는 다음과 같고

여기서

는 이전 프레임의 제2분석으로부터의 이중의 윈도우 내에 있는 잡음 제거된 신호이다.

겹침-가산동작으로, 음성 부호화기 프레임과 잡음감소 프레임 사이에 24 샘플 시프트가 있으므로, 잡음 제거된 신호는 현재 프레임 외에도 예견능력으로부터 샘플링된 24개까지 재구성될 수 있다. 그러나, 다른 128개 샘플이 선형예측(LP) 분석 및 개방루프 피치 분석을 위해 음성부호화기에 의해 필요해진 예견능력을 완성하는 것이 여전히 필요하다. 이 부분은 겹침-가산동작을 수행하는 일 없이 잡음 제거된 윈도우 내의 신호

의 제2의 절반을 역 윈도우잉하는 것에 의해 임시적으로 얻어진다. 즉

신호의 이 부분이 겹침-가산 동작을 이용하여 다음 프레임 내에서 적당히 재계산됨에 주의한다.

잡음에너지 추정값 갱신

이 모듈은 잡음 억제를 위해 임계대역당 잡음에너지 추정값들을 갱신한다. 갱신은 비활동적 음성기간들 동안 수행된다. 그러나, 위에서 수행된 VAD판정은, 임계대역당 SNR에 기초한 것으로, 잡음에너지 추정값들이 갱신되는지를 결정하기 위해 이용되지 않는다. 다른 판정이 임계대역당 SNR에 독립적으로 다른 매개변수들에 기초하여 수행된다. 잡음 갱신 판정을 위해 이용되는 매개변수들은, 피치 안정도, 신호 비-정상성(non-stationarity), 발성, 및 2차 및 16차 LP 잔류에러 에너지들 사이의 비율이고 잡음레벨 변동들에 대해 일반적으로 낮은 민감도를 가진다.

잡음 갱신을 위해 부호화기 VAD 판정을 이용하지 않는 이유는 잡음추정을 신속히 변화하는 잡음레벨들에 대해 강건하게(rbust) 만드는 것이다. 부호화기 VAD 판정이 잡음 갱신을 위해 이용된다면, 잡음레벨의 갑작스런 증가는 비활동적 음성프레임들에 대해서 조차도 SNR의 증가를 야기하여, 잡음 추정기가 갱신되는 것을 막을 것이고, 이는 다음 프레임들에서 SNR을 높게 유지하는 등의 일을 유발할 것이다. 결과적으로, 잡음 갱신은 차단될 것이고 약간의 다른 논리가 잡음 적응을 재개하는데 필요할 것이다.

이 예시적인 실시예에서, 개방루프 피치 분석이 부호화기에서 수행되어 프레임당 3개의 개방루프 피치 추정값들, 즉 제1절반프레임, 제2절반프레임, 및 예견능력에 각각 대응하는 d ₀ , d ₁ , 및 d ₂ 를 계산한다. 피치 안정도 카운터는 다음과 같이 계산되며

여기서 d_- ₁는 이전 프레임의 제2절반프레임의 래그(lag)이다. 이 예시적인 실시예에서, 122보다 큰 피치래그들에 대해, 개방루프 피치 검색모듈은 d ₂ = d ₁ 으로 설정한다. 그래서, 그런 래그들에 대해 수학식 (31)에서의 pc의 값은 3/2가 곱해져 수학식에서 누락되는 3번째 항을 보상한다. 피치 안정도는 pc의 값이 12미만이라면 진짜이다. 게다가, 낮은 발성을 가지는 프레임들의 경우, pc는 12로 설정되어 피치 불안정성을 나타낸다. 즉,

여기서 C _norm (d)는 정규화된 원시 상관(normalized raw correlation)이고 r _e 는 배경잡음의 존재 시에 정규화된 상관의 감소를 보상하기 위해 정규화된 상관에 부가되는 옵션적인 상관이다. 이 예시적인 실시예에서, 정규화된 상관은 추림되어 있는 가중된 음성신호에 기초하여 계산되고 다음과 같이 주어지며

여기서 합산 한계는 지연 자체에 의존한다. 이 예시적인 실시예에서, 개방루프 피치 분석에 이용되는 가중된 신호는 2로 추림되고 합산 한계들은

에 따라 주어진다.

신호 비-정상성 추정은 임계대역당 에너지와 임계대역당 평균 장기간 에너지 사이의 비율들의 적(곱)에 기초하여 수행된다.

임계대역당 평균 장기간 에너지는 다음에 의해 갱신되며

여기서 광대역 신호들의 경우에 b _min =0 및 b _max =19이고, 협대역 신호들의 경우에 b _min =1 및 b _max =16이고,

는 수학식 (14)에 정의된 임계대역당 프레임에너지이다. 갱신계수(α_e)는 수학식 (5)에서 정의된 총 프레임에너지의 선형함수이고, 다음과 같이 주어진다:

광대역 신호들의 경우: α_e = 0.0245E _tot - 0.235이고 0.5 ≤ α_e ≤ 0.99.

협대역 신호들의 경우: α_e = 0.00091E _tot + 0.3185이고 0.5 ≤α_e ≤ 0.999.

프레임 비-정상성은 프레임에너지와 임계대역당 평균 장기간 에너지 사이의 비율들의 적에 의해 주어진다. 즉,

잡음 갱신을 위한 발성계수는 다음에 의해 주어진다:

최종적으로, 2차 및 16차 분석 후의 LP잔여에너지들 사이의 비율은 다음에 의해 주어지며

여기서 E(2)와 E(16)은 2차 및 16차 분석 후의 LP잔여에너지들이고, 이 기술분야의 당업자에게 잘 알려진 레빈슨-더빈(Levinson-Durbin) 재귀(recursion)에서 계산된다. 이 비율은 신호의 스펙트럼 포락선을 나타내기 위해서는 더 높은 차수의 LP가 일반적으로 잡음보다는 음성신호를 위해 필요하다는 사실을 반영한다. 바꾸어 말하면, E(2)와 E(16) 사이의 차이는 활동적 음성의 경우보다 잡음의 경우에 더 낮다고 추측된다.

갱신 판정은 변수 noise _ update에 기초하여 결정되는데 이 변수는 초기에는 6으로 설정되고 비활동적 프레임이 검출된다면 1만큼 감소되고 활동적 프레임이 검출된다면 2만큼 감소된다. 게다가, noise _ update는 0과 6으로 경계가 정해진다. 잡음에너지들은 noise_update = 0일 때만 갱신된다.

변수 noise _ update의 값은 각 프레임에서 다음과 같이 갱신된다:

If(nonstat>th _stat )OR(pc<12)OR(voicing>0.85)OR(resid _ratio>th _resid )

noise_update = noise_update + 2

Else

noise_update = noise_update-1

여기서 광대역 신호들의 경우 th _stat =350000 및 th _resid =1.9이고, 협대역 신호들의 경우 th _sta _t =500000 이고 th _resid =11이다.

바꾸어 말하면, 프레임들은

(nonstat ≤ th _stat )AND(pc ≥12)AND(voicing ≤0.85)AND(resid _ ratio ≤ th _resid )

일 때 잡음 갱신을 위해 비활동적으로 선언되고 잔류하는 6개 프레임들은 잡음 갱신이 일어나기 전에 이용된다.

그래서, 만일 noise_update=0이면,

i = 0~19에 대해 N _CB (i) = N _tmp (i)

여기서 N _tmp (i)는 수학식 (17)에서 미리 계산된 임시 갱신된 잡음에너지가다.

발성 차단주파수의 갱신 :

그 아래의 신호가 발성된 것으로 간주되는 차단주파수는 갱신된다. 이 주파수는 잡음억제가 빈 처리를 이용하여 수행되는 임게대역들의 수를 결정하는데 이용된다.

먼저, 발성 계량값은 다음과 같이 계산되며

발성 차단주파수는 다음에 의해 주어진다:

그 다음에, f _c 를 초과하지 않는 상위주파수를 가지는 임계대역들의 수(K _voic )가 결정된다. 325 ≤ f _c ≤ 3700의 경계들이 빈마다 처리가 최소 3개의 대역들과 최대 17개 대역들(위에서 정의된 임계대역들의 상한들을 말함)에 대해 수행되도록 설정된다. 발성측정 계산에서 더 많은 가중치가 예견능력의 정규화된 상관에 주어지는데 결정된 발성 대역들의 수가 다음 프레임에서 이용될 것이기 때문임에 주의한다.

그래서, 다음 프레임에서, 처음 K _voic 임계대역들의 경우, 잡음 억제는 위에서 설명된 바와 같이 빈마다 처리를 이용할 것이다.

낮은 발성을 가지는 프레임들에 대해 그리고 큰 피치 지연들에 대해, 임계대역마다 처리만이 이용되고 그래서 K _voic 는 0으로 설정된다. 다음 조건이 이용된다:

물론, 많은 다른 변형들과 개조들이 가능하다. 본 발명의 실시예들 및 관련 도면들의 위에서 설명된 예시적 설명의 견지에서, 그러한 다른 변형들과 개조들은 이 기술분야의 당업자에게 이제 명백하게 될 것이다. 그러한 다른 변형들이 본 발명의 정신과 범위로부터 벗어나는 일없이 행해질 수 있을 것임 또한 명백할 것이다.

Claims

음성신호의 잡음 억제를 위한 방법에 있어서,

주파수 분석을 수행하여 복수의 주파수 빈들을 포함하는 음성신호의 스펙트럼영역 표현을 생성하는 단계; 및

주파수 빈들을 다수의 주파수대역들로 그룹화하는 단계를 포함하며,

발성된 음성 활동도가 음성 프레임에서 검출될 때, 잡음 억제가 제1수의 주파수대역들에 대해 주파수 빈마다 수행되고 잡음 억제는 제2수의 주파수대역들에 대해 주파수대역마다 수행되는 것을 특징으로 하는 음성 신호의 잡음 억제를 위한 방법.
제1항에 있어서, 상기 주파수대역들의 제1수는 발성되는 주파수대역들의 수에 따라 결정되는, 음성 신호의 잡음 억제 방법.
제1항에 있어서, 상기 주파수대역들의 제1수는 음성 프레임이 발성된다고 간주되는 상한 주파수인 발성 차단주파수에 대해 결정되는, 음성 신호의 잡음 억제 방법.
제3항에 있어서, 상기 제1수의 주파수대역들은 발성 차단주파수를 초과하지 않는 상위주파수를 가지는 음성 프레임의 모든 주파수대역들을 포함하는, 음성 신호의 잡음 억제 방법.
제1항에 있어서, 상기 주파수대역들의 제1수는 기설정된 정수인, 음성 신호의 잡음 억제 방법.
제1항에 있어서, 음성 프레임의 주파수대역들이 발성되지 않는다면, 잡음 억제는 모든 주파수대역들에 대해 주파수대역마다 수행되는, 음성 신호의 잡음 억제 방법.
제6항에 있어서, 상기 음성신호는 다수의 샘플을 포함하는 음성프레임들을 포함하고 제1항의 방법은 음성프레임의 잡음을 억제하는데 적용되는, 음성 신호의 잡음 억제 방법.
제7항에 있어서, 음성프레임의 제1샘플에 대해 m개 샘플만큼 오프셋된 분석윈도우를 이용하여 상기 주파수 분석을 수행하는 단계를 포함하는, 음성 신호의 잡음 억제 방법.
제7항에 있어서,

음성프레임의 제1샘플에 대해 m개 샘플만큼 오프셋된 제1분석윈도우와 음성프레임의 제1샘플에 대해 p개 샘플만큼 오프셋된 제2주파수분석윈도우를 이용하여 제1주파수분석을 수행하는 단계를 포함하는, 음성 신호의 잡음 억제 방법.
제9항에 있어서, m = 24이고 p = 128인, 음성 신호의 잡음 억제 방법.
제9항에 있어서, 상기 제2분석윈도우는 음성신호의 상기 음성프레임부터 후속하는 음성프레임까지 연장하는 예견능력부를 포함하는, 음성 신호의 잡음 억제 방법.
제1항에 있어서, 상기 제1수의 주파수 대역들에 대한 크기조정이득을 주파수 빈들에 적용하고 그리고 상기 제2수의 주파수 대역들에 대해 주파수 대역들의 이득을 크기 조정하는 것에 의해 잡음 억제를 수행하는 단계를 포함하는, 음성 신호의 잡음 억제 방법.
제1항에 있어서, 잡음 억제가 주파수빈마다 수행될 때, 상기 방법은 주파수빈에 대해 주파수빈 특화 크기조정이득을 결정하는 단계를 더 포함하는, 음성 신호의 잡음 억제 방법.
제1항에 있어서, 잡음 억제가 주파수대역마다 수행될 때, 상기 방법은 주파수대역에 대해 주파수대역 특화 크기조정이득을 결정하는 단계를 더 포함하는, 음성 신호의 잡음 억제 방법.
제6항에 있어서, 모든 주파수대역들에 대해 일정한 크기조정이득을 적용함으로써 잡음 억제를 수행하는 단계를 포함하는, 음성 신호의 잡음 억제 방법.
제13항에 있어서, 주파수빈에 대해 결정된 신호-대-노이즈비(SNR)에 관련한 주파수빈에 대해 주파수빈 특화 크기조정이득을 위한 값을 결정하는 단계를 포함하는, 음성 신호의 잡음 억제 방법.
제14항에 있어서, 주파수대역에 대해 결정된 신호-대-노이즈비(SNR)에 관련한 주파수대역에 대해 주파수대역 특화 크기조정이득을 위한 값을 결정하는 단계를 포함하는, 음성 신호의 잡음 억제 방법.
제16항에 있어서, 제1 및 제2 주파수분석들의 각각에 대해 제16항의 단계들을 수행하는 단계를 포함하는, 음성 신호의 잡음 억제 방법.
제17항에 있어서, 제1 및 제2 주파수분석들의 각각에 대해 제17항의 단계들을 수행하는 단계를 포함하는, 음성 신호의 잡음 억제 방법.
제12항 내지 제14항 중 어느 한 항에 있어서, 상기 크기조정이득은 평활화된 크기조정이득인, 음성 신호의 잡음 억제 방법.
제12항 내지 제14항 중 어느 한 항에 있어서, 특정 주파수빈 또는 특정 주파수대역에 대해 크기조정이득에 역 비례하는 값을 가지는 평활화계수를 이용하여 특정 주파수빈 또는 특정 주파수대역에 적용하려는 평활화된 크기조정이득을 계산하는 단계를 포함하는, 음성 신호의 잡음 억제 방법.
제12항 내지 제14항 중 어느 한 항에 있어서, 크기조정이득의 값들이 작을수록 평활화가 더 강해지도록 결정된 값을 가지는 평활화계수를 이용하여 특정 주파수빈 또는 특정 주파수대역에 적용하려는 평활화된 크기조정이득을 계산하는 단계를 포함하는, 음성 신호의 잡음 억제 방법.
제13항 또는 제14항에 있어서, 크기조정이득의 값을 결정하는 단계는 음성프레임당 n번 발생하고 n은 1보다 큰, 음성 신호의 잡음 억제 방법.
제23항에 있어서, n = 2인, 음성 신호의 잡음 억제 방법.
제13항 또는 제14항에 있어서, 크기조정이득의 값을 음성프레임당 n번 결정하는 단계로서, n은 1보다 크고, 발성 차단주파수는 적어도 부분적으로는 이전 음성프레임의 음성신호의 함수인, 음성 신호의 잡음 억제 방법.
제13항에 있어서, 주파수빈마다의 잡음 억제는 17개 대역에 상응하는 최대 74개 빈들에 대해 수행되는, 음성 신호의 잡음 억제 방법.
제13항에 있어서, 주파수빈마다의 잡음 억제는 주파수 3700Hz에 상응하는 최대 수의 주파수빈들에 대해 수행되는, 음성 신호의 잡음 억제 방법.
제16항에 있어서, 제1 SNR값에 대해, 크기조정이득의 값은 최소값으로 설정되고, 제1 SNR값보다 큰 제2 SNR값에 대해 크기조정이득 값은 1로 설정되는, 음성 신호의 잡음 억제 방법.
제28항에 있어서, 제1 SNR값은 1dB 이하이고, 제2 SNR값은 45dB 이상인, 음성 신호의 잡음 억제 방법.
제20항에 있어서, 활동적 음성을 담고 있지 않은 음성신호의 구역들을 검출하는 단계를 더 포함하는, 음성 신호의 잡음 억제 방법.
제30항에 있어서, 활동적 음성을 담고 있지 않은 음성신호의 구역을 검출하는 것에 응답하여 평활화된 크기조정이득을 최소값으로 재설정하는 단계를 더 포함하는, 음성 신호의 잡음 억제 방법.
제7항에 있어서, 잡음 억제는 복수의 주파수대역들의 최대 잡음에너지가 문턱값 미만일 때에는 수행되지 않는, 음성 신호의 잡음 억제 방법.
제7항에 있어서, 단기잔류 음성프레임의 발생에 응답하여, 제1 x개 주파수대역들에 대해 주파수대역마다 결정되는 크기조정이득을 적용함으로써 잡음 억제를 수행하고 나머지 주파수대역들에 대해 크기조정이득의 단일 값을 적용함으로써 잡음 억제를 수행하는, 음성 신호의 잡음 억제 방법.
제33항에 있어서, 제1 x개 주파수대역들은 1700Hz까지의 주파수에 상응하는, 음성 신호의 잡음 억제 방법.
제20항에 있어서, 협대역 음성신호에 대해 상기 방법은 3700Hz까지의 주파수에 상응하는 제1 x개 주파수대역들에 대해 주파수대역마다 결정되는 평활화된 크기조정이득들을 적용함으로써 잡음 억제를 수행하는 단계, 3700Hz에 상응하는 주파수빈에서의 크기조정이득의 값을 3700Hz와 4000Hz 사이의 주파수빈들에 적용함으로써 잡음 억제를 수행하는 단계, 및 음성신호의 주파수 스펙트럼의 나머지 주파수대역들을 제로화하는 단계를 더 포함하는, 음성 신호의 잡음 억제 방법.
제35항에 있어서, 협대역 음성신호는 12800Hz로 업샘플링된 것인, 음성 신호의 잡음 억제 방법.
제3항에 있어서, 계산된 발성 계량값을 이용하여 발성 차단주파수를 결정하는 단계를 더 포함하는, 음성 신호의 잡음 억제 방법.
제37항에 있어서, 상기 발성 차단주파수를 초과하지 않는 상위주파수를 가지는 다수의 임계대역을 결정하는 단계로서, 경계들은 주파수빈마다의 잡음 억제가 최소 x개 대역 및 최대 y개 대역들에 대해 수행되도록 설정되는 단계를 더 포함하는, 음성 신호의 잡음 억제 방법.
제38항에 있어서, x = 3이고 y = 17인, 음성 신호의 잡음 억제 방법.
제37항에 있어서, 상기 발성 차단주파수는 325Hz 이상이고 3700Hz 이하가 되도록 경계가 정해지는, 음성 신호의 잡음 억제 방법.
음성신호의 잡음을 억제하기 위한 기기에 있어서, 상기 기기는,

주파수 분석을 수행하여 복수의 주파수 빈들을 포함하는 음성신호의 스펙트럼영역 표현을 생성하도록; 그리고

주파수 빈들을 다수의 주파수대역들로 그룹화하도록 구성되며,

상기 기기는 발성된 음성 활동도를 검출하도록 구성되고 발성된 음성 활동도가 음성 프레임에서 검출될 때, 제1수의 주파수대역들에 대해 주파수 빈마다 잡음 억제를 수행하고 제2수의 주파수대역들에 대해 주파수대역마다 잡음 억제를 수행하는 것을 특징으로 하는, 음성 신호의 잡음 억제 기기.
제41항에 있어서, 상기 주파수대역들의 제1수는 발성되는 주파수대역들의 수에 따라 결정되는, 음성 신호의 잡음 억제 기기.
제41항에 있어서, 상기 기기는 음성 프레임이 발성된다고 간주되는 상한 주파수인 발성 차단주파수에 대해 상기 제1수의 주파수대역들을 결정하도록 구성되는, 음성 신호의 잡음 억제 기기.
제43항에 있어서, 상기 제1수의 주파수대역들은 발성 차단주파수를 초과하지 않는 상위주파수를 가지는 음성신호의 모든 주파수대역들을 포함하는, 음성 신호의 잡음 억제 기기.
제41항에 있어서, 상기 주파수대역들의 제1수는 기설정된 정수인, 음성 신호의 잡음 억제 기기.
제41항에 있어서, 상기 기기는 음성 프레임의 주파수대역들이 발성되지 않을 때 모든 주파수대역들에 대해 주파수대역마다 잡음 억제를 수행하도록 구성된, 음성 신호의 잡음 억제 기기.
제41항에 있어서, 상기 음성신호는 다수의 샘플을 포함하는 음성프레임들을 포함하고 상기 기기는 음성프레임의 잡음을 억제하도록 구성된, 음성 신호의 잡음 억제 기기.
제47항에 있어서, 상기 기기는 음성프레임의 제1샘플에 대해 m개 샘플만큼 오프셋된 분석윈도우를 이용하여 상기 주파수 분석을 수행하도록 구성된, 음성 신호의 잡음 억제 기기.
제47항에 있어서, 음성프레임의 제1샘플에 대해 m개 샘플만큼 오프셋된 제1분석윈도우와 음성프레임의 제1샘플에 대해 p개 샘플만큼 오프셋된 제2주파수분석윈도우를 이용하여 제1주파수분석을 수행하도록 구성된, 음성 신호의 잡음 억제 기기.
제49항에 있어서, m = 24이고 p = 128인, 음성 신호의 잡음 억제 기기.
제49항에 있어서, 상기 제2분석윈도우는 음성신호의 상기 음성프레임부터 후속하는 음성프레임까지 연장하는 예견능력부를 포함하는, 음성 신호의 잡음 억제 기기.
제41항에 있어서, 상기 기기는 상기 제1수의 주파수 대역들에 대한 크기조정이득을 주파수 빈들에 적용하고 그리고 상기 제2수의 주파수 대역들에 대해 주파수 대역들의 이득을 크기 조정하는 것에 의해 잡음 억제를 수행하도록 구성된, 음성 신호의 잡음 억제 기기.
제41항에 있어서, 상기 기기가 주파수빈마다 잡음 억제를 수행하도록 구성되고 주파수빈에 대해 주파수빈 특화 크기조정이득을 결정하도록 더 구성되는, 음성 신호의 잡음 억제 기기.
제41항에 있어서, 상기 기기가 주파수대역마다 잡음 억제를 수행하도록 구성되고 주파수대역에 대해 주파수대역 특화 크기조정이득을 결정하도록 추가로 구성되는, 음성 신호의 잡음 억제 기기.
제46항에 있어서, 상기 기기는 모든 주파수대역들에 대해 일정한 크기조정이득을 적용함으로써 잡음 억제를 수행하는, 음성 신호의 잡음 억제 기기.
제53항에 있어서, 상기 기기는 주파수빈에 대해 결정된 신호-대-노이즈비(SNR)에 관련한 주파수빈에 대해 주파수빈 특화 크기조정이득을 위한 값을 결정하도록 구성된, 음성 신호의 잡음 억제 기기.
제54항에 있어서, 상기 기기는 주파수대역에 대해 결정된 신호-대-노이즈비(SNR)에 관련한 주파수대역에 대해 주파수대역 특화 크기조정이득을 위한 값을 결정하도록 구성되는, 음성 신호의 잡음 억제 기기.
제56항에 있어서, 상기 기기는 제1 및 제2 주파수분석들의 각각에 대해 주파수빈 특화 크기조정이득을 위한 값을 결정하는 것을 수행하도록 구성되는, 음성 신호의 잡음 억제 기기.
제57항에 있어서, 상기 기기는 제1 및 제2 주파수분석들의 각각에 대해 주파수빈 특화 크기조정이득을 위한 값을 결정하는 것을 수행하도록 구성되는, 음성 신호의 잡음 억제 기기.
제52항 내지 제54항 중 어느 한 항에 있어서, 크기조정이득은 평활화된 크기조정이득인, 음성 신호의 잡음 억제 기기.
제52항 내지 제54항 중 어느 한 항에 있어서, 상기 기기는 특정 주파수빈 또는 특정 주파수대역에 대해 크기조정이득에 역 비례하는 값을 가지는 평활화계수를 이용하여 특정 주파수빈 또는 특정 주파수대역에 적용하려는 평활화된 크기조정이득을 계산하도록 구성되는, 음성 신호의 잡음 억제 기기.
제52항 내지 제54항 중 어느 한 항에 있어서, 상기 기기는 크기조정이득의 값들이 작을수록 평활화가 더 강해지도록 결정된 값을 가지는 평활화계수를 이용하여 특정 주파수빈 또는 특정 주파수대역에 적용하려는 평활화된 크기조정이득을 계산하도록 구성되는, 음성 신호의 잡음 억제 기기.
제53항 또는 제54항에 있어서, 상기 기기는 크기조정이득의 값을 음성프레임당 n번 결정하도록 구성되며 n은 1보다 큰, 음성 신호의 잡음 억제 기기.
제63항에 있어서, n = 2인, 음성 신호의 잡음 억제 기기.
제53항 또는 제54항에 있어서, 상기 기기는 크기조정이득의 값을 음성프레임당 n번 결정하도록 구성되며, n은 1보다 크고, 발성 차단주파수는 적어도 부분적으로는 이전 음성프레임의 음성신호의 함수인, 음성 신호의 잡음 억제 기기.
제53항에 있어서, 상기 기기는 17개 대역에 상응하는 최대 74개 빈들에 대해 주파수빈마다 잡음 억제를 수행하도록 구성되는, 음성 신호의 잡음 억제 기기.
제53항에 있어서, 상기 기기는 주파수 3700Hz에 상응하는 최대 수의 주파수빈들에 대해 주파수빈마다 잡음 억제를 수행하도록 구성되는, 음성 신호의 잡음 억제 기기.
제56항에 있어서, 상기 기기는 제1 SNR값에 대해, 크기조정이득의 값을 최소값으로 설정하도록, 그리고 제1 SNR값보다 큰 제2 SNR값에 대해 크기조정이득 값을 1로 설정하도록 구성되는, 음성 신호의 잡음 억제 기기.
제68항에 있어서, 상기 제1 SNR값은 1dB 이하이고, 상기 제2 SNR값은 45dB 이상인, 음성 신호의 잡음 억제 기기.
제60항에 있어서, 상기 기기는 활동적 음성을 담고 있지 않은 음성 프레임의 구역들을 검출하도록 구성되는, 음성 신호의 잡음 억제 기기.
제70항에 있어서, 상기 기기는 활동적 음성을 담고 있지 않은 음성 프레임의 구역을 검출하는 것에 응답하여 평활화된 크기조정이득을 최소값으로 재설정하도록 구성되는, 음성 신호의 잡음 억제 기기.
제47항에 있어서, 상기 기기는 복수의 주파수대역들에서 최대 잡음에너지가 문턱값 미만일 때에 잡음 억제를 수행하지 않도록 구성되는, 음성 신호의 잡음 억제 기기.
제47항에 있어서, 단기잔류 음성프레임의 발생에 응답하여, 제1 x개 주파수대역들에 대해 주파수대역마다 결정되는 크기조정이득을 적용함으로써 잡음 억제를 수행하도록 그리고 나머지 주파수대역들에 대해 크기조정이득의 단일 값을 적용함으로써 잡음 억제를 수행하도록 구성되는, 음성 신호의 잡음 억제 기기.
제73항에 있어서, 제1 x개 주파수대역들은 1700Hz까지의 주파수에 상응하는, 음성 신호의 잡음 억제 기기.
제60항에 있어서, 협대역 음성신호에 대해 상기 기기는 3700Hz까지의 주파수에 상응하는 제1 x개 주파수대역들에 대해 주파수대역마다 결정되는 평활화된 크기조정이득들을 적용함으로써 잡음 억제를 수행하도록, 3700Hz에 상응하는 주파수빈에서의 크기조정이득의 값을 3700Hz와 4000Hz 사이의 주파수빈들에 적용함으로써 잡음 억제를 수행하도록, 그리고 음성신호의 주파수 스펙트럼의 나머지 주파수대역들을 제로화하도록 구성되는, 음성 신호의 잡음 억제 기기.
제75항에 있어서, 협대역 음성신호는 12800Hz로 업샘플링된 것인, 음성 신호의 잡음 억제 기기.
제43항에 있어서, 상기 기기는 계산된 발성 계량값을 이용하여 발성 차단주파수를 결정하도록 구성되는, 음성 신호의 잡음 억제 기기.
제77항에 있어서, 상기 기기는 상기 발성 차단주파수를 초과하지 않는 상위주파수를 가지는 다수의 임계대역을 결정하도록 구성되며, 경계들은 주파수빈마다의 잡음 억제가 최소 x개 대역 및 최대 y개 대역들에 대해 수행되도록 설정되는, 음성 신호의 잡음 억제 기기.
제78항에 있어서, x = 3이고 y = 17인, 음성 신호의 잡음 억제 기기.
제77항에 있어서, 상기 발성 차단주파수는 325Hz 이상이고 3700Hz 이하가 되도록 경계가 정해지는, 음성 신호의 잡음 억제 기기.
잡음 억제를 위한 기기를 포함하는 음성 부호화기로서, 상기 기기는,

주파수 분석을 수행하여 복수의 주파수빈들을 포함하는 음성신호의 스펙트럼영역 표현을 생성하도록; 그리고

주파수빈들을 다수의 주파수대역들로 그룹화하도록 구성되며,

상기 기기는 발성된 음성 활동도를 검출하도록 구성되며, 발성된 음성 활동도가 음성 프레임에서 검출될 때, 잡음 억제를 제1수의 주파수대역들에 대해 주파수빈마다 수행하고 잡음 억제를 제2수의 주파수대역들에 대해 주파수대역마다 수행하는 것을 특징으로 하는 음성 부호화기.
잡음 억제를 위한 기기를 포함하는 자동 음성인식 시스템으로서, 상기 기기는

주파수 분석을 수행하여 복수의 주파수빈들을 포함하는 음성신호의 스펙트럼영역 표현을 생성하도록; 그리고

주파수빈들을 다수의 주파수대역들로 그룹화하도록 구성되며,

상기 기기는 발성된 음성 활동도를 검출하도록 구성되며, 발성된 음성 활동도가 음성 프레임에서 검출될 때, 잡음 억제를 제1수의 주파수대역들에 대해 주파수빈마다 수행하고 잡음 억제를 제2수의 주파수대역들에 대해 주파수대역마다 수행하는 것을 특징으로 하는 자동 음성인식 시스템.
잡음 억제를 위한 기기를 포함하는 이동전화기로서, 상기 기기는

주파수 분석을 수행하여 복수의 주파수빈들을 포함하는 음성신호의 스펙트럼영역 표현을 생성하도록; 그리고

주파수빈들을 다수의 주파수대역들로 그룹화하도록 구성되며,

상기 기기는 발성된 음성 활동도를 검출하도록 구성되며, 발성된 음성 활동도가 음성 프레임에서 검출될 때, 제1수의 주파수대역들에 대해 잡음 억제를 주파수빈마다 수행하고 제2수의 주파수대역들에 대해 주파수대역마다 잡음 억제를 수행하도록 구성되는 이동전화기.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제