KR101141033B1

KR101141033B1 - 스피치 개선을 위한 노이즈 분산 추정기

Info

Publication number: KR101141033B1
Application number: KR1020097019499A
Authority: KR
Inventors: 롱샨 유
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2007-03-19
Filing date: 2008-03-14
Publication date: 2012-05-03
Also published as: EP2137728A1; CN101647061A; EP2137728B1; US20100100386A1; JP2010521704A; TWI420509B; TW200844978A; EP3070714A1; CN101647061B; US8280731B2; JP5186510B2; ES2570961T3; EP3070714B1; WO2008115435A1; KR20090122251A

Abstract

제한된 이용 가능 메모리를 가진 장치들에 대해 동작하는 스피치 개선 방법이 기술된다. 상기 방법은 매우 시끄러운 환경에 적당하고 스피치의 존재 및 부재 동안 스피치 및 노이즈 성분들의 상대적 세기를 추정할 수 있다.

노이즈 분산 추정기, 추정 바이어스, 스피치 성분, 노이즈 성분, 분산 추정

Description

스피치 개선을 위한 노이즈 분산 추정기{NOISE VARIANCE ESTIMATOR FOR SPEECH ENHANCEMENT}

본 발명은 오디오 신호 처리에 관한 것이다. 특히, 본 발명은 노이즈 환경에서의 스피치 개선 및 명료화에 관한 것이다.

다음 공개물들은 각각 온전히 참조로서 본 명세서에 포함된다.

[1] 와이. 에프라임과 디. 말라 "최소 평균 제곱 에러 최소 시공간 진폭 추정기를 이용한 스피치 개선", IEEE Trans. Acoust., Speech, Signal Processing, vol.32, pp. 1109-1121, 1984년 12월.

[2] 엔. 비락, "인간 청취 시스템의 특성들의 마스킹에 기초하는 단일 채널 스피치 개선", IEEE Trans., Speech and Audio Processing, vol.7, pp. 126-137, 1900년 3월.

[3] 알. 마틴, "최소 통계에 기초한 스펙트럼 감산", Proc. EUSIPCO, 1994, pp.1182-1185.

[4] 피. 제이. 울프와 에스. 제이. 갓실, "오디오 신호 개선을 위한 에프라임 및 말라 억제 규칙에 대한 효과적인 대체물들", EURASIP Journal on Applied Signal Processing, vol. 2003, Issue 10, Pages 1043-1051, 2003.

[5] 와이. 에프라임, 에이치. 레브-아리 및 더블유.제이.제이.로버츠, "스피치 개선의 간결한 개괄", The Electronic Handbook, CRC Press, 2005년 4월.

우리는 소음 세계에 살고 있다. 환경 노이즈는 어디에나 존재하고, 자연적인 소스들 및 인간 활동들로부터 발생한다. 음성 통신 동안, 환경 노이즈들은 의도된 스피치 신호와 동시에 전송되어, 수신된 신호의 품질에 악영향을 미친다. 이런 문제는 원하지 않는 노이즈 성분들을 제거하는 스피치 개선 기술들에 의해 완화되어, 보다 깨끗하고 보다 명료한 신호를 형성한다.

대부분의 스피치 개선 시스템들은 다양한 형태의 적응성 필터링 동작에 의존한다. 상기 시스템들은 높은 SNR(Sinal-to-Noise-Ratio)을 보존하면서 낮은 신호-대-노이즈-비율들(SNR)을 가진 소음 스피치 신호의 시간/주파수(T/F) 영역들을 감소시킨다. 스피치의 필수 성분들은 따라서 보존되고 노이즈 성분은 크게 감소된다. 일반적으로, 상기 필터링 동작은 디지털 신호 처리(Digital Signal Processing; DSP) 칩 같은 계산 장치에 의해 디지털 도메인에서 수행된다.

서브대역 도메인 처리는 상기 적응성 필터링 동작이 구현되는 바람직한 방식들 중 하나이다. 요약하여, 시간 도메인에서 변경되지 않은 스피치 신호는 이산 퓨리에 변환(Discrete Fourier Transform; DFT) 같은 필터뱅크를 사용함으로써 다양한 서브대역들로 변환된다. 각각의 서브대역 내의 신호들은 스피치 및 노이즈의 공지된 통계적 특성들에 따라 원하는 양으로 추후 억제된다. 최종적으로, 서브대역 도메인에서 노이즈 억제 신호들은 개선된 스피치 신호를 형성하기 위하여 인버스 필터뱅크를 사용함으로써 시간 도메인으로 변환되고, 상기 스피치 신호의 품질 은 억제 과정의 항목들에 크게 의존한다.

종래 기술 스피치 개선기의 예는 도 1에 도시된다. 입력은 깨끗한 스피치 및 노이즈 둘다를 포함하는 아날로그 스피치 신호를 디지털화함으로써 생성된다. 이 변경되지 않은 오디오 신호 y(n)(여기서 n=0,1,...,∞는 시간 인덱스임)는 그 다음 분석 필터뱅크 장치 또는 기능부("분석 필터뱅크")(2)에 전송되어, 다중 서브대역 신호들 Y_k(m), k=1,...,K, m=0,1,...,∞(여기서 k는 서브대역 수이고, m은 각각의 서브대역 신호의 시간 인덱스임)을 형성한다. 서브대역 신호들은 분석 필터뱅크(2)의 다운-샘플링 동작으로 인해 y(n)과 비교하여 더 낮은 샘플링 레이트들을 가질 수 있다. 그 다음 각각의 서브대역의 노이즈 레벨은 입력으로서 서브대역 신호를 가진 노이즈 분산 추정기 장치 또는 기능부("노이즈 분산 추정기")(4)를 사용함으로써 추정된다. 본 발명의 노이즈 분산 추정기(4)는 종래 기술에서 공지된 것과 다르고 특히 도 2a 및 도 2b와 관련하여 하기에 기술된다. 추정된 노이즈 레벨에 기초하여, 적당한 억제 이득들 g_k은 억제 규칙 장치 또는 기능부("억제 규칙")(6)에서 결정되고 다음과 같이 서브대역 신호들에 적용된다:

(1)

서브대역 신호에 억제 이득의 상기 적용은 곱셈기 심볼(8)에 의해 심볼로 도시된다. 최종적으로,

은 개선된 스피치 신호

를 형성하기 위하여 합성 필터뱅크 장치 또는 기능부("합성 필터 뱅크")(10)에 전송된다. 표현을 간략화하기 위해, 도 1은 다중 서브대역 신호들(k) 중 단지 하나에 억제 이득을 생성 및 적 용하는 항목들을 도시한다.

각각의 서브대역의 적당한 억제 양은 그의 노이즈 레벨과 강하게 상관된다. 이것은 차례로 제로-평균 가우스 확률 분포에 관련하여 노이즈 신호의 평균 제곱값으로서 정의된 노이즈 신호의 분산에 의해 결정된다. 명백히, 정확한 노이즈 분산 추정은 시스템의 성능에 중요하다.

일반적으로, 노이즈 분산은 이전에 이용할 수 없고, 변경되지 않은 오디오 신호로부터 추정되어야 한다. "명확한(clean)" 노이즈 신호의 분산이 큰 시간 블록에 걸쳐 노이즈 진폭들의 제곱값에서 시간-평균 동작을 수행함으로써 추정될 수 있다는 것은 잘 공지되었다. 그러나, 변경되지 않은 오디오 신호가 명확한 스피치 및 노이즈 둘다를 포함하기 때문에, 상기 방법은 직접 응용할 수 없다.

많은 노이즈 분산 추정 전략들은 이런 문제를 해결하기 위하여 이전에 제안되었다. 가장 간단한 해결책은 스피치 신호가 제공되지 않을 때(참조 문헌 [1]), 스피치 개선 시스템의 초기화 스테이지에서 노이즈 분산을 추정하는 것이다. 그러나, 이 방법은 노이즈 신호와 노이즈 분산이 상대적으로 고정될 때만 잘 작동한다.

비고정 노이즈의 정확한 처리를 위해, 보다 정교한 방법들은 제안되었다. 예를 들어, 음성 작동 검출(Voice Activity Detection; VAD) 추정기들은 스피치 신호의 존재를 결정하기 위하여 독립형 검출기를 이용한다. 노이즈 분산은 존재하지 않는(참조 문헌 [2]) 시간 동안에만 업데이트된다. 이 방법은 두 개의 단점들을 가진다. 첫째, 오디오 신호가 시끄러워서 노이즈 분산 추정 결과의 신뢰성에 영향을 미칠 때, 신뢰성 있는 VAD 결과들을 가지기 매우 어렵다. 둘째, 이 방법은 스피치 신호가 존재할 때 노이즈 분산 추정을 업데이트하는 확률을 배제한다. 후자는 노이즈 분산 추정이 스피치 레벨이 약한 시간들 동안 여전히 신뢰성 있게 업데이트될 수 있기 때문에 비효율성을 유도한다.

이런 문제에 대한 다른 넓게 예시된 해결책은 최소 통계 방법(참조 문헌[3])이다. 본래, 상기 방법은 각각의 서브대역에 대한 히스토리적인 샘플들의 단일 레벨 기록을 유지하고, 최소 기록된 값에 기초하여 노이즈 분산을 추정한다. 이 방식에 숨겨진 원리는 스피치 신호가 자연적으로 일시중지하는 온/오프 처리된다는 것이다. 게다가, 신호 레벨은 일반적으로 스피치 신호가 존재할 때 매우 높다. 그러므로, 상기 알고리즘으로부터 최소 신호 레벨은 아마도 기록이 시간적으로 충분히 길면 스피치 일시중단 섹션으로부터 형성되어, 신뢰성 있는 추정된 노이즈 레벨을 산출한다. 그럼에도 불구하고, 최소 통계 방법은 높은 메모리 수용을 가지며 제한된 이용 가능한 메모리를 가진 장치들에 적용할 수 없다.

본 발명의 제 1 양태에 따라, 스피치 및 노이즈 성분들로 이루어진 오디오 신호의 스피치 성분들은 개선된다. 오디오 신호는 시간 도메인으로부터 주파수 도메인의 다수의 서브대역들로 변환된다. 오디오 신호의 서브대역들은 추후 처리된다. 처리는 제어에 응답하여 서브대역들 중 하나의 이득을 적응적으로 감소시키는 것을 포함한다. 제어는 오디오 신호의 노이즈 성분들의 분산 추정으로부터 적어도 부분적으로 유도된다. 상기 추정은 차례로 오디오 신호의 노이즈 성분들의 진폭의 이전 추정값들의 평균으로부터 유도된다. 미리 결정된 추정 바이어스의 최대 양보다 큰 추정 바이어스를 가진 오디오 신호에서 노이즈 성분들의 진폭 추정들은 오디오 신호에서 노이즈 성분들의 진폭의 이전 추정값들의 평균으로부터 배제되거나 언더웨이팅된다. 마지막으로, 처리된 오디오 신호는 스피치 성분들이 개선된 오디오 신호를 제공하기 위하여 주파수 도메인에서 시간 도메인으로 변환된다. 본 발명의 이런 양태는 오디오 신호의 노이즈 성분들에서 분산 추정, 오디오 신호의 스피치 성분들의 분산 추정, 및 오디오 신호의 진폭의 함수로서 오디오 신호에서 노이즈 성분들의 진폭의 추정을 더 포함할 수 있다.

본 발명의 다른 양태에 따라, 스피치 및 노이즈 성분들로 이루어진 오디오 신호의 노이즈 성분들에서 분산 추정이 유도된다. 오디오 신호의 노이즈 성분들에서 분산 추정은 오디오 신호에서 노이즈 성분들 진폭의 이전 추정값들의 평균으로부터 유도된다. 미리 결정된 추정 바이어스의 최대량보다 큰 추정 바이어스를 가진 오디오 신호에서 노이즈 성분들 진폭의 추정값들은 오디오 신호에서 노이즈 성분들 진폭의 이전 추정값들의 평균에서 배제되거나 언더웨이팅된다. 본 발명의 이런 양태는 오디오 신호의 노이즈 성분들에서 분산 추정, 오디오 신호의 스피치 성분들에서 분산 추정, 및 오디오 신호의 진폭의 추정의 함수로서 오디오 신호에서 노이즈 성분들 진폭의 추정을 더 포함할 수 있다.

본 발명의 상기 양태들 중 어느 하나에 따라, 오디오 신호에서 노이즈 성분들 진폭의 이전 추정값들의 평균의 임계값보다 큰 값들을 가진 오디오 신호에서 노이즈 성분들 진폭의 추정값들은 배제되거나 언더웨이팅될 수 있다.

상기된 임계값은

의 함수이고, 여기서

는 추정된 선험적 신호-대-노이즈 비율(priori signal-to-noise ratio)이고,

는 오디오 신호의 노이즈 성분들에서 추정된 분산이고,

는 미리 결정된 추정 바이어스의 최대 양에 의해 결정된 상수이다.

상기된 본 발명의 양태들은 상기 방법들을 수행하기 위하여 적응된 방법들 또는 장치들로서 구현될 수 있다. 컴퓨터-판독 가능 매체 상에 저장된 컴퓨터 프로그램은 컴퓨터가 상기 방법들 중 임의의 방법을 수행하게 한다.

본 발명의 목적은 스피치의 존재 및 부재 둘다 동안 동작하는 스피치 및 노이즈 성분들의 상대적 세기들을 추정할 수 있는 스피치 개선을 제공하는 것이다.

본 발명의 다른 목적은 많은 노이즈 성분의 존재에도 불구하고 스피치 및 노이즈 성분들의 상대적 세기들을 추정할 수 있는 스피치 개선을 제공하는 것이다.

본 발명의 또 다른 목적은 제한된 이용 가능한 메모리를 가진 장치들에 대해 동작하는 스피치 개선을 제공하는 것이다.

본 발명의 이들 및 다른 특징들 및 장점들은 다음 상세한 설명 및 첨부된 청구항들에 나타나거나 보다 명백할 것이다. 특징들 및 장점들은 첨부된 청구항들에서 특히 지적된 수단들 및 결합들에 의해 구현되고 얻어진다. 게다가, 본 발명의 특징들 및 장점들은 이후에 제시되는 본 발명의 실제에 의해 습득될 수 있거나 명백할 것이다.

도 1은 종래 기술 스피치 개선기를 나타내는 기능 블록도.

도 2a는 본 발명의 양태들에 따른 예시적인 노이즈 분산 추정기의 기능 블록도. 상기 노이즈 분산 추정기들은 도 1 예 같은 종래 기술 스피치 개선기들을 개선하기 위하여 사용되거나, 다른 목적들에 사용될 수 있다.

도 2b는 도 2a의 노이즈 분산 추정기의 동작을 이해하는데 유용한 흐름도.

도 3은 실제 SNR의 4개의 값들에 대한 추정된 선험적 SNR의 함수로서 노이즈 진폭의 바이어스 추정의 이상적인 도면.

여기에 사용된 바와 같은 두문자어 및 용어들의 어휘는 부록 A에 제공된다. 각각의 정의들과 함께 심볼들의 리스트는 부록 B에 제공된다. 부록 A 및 부록 B는 본 출원의 통합 부분이고 그 일부들을 형성한다.

본 발명의 양태들에 따른 노이즈 분산 추정기의 예시적인 실시예의 블록도는 도 2a에 도시된다. 각각의 서브대역에 대한 노이즈 레벨을 추정하기 위하여 도 1과 같은 스피치 개선기가 통합될 수 있다. 예를 들어, 본 발명의 양태들에 따른 노이즈 분산 추정기는 도 1의 노이즈 분산 추정기(4)로서 구현될 수 있어서, 개선된 스피치 개선기를 제공한다. 노이즈 분산 추정기에 대한 입력은 변경되지 않은 서브대역 신호 Y(m)이고 그 출력은 노이즈 분산 추정의 업데이트된 값이다.

설명을 위해, 노이즈 분산 추정기는 3개의 메인 성분들을 가지는 것을 특징으로 할 수 있다: 노이즈 진폭 추정기 장치 또는 함수부("노이즈 진폭의 추정부")(12), 노이즈 진폭 추정("노이즈 분산 추정부")(14)에 응답하여 동작하는 노이즈 분산 추정 장치 또는 함수부, 및 스피치 분산 추정 장치 또는 함수부("스피치 분산 추정부")(16). 도 2a의 노이즈 분산 추정기 예는 또한 z-도메인 표시법("Z^-1")을 사용하여 도시된 지연부(18)를 포함한다.

도 2a의 노이즈 분산 추정기 예의 동작은 도 2b의 흐름도를 참조하여 가장 잘 이해될 수 있다. 여기에서 다양한 실시예들에서 도시 및 기술된 다양한 장치들, 기능들 및 처리들이 여기 도면들에 도시된 것과 다른 방식으로 결합 또는 분리될 수 있다는 것이 인식될 것이다. 예를 들어, 컴퓨터 소프트웨어 명령 시퀀스들에 의해 실행될 때, 도 2a 및 도 2b의 모든 함수부들은 적당한 디지털 신호 처리 하드웨어에서 운용하는 멀티스레드(multithreaded) 소프트웨어 명령 시퀀스들에 의해 구현될 수 있고, 이 경우 도면들에 도시된 실시예들의 다양한 장치들 및 기능들은 소프트웨어 명령들의 부분들에 대응할 수 있다.

노이즈 성분의 진폭이 추정된다(도 2a의 노이즈 진폭의 추정부 12; 도 2b의 추정부 N(m) 24). 오디오 입력 신호가 스피치 및 노이즈 둘다를 포함하기 때문에, 상기 추정은 다른 성분으로부터 하나의 성분을 구별하는 통계적 차이들을 이용함으로써만 행해질 수 있다. 게다가, 노이즈 성분의 진폭은 스피치 성분 진폭의 추정에 현재 사용된 기존 통계적 모델들의 적당한 변형을 통해 추정될 수 있다(참조 문헌 [4] 및 [5]).

상기 스피치 및 노이즈 모델들은 통상적으로 스피치 및 노이즈 성분들이 상관되지 않은, 제로-평균 가우스 분포들이라는 것을 가정한다. 핵심 모델 파라미터들, 특히 스피치 성분 분산 및 노이즈 성분 분산은 변경되지 않은 입력 오디오 신호로부터 추정되어야 한다. 상기 주지된 바와 같이, 스피치 및 노이즈 성분들의 통계적 특성들은 명백히 다르다. 대부분의 경우들에서, 노이즈 성분의 분산은 비교적 안정하다. 대조하여, 스피치 성분은 "온/오프" 처리이고 그 분산은 몇몇 밀리초들 내에서도 심하게 변화할 수 있다. 결과적으로, 노이즈 성분 분산의 추정은 비교적 장시간 윈도우를 수반하지만, 스피치 성분에 대한 유사한 동작은 현재 및 이전 입력 샘플들을 수반할 수 있다. 후자의 예는 참조 문헌 [1]에서 제안된 "결정-지향 방법"이다.

일단 스피치 및 노이즈 성분들에 대한 통계적 모델들 및 분포 파라미터들이 결정되었다면, 오디오 신호로부터 양쪽 성분들의 진폭들을 추정하는 것은 가능하다. 예시적인 실시예에서, 스피치 성분 진폭을 추정하기 위한 참조 문헌 [4]에서 이전에 도입된 최소 평균 제곱 에러(MMSE) 전력 추정기는 노이즈 성분 진폭을 추정하도록 구성된다. 추정기 모델의 선택은 본 발명에 중요하지 않다.

요약하여, MMSE 전력 추정기는 우선 통계적 모델들 및 변경되지 않은 오디오 신호 각각에 기초하여 스피치 및 노이즈 성분들의 확률 분포를 결정한다. 이후 노이즈 진폭은 추정 에러의 평균 제곱을 최소화하는 값이도록 결정된다.

마지막으로 연속적인 계산들을 위한 준비시, 노이즈 성분의 분산은 전체 노이즈 분산에서 추정된 노이즈 진폭의 제곱된 현재 절대값의 도입에 의해 업데이트된다. 이런 부가적인 값은 현재 및 이전 노이즈 성분 진폭들을 포함하는 합리적으로 긴 버퍼 상 누적 동작의 일부가 된다. 노이즈 분산 추정 정확도를 추가로 개선하기 위하여, 바이어스된 추정 회피 방법은 통합될 수 있다.

노이즈 진폭의 추정

(도 2a에서 노이즈 진폭의 추정부 12; 도 2b에서 N(m) 추정부 24)

도 1, 도 2a 및 도 2b(20)에서 도시된 바와 같이, 입력 대 노이즈 분산 추정기(이런 환경에서, "노이즈 분산 추정기"는 도 1의 블록(4)이고 도 2a의 엘리먼트들(12, 14, 16, 18)의 결합이다)는 서브대역:

Y(m) = X(m) + D(m) (2)

이다. 여기서 X(m)은 스피치 성분이고, D(m)은 노이즈 성분이다. 여기서 m은 시간-인덱스이고, 서브대역 수 인덱스 k는 동일한 노이즈 분산 추정기가 각각의 서브대역에 사용되기 때문에 생략된다. 분석 필터뱅크가 DFT가 행하는 바와 같이 복소수 양들을 생성한다는 것을 가정할 수 있다. 여기서, 서브대역 성분이 또한 복소수이고, 다음과 같이 표현될 수 있다.

(3)

(4)

및

(5)

여기서 R(m), A(m) 및 N(m)은 각각 변경되지 않은 오디오 신호, 스피치 및 노이즈 성분들의 진폭들이고,

및

는 그들의 각각의 위상들이다.

스피치 및 노이즈 성분들이 상관되지 않은 제로-평균 가우시안 분포들인 것을 가정함으로써, X(m)의 진폭은 다음과 같이 참조 문헌 [4]에서 유도된 MMSE 전력 추정기를 사용하여 추정될 수 있다:

(6)

여기서 이득 함수는 다음에 의해 제공된다

(7)

여기서

(8)

(9)

및

(10)

여기서

및

는 각각 스피치 성분 및 노이즈 성분들의 분산들이다.

및

는 종종 선험적 및 후천적(posteriori) 성분-대-노이즈 비율들로서 해석되고, 표시법은 여기에 사용된다. 다른 말로, "선험적" SNR은 가정된(실제로 알려지지 않았지만) 스피치 분산(따라서 이름 "선험적") 대 노이즈 분산의 비율이다. "후천적" SNR은 관찰된 신호 진폭 대 노이즈 분산의 제곱의 비율이다.

MMSE 전력 추정기 모델에서, 스피치 및 노이즈 성분들의 각각의 분산들은 노이즈 성분 진폭을 추정하기 위하여 상호 교환될 수 있다:

(11)

여기서

(12)

및

(13)

스피치 분산의 추정

(도 2a의 스피치 분산의 추정 16; 도 2b에서

추정 22)

스피치 성분 분산

의 추정은 참조 문헌 [1]에 제안된 결정-지향 방법을 사용하여 계산될 수 있다:

(14)

여기서

(15)

는 미리 선택된 상수이고,

는 스피치 성분 진폭의 추정값이다. 노이즈 성분 분산의 추정값

계산은 다음과 같다.

노이즈 진폭의 추정(상기로부터 연속됨)

노이즈 성분 진폭의 추정값은 최종적으로 하기에 의해 제공된다;

(16)

여기서

(17)

및

(18)

비록 복합 필터뱅크가 이 실시예에 사용되지만, 단지 실제값들만을 가진 필터뱅크에 대한 방정식들을 변형하는 것은 바람직하다.

상기된 방법은 단지 실시예로서만 제공된다. 보다 정교하거나 간단한 모델들은 애플리케이션에 따라 채용될 수 있다. 다중 마이크로폰 입력들은 노이즈 진폭들의 보다 우수한 추정값을 얻기 위해 사용될 수 있다.

노이즈 분산의 추정

(도 2a의 노이즈 분산 추정 14; 도 2b의

추정 26)

주어진 시간 인덱스 m에서 서브대역 입력의 노이즈 성분은 부분적으로 분산

에 의해 결정된다. 제로-평균 가우시안에 대해, 이것은 노이즈 성분 진폭의 제곱의 평균값으로서 정의된다:

(19)

여기서 기대값

은 시간 인덱스 m에서 노이즈 성분의 확률 분포에 관련하여 얻어진다.

노이즈 성분이 고정되고 에르고드적(ergodic)이면,

은 이전 추정된 노이즈 진폭들 상에서 시간-평균 동작을 수행함으로써 얻어질 수 있다. 특히, 시간 인덱스 m+1의 노이즈 분산

은 이전에 추정된 노이즈 진폭들의 제곱의 웨이팅 평균을 수행함으로써 추정될 수 있다:

(20)

여기서

는 웨이팅 함수이다. 실제로 w(i)는 길이 L의 윈도우로서 선택될 수 있다:

. 직사각형 윈도우 방법(RWM)에서, 추정된 노이즈 분산은 다음에 의해 제공된다:

(21)

또한 지수 윈도우를 사용하는 것은 가능하다:

(22)

여기서

(23)

이동 평균 방법(MAM)에서, 추정된 노이즈 분산은 노이즈 진폭들의 제곱의 이동 평균이다:

(24)

여기서 초기값

은 합리적으로 선택된 미리 결정된 값으로 설정될 수 있다.

바이어스 추정 회피

때때로, 모델은 스피치 및 노이즈 성분들의 정확한 표현을 제공할 수 없다. 이들 상황들에서, 노이즈 변화 추정은 부정확하게 되어, 매우 큰 바이어스(bias)된 결과를 형성한다. 바이어스 추정 회피(BEA) 방법은 이런 문제를 경감하기 위하여 개발되었다.

필수적으로, BEA는 감소된 웨이팅 대 노이즈 진폭 추정값들

을 할당하여

(25)

이고, 여기서 바이어스 bias(m)는 미리 결정된 최대값 B_max보다 크다: 즉,

(26)

노이즈 진폭 추정

의 정확도는 모델 정확도, 특히 이전 섹션들에서 기술된 바와 같이 스피치 및 노이즈 성분들 분산들의 정확도에 영향을 받는다. 노이즈 성분이 비교적 고정되기 때문에, 그 분산은 시간에 따라 느리게 전개한다. 이런 이유로, 분석은 다음을 가정한다:

(27)

대조하여, 스피치 성분은 자연히 전이하고 큰 에러들이기 쉽다. 실제 선험적 SNR은,

(28)

이고, 추정된 선험적 SNR은,

(29)

이다.

의 추정 바이어스는 실제로 하기에 의해 제공된다.

(30)

명확하게, 만약

(31)

이면, 바이어스되지 않은 추정기 및

(32)

를 가진다.

도 3에 도시된 바와 같이, 추정 바이어스는 도면에서 점선, 즉 제로 바이어 스 라인에 대해 비대칭이다. 도면의 하부 부분은

의 가변 값들에 대한 추정 바이어스의 폭넓게 가변하는 값들을 가리키고 상부 부분은

또는

에 거의 의존하지 않는다.

관심있는 SNR 범위에 대해, 노이즈 진폭의 과소 추정(under-estimation), 즉

(33)

은 양의 바이어스를 유발하고, 도면의 상부 부분에 대응한다. 도시된 바와 같이, 그 효과는 비교적 작고 그러므로 문제되지 않는다.

그러나, 도면의 하부 부분은 스피치 성분의 분산이 과소 추정되는 경우들에 대응하여, 방정식 (30)에 의해 제공된 바와 같이 큰 음의 추정 바이어스를 유발하고, 즉:

(34)

및

(35),

또는, 선택적으로

(36)

및

(37)

그리고

의 다른 값들에 크게 좌우된다. 이들은 노이즈 진폭의 추정값이 너무 큰 상황들이다. 결과적으로, 상기 진폭들은 함께 감소된 웨이팅이거나 회피된다.

실제로, 경험은 상기 의심스러운 진폭들 R(m)이 만족하도록 지시된다:

(38)

여기서

는 미리 정의된 양의 상수이다. 이런 규칙은 바이어스에 대한 하부 경계를 제공한다:

(39)

여기서

(40)

이다.

요약하여, 양의 바이어스는 무시할 수 있다. 음의 바이어스는 만약 방정식 (16)에서 정의되고 방정식 (38)과 일치하는 추정된 노이즈 진폭들

이 감소된 웨이팅으로 제공되면 유지할 수 있다. 실제 애플리케이션에서,

의 값이 알려지지 않았기 때문에, 방정식 (38)의 규칙은 하기에 의해 근사화될 수 있다:

(41)

여기서

(42)

이다.

BEA방법의 두 개의 상기 예들은 BEA를 가진 직사각형 윈도우 방법(RWM) 및 BEA를 가진 이동 평균 방법(MAM)이다. 이전 구현에서, 방정식 (38)에 일치하는 샘플들에 제공된 웨이트는 제로이다:

(43)

여기서

은 하기 방정식을 만족시키는 시간 인덱스 m에 L 가장 흡사(nearest)

를 포함하는 세트이다:

(44)

후자 구현에서, 상기 샘플들은 감소된 웨이트가 포함될 수 있다:

(45)

여기서

(46)

그리고

(47)

이다.

도 2b 흐름도의 설명을 종료하여, 시간 인덱스 m은 1씩("m←m+1" 56) 증가되고 도 2b의 처리는 반복된다.

구현

본 발명은 하드웨어 또는 소프트웨어, 또는 이들의 결합(예를 들어, 프로그램 가능한 논리 어레이들)로 구현될 수 있다. 반대로 지정되지 않으면, 본 발명의 일부로서 포함된 처리들은 임의의 특정 컴퓨터 또는 다른 장치에 본래 관련되지 않는다. 특히, 다양한 범용 머신들은 여기에서의 지침들에 따라 쓰여진 프로그램들이 사용되거나, 요구된 방법 단계들을 수행하기 위하여 보다 특정화된 장치(예를 들어, 집적된 회로들)를 구성하기에 보다 편리할 수 있다. 따라서, 본 발명은 각각 적어도 하나의 처리기, 적어도 하나의 데이터 저장 시스템(휘발성 및 비휘발성 메모리 및/또는 저장 소자들 포함), 적어도 하나의 입력 장치 또는 포트, 및 적어도 하나의 출력 장치 또는 포트를 포함하는 하나 또는 그 이상의 프로그램 가능 컴퓨터 시스템들을 실행하는 하나 또는 그 이상의 컴퓨터 프로그램들로 구현될 수 있다. 프로그램 코드는 여기에 기술된 기능들을 수행하고 출력 정보를 생성하기 위하여 입력 데이터에 인가된다. 출력 정보는 공지된 방식으로 하나 또는 그 이상의 출력 장치들에 인가된다.

각각의 상기 프로그램은 컴퓨터 시스템과 통신하기 위하여 임의의 목표된 컴퓨터 언어(머신, 어셈블리, 또는 하이 레벨 절차, 논리, 또는 객체 지향 프로그래밍 언어들)로 구현될 수 있다. 임의의 경우, 언어는 컴파일드되거나 해석된 언어 일 수 있다.

각각의 상기 컴퓨터 프로그램은 바람직하게 저장 미디어 또는 장치가 여기에 기술된 절차들을 수행하기 위해 컴퓨터 시스템에 의해 판독될 때 컴퓨터를 구성 및 동작시키기 위해 범용 또는 특수 목적 프로그램 가능 컴퓨터에 의해 판독할 수 있는 저장 미디어 또는 장치(예를 들어, 고형 상태 메모리 또는 미디어, 또는 자기 또는 광학 미디어)에 저장되거나 다운로드될 수 있다. 본 발명의 시스템은 또한 컴퓨터 프로그램으로 구성된 컴퓨터-판독 가능 저장 매체로서 구현되는 것으로 고려될 수 있고, 여기서 이렇게 구성된 저장 매체는 여기에 기술된 기능들을 수행하기 위하여 특정 및 바람직한 방식으로 컴퓨터 시스템이 동작하게 한다.

본 발명의 다수의 실시예들은 기술되었다. 그럼에도 불구하고, 본 발명의 사상 및 범위에서 벗어나지 않고 다양한 변형들이 이루어질 수 있다는 것이 이해될 것이다. 예를 들어, 여기에 기술된 단계들 중 몇몇은 순서에 무관하고, 따라서 기술된 것과 다른 순서로 수행될 수 있다.

부록 A

두문자어들 및 용어들의 용어풀이

BEA 바이어스된 추정 회피

DFT 이산 퓨리에 변환

DSP 디지털 신호 처리

MAM 이동 평균 방법

RWM 직사각형 윈도우 방법

SNR 신호 대 노이즈 비율

T/F 시간/주파수

VAD 음성 동작 검출

부록 B

심볼들의 리스트

디지털화된 시간 신호

개선된 스피치 신호

서브대역 신호 k

개선된 서브대역 신호 k

서브대역 k의스피치 성분

서브대역 k의 노이즈 성분

서브대역 k에 대한 억제 이득

노이즈 스피치 진폭

노이즈 스피치 위상

스피치 성분 진폭

추정된 스피치 성분 진폭

스피치 성분 위상

노이즈 성분 진폭

추정된 노이즈 성분 진폭

노이즈 성분 위상

이득 함수

스피치 성분 분산

추정된 스피치 성분 분산

노이즈 성분 분산

추정된 노이즈 성분 분산

선험적 스피치 성분-대-노이즈 비율

후천적 스피치 성분-대-노이즈 비율

선험적 노이즈 성분-대-스피치 비율

후천적 노이즈 성분-대-스피치 비율

미리 선택된 상수

바이어스 추정을 위해 미리 선택

Claims

스피치 및 노이즈 성분들로 이루어진 오디오 신호의 스피치 성분들을 개선하기 위한 방법에 있어서,

상기 오디오 신호를 시간 도메인으로부터 주파수 도메인의 다수의 서브대역들로 변환하는 단계로서,

상기 다수의 서브대역들 각각은 스피치 성분 및 노이즈 성분을 가지는 것으로 가정되고, 상기 노이즈 성분은 시간 인덱스 m에서 노이즈 진폭 및 노이즈 분산을 가지며, 상기 노이즈 진폭은 스피치 성분 및 노이즈 성분 사이를 구별짓는 통계적 모델을 사용하여 결정되는, 상기 변환 단계,

상기 다수의 서브대역들 각각을 처리하는 단계로서, 상기 처리 단계는 이득 계수를 적용하는 단계를 포함하고, 상기 이득 계수는 상기 노이즈 분산 추정으로부터 적어도 부분적으로 유도되고, 상기 노이즈 분산은 상기 노이즈 진폭들의 과거(past) 추정들의 가중된 평균으로부터 각각의 시간 인덱스 m에서 업데이트되고,

임계값보다 큰 추정 바이어스를 가진 상기 노이즈 진폭들의 상기 과거 추정들은 상기 가중된 평균에서 배제되거나 언더웨이팅되고(underweighted),

상기 임계값은
의 함수이고, 여기서
는 추정된 선험적 신호-대-노이즈 비율(the estimated a priori signal-to-noise ratio)이고,
는 상기 서브대역 신호의 노이즈 성분들에서 추정된 분산이고,
는 상기 추정 바이어스의 미리 결정된 최대 양에 의해 결정된 상수인, 상기 처리 단계, 및

스피치 성분들이 개선된 오디오 신호를 제공하기 위하여 상기 처리된 서브대역 신호를 주파수 도메인에서 시간 도메인으로 변환하는 단계를 포함하는, 오디오 신호의 스피치 성분들을 개선하기 위한 방법.
삭제
삭제
삭제
제 1 항에 있어서,

상기 서브대역 신호에서 노이즈 성분들의 진폭의 각각의 추정은 상기 서브대역 신호의 노이즈 성분들에서 분산 추정, 상기 서브대역 신호의 스피치 성분들에서 분산 추정, 및 상기 서브대역 신호의 진폭의 함수인, 방법.
삭제
제 1 항에 따른 방법들을 수행하도록 구성된, 장치.
컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체로서, 상기 컴퓨터 프로그램은 컴퓨터로 하여금 제 1 항에 따른 방법들을 수행하게 하는, 컴퓨터 판독 가능한 기록 매체.
삭제