KR0175965B1

KR0175965B1 - 통신 시스템에서의 송신 노이즈 감축

Info

Publication number: KR0175965B1
Application number: KR1019950703183A
Authority: KR
Inventors: 데일 와인 우드슨
Original assignee: 마틴 아이. 핀스톤; 에이 티 앤드 티 코포레이션
Priority date: 1993-11-30
Filing date: 1994-11-15
Publication date: 1999-04-01
Also published as: CA2153170A1; EP0681730A4; CN1129486A; US5706394A; EP0681730A1; PL310056A1; CA2153170C; KR960700498A; US5781883A; UA41913C2; WO1995015550A1; US5708754A; PL174216B1; JPH08506434A

Abstract

원격 통신망 서비스는 선형 예측 코딩 음성 모델의 반복적 추정을 사용하여 잡음을 필터링하는 신호 처리에 의해 전송된 잡음의 귀찮은 효과를 극복한다. 음성 모델 필터는 잡음만의 프레임인 것으로 음성 활성 검출기에 의해 결정된 인입 신호 프레임 샘플에 기초하여 현재 잡음 전력 스펙트럼 밀도의 정확한 갱신된 추정치를 사용한다. 선형 예측 코딩 모델을 사용하여 인입 신호를 계산하는 새로운 방법은 두 미래 프레임까지와 인정한 과거 프레임의 선택된 수에 기초한 현재 프레임의 인트러프레임 반복을 이루는데 제공한다. 이러한 처리 방법은 잡음 신호가 그 소스로부터 확인할 수 없는 경우에도 불구하고 유효하다.

Description

[발명의 명칭]

통신 시스템에서의 송신 노이즈 감축

[발명의 상세한 설명]

[발명의 분야]

본 발명은 노이즈가 있는 원격 통신 채널 또는 원격 통신망에서의 음성 품질을 향상시키는 것에 관한 것이며, 특히 선형 예측 코딩의 새로운 사용을 통해 노이즈 내용을 연속적으로 제거함으로써 음성을 향상시키는 장치에 관한 것이다.

[발명의 배경]

음성 통신 시스템의 모든 형태에 있어서, 다양한 원인으로부터 노이즈가 사용자 통신을 방해할 수 있다. 손상시키는 노이즈는 시스템의 입력에서, 전송 경로중에서, 및 수신단에서 발생할 수 있다. 사용자를 괴롭히거나 산란하게 하는 노이즈의 존재는 음성 품질에 나쁜 영향을 미칠 수 있으며, 음성 코딩 및 음성 인식 장치의 실행을 축소할 수 있다.

음성 인핸스먼트 기술은 카 노이즈 및 채널 노이즈에 영향을 받는 셀방식 무선 전화 시스템과, 노이즈가 있는 환경에 위치된 공중전화, 노이즈가 있는 무선 링크 또는 다른 열악한 경로 및 접속에서의 장거리 통신과, 음성 소스에서 잡음을 갖는 원격회의 시스템, 및 큰 조종실 노이즈가 조종사 음성을 변조시키고 그 노이즈로 인해 지치거나 위험하게 되는 공중 통신 시스템에서 매우 중요하다. 또한, 자동 다이얼 호출의 음성 인식 시스템의 경우에서와 같이, 인식기 알고리즘이 클린 음성의 통게적 모델에 기초한다면 인식 정확도가 잡음이 있는 환경에서 떨어질 수 있게 된다.

전송 경로에서의 잡음은 특히 극복하기 어려운데, 그 한가지 이유는 잡음 신호가 그 소스로부터 확인할 수 없다는 것이다. 따라서, 잡음의 직접 측정으로부터 에러 신호를 발생하여 위상 반전에 의해 에러 신호를 제거하는 것에 의해서는, 에러에 대한 억제가 이루어질 수 없다.

잡음 성분이 직접적으로 관측될 수 없을 경우 잡음이 있는 음성 신호를 강화시키는 여러가지 접근법이 시도되었다. 이러한 기술의 검토가 J. S. Lim 및 A. V. Opeenheim 에 의해 IFFE 회보 Vol. 67, No. 12, 1979 년 12 월, 섹션 V, pp 1586 -1604 에서 Enhancement and Bandwidth Compression of Noisy Speech에서 있었다. 여기에서는 입수 가능한 잡음 신호에 대해 계산된 전체 스팩트럼으로부터 추정된 잡은 진폭 스팩트럼의 스팩트럼 감산과, 잡음 파워 스팩트럼의 추정 및 음성 성분의 주어진 총 잡음 신호의 최상의 모든 폴 모델을 찾기 위해 Lim 및 Oppenheim 에 의해 제안된 반복 모델 기준 필터를 포함한다. 모델 기준 필터는 비실시간 음성 평활기를 개발하기 위해 IEEE Transaction On Signal Processing, Vol.39, No.4, 1991 년 4 월, pp 795 -805 에서 J.H.L Hansen 및 M.A. Clements 에 의한 constrained Iterative Speech Enhancements, 에서 J.H.L. Hansen 에 의해 이용되었으며, 여기에서 부가의 제한 어크로스 시간이 음성의 특징을 변화하도록 모델을 제한하기 위해 Lim-Oppenheim 반복중에 음성 모델에 부과된다.

Lim/Oppenheim 참조문헌에서의 방법의 효과는 처리후에 신호 대 잡음비를 개선하기 위한 것이지만, 필터 출력의 비안정 잡음의 도입에 따라 열악한 음성 품질 개선을 갖게 된다. 매우 낮은 레벨의 비안정 잡음 조차도 사람이 듣는데 불쾌할 수 있다. Hansen 의 비실시간 평활기에서 시간 프레임의 평활의 이점은 남아 있는 비안정 잡음의 레벨을 더 줄일 수 있다는 것이다. Hansen 의 평활 접근법은 Lim/Oppenheim 의 방법에 비하여 상당한 음성 품질 인핸스먼트를 제공하기는 하지만, 이 기술은 과거, 미래 각 시간 프레임에서 모든 데이타를 처리함으로 실시간에서는 동작될 수 없다. 그리고 그러한 개선은 원격 통신 환경에서는 효과적으로 실행될 수 없다. 하기에 설명된 개선책중의 하나는 Hansen 평활기를 이러한 환경에서도 겸용할 수 이는 필터로 작용하도록 대체한 것이다.

[발명의 요약]

본 발명은 잡은 전력 스팩트럼의 실시간 동작의 연속 추정이 부가된 LPC 음성 모델의 반복 추정, 반복하여 재필터된 신호의 변경, 및 폴수와 이들에 대한 시간 프레임상의 이동의 시간 제한을 사용하여 잡음을 필터하는 통신망에서의 신호 처리 방법이다. 잡음 손상 입력 음성 신호는 실시간에 음성의 추정을 출력하여 통신망으로 송신하는 목적을 갖는 특정 반복 선형 위너 필터에 인가된다.

이런 필터는 현 잡음 전력 스팩트럼 밀도 함수의 정확한 추정을 요구한다. 이것은 음성에 전형적인 잡은 갭에서 입력의 스펙트럼 추정으로부터 얻어진다. 이들 잡음만의 프레임 검출은 음성 활성 검출기(VAD)에 의해 이루어진다. 오직 잡음만이 VAD 에서 검출될 때, 필터 출력은 감쇄되어 전체 잡음 전력이 통신망상에 전파되지 않게 된다.

잡음이 가미된 음성이 필터의 고려하에서 시간 프레임에서 검출될때, 음성이 무성음이 되는지 유성음이 되는지의 추정이 있게 된다. 반복 필터에 가정된 LPC 모델 차수는 검출된 음성 형태에 따라 변경된다. 결과적으로, LPC 모델 차수는 시간 프레임에서 유성화 음성이면 M = Fs + (4 또는 5)이고, 무성 음성이면 M = Fs 가 되며, 여기서 Fs 는 KHz 의 음성 대역폭이다. 이러한 모델 차수의 동적 적용은 필터 음성에서 시간 종속 변조된 톤과 같은 잡음을 발생할 수 있는 스트레이 모델 폴을 억제하는데 이용된다.

본 발명의 또다른 특징에 따라, 잡음 스펙트럼의 변경 트래킹이 새로운 잡음만의 프레임을 새로운 노이즈 스텍트럼 추정치 및 과거의 노이즈 스펙트럼 추정치 사이의 거리에 의존하는 정도로 갱신함으로써 제공된다. 파라미터는 새로운 잡은 스펙트럼 갱신이 주어지는 가중값과, 새로운 잡음 스펙트럼 갱신이 추정되기 이전에 검출되야 할 최소의 연속적인 새로운 잡음 프레임 수로 설정될 수 있다.

직접 측정될 수 없는 형태의 잡음을 억제하기 위한 갱신과 적응 음성 모델 및 잡음 스펙트럼 추정을 연계하는 필터의 반복 추정을 사용하는 당 기술에 대한 상기 및 또다른 진보적 개선책이 이후 상세히 설명되어, 원격 통신망에서 이용되는 본 발명의 특정한 새로운 실시예를 보여준다.

[도면의 간단한 설명]

제1도는 본 발명을 포함하는 원격 통신 망을 나타내는 도면.

제1a도는 신호 처리 자원을 나타내는 도면.

제2도는 본 발명에서 실행될 유연한 동작을 나타내는 도면.

제3도는 음성 인핸스먼트에 대한 프레임 워크를 나타내는 도면.

제4도는 제한된 음성 인핸스먼트에 대한 반복 시퀀스를 발생하는 장치를 나타내는 도면.

제5a도 내지 5c도는 반복중에 내부 프레임 LPC 자동 보정 매트릭스 이완 및 음성 모델의 LPC 루트에 대한 인터프레임의 유연한 동작을 나타내는 도면.

제6a도는 현재 프레임의 각 반복을 갱신하는 방법을 나타내는 도면.

제6b도는 현재 프레임의 각 반복을 갱신하는데 이용되는 개선 방법을 나타내는 도면.

제7a 및 7b도는 현재 프레임 주변의 일곱 음성 프레임에 걸쳐 평활하게 하도록 LSP 위치 루트에 대한 평활화 가중값의 표를 나타내는 도면.

제8도 및 제9도는 노이즈 추정기의 표시 양상을 보여주는 신호 트레이스를 나타내는 도면.

제10도는 위너 필터에 이용되는 요구된 노이즈 스펙트럼을 갱신하는데 이용되는 단계를 나타내는 흐름도.

[실시예의 상세한 설명]

본 발명은 기본적으로 개별의 잡음 기준이 유용될 수 없으며 실시간에 동작하는 채널내 노이즈가 부가된 음성을 필터링하는 인핸스먼트 처리가 된다. 본 발명은 비록 그 원리가 전자 음성 전송 매체상의 잡음이 감소되야만 하는 많은 상황에서 적용 가능하지만 일례로서 원격 통신망과 관련하여 설명된다. 원격 통신망의 한예가 제1도에 도시되며, 트위스트 페어가 될 수 있는 12 와 같은 국부 라인으로 전화기(11)와 같은 다수의 통신 단말기가 접속되는 원격 위치 스위치(10)가 구성된다. 경로(13)와 같은 송출 채널은 원격 오피스(10)로부터 발송된다. 경로(13)는 국제적 경계(14)를 넘게될 수 있다. 경로(13)는 경로(13)를 포함하는 17 로 표시된 다수의 인입 경로로 작용하는 No.4ESS 스위치가 될 수 있는 스위치(16)를 갖는 U.S. 기지 중앙 오피스(15)로 연속된다.

스위치(16)는 실례로 채널(13)로부터의 인입 호출을 송출 채널의 그룹중 하나인 최종 송출 전송 채널(19)에 연결하는 경로(18)와 같은 내부 경로를 설정한다. 채널(13)로부터의 인입 호출은 연결 세그먼트(10, 11, 12, 13)에서 발생된 잡음을 포함하는 것으로 가정되며, 그에 따라 잡은 소스는 직접 측정될 수 없다.

본 발명에 따라서, 채널(13)로부터 어떤 사전 설정된 한계값 이상의 잡음이 스위치 출력에 존재하는지에 대한 결정이 논리 회로(20)에서 이루어진다. 논리 회로(20)는 또한 팩스, 모뎀 및 다른 가능한 것을 배제함으로써 호출이 음성인지를 결정한다. 또한, 논리 회로(20)는 발신번호가 송신된 잡음 감소 서비스의 고객인지를 결정한다. 논리 회로(20)가 모든 세가지 결정을 완료한다면, 호출이 스위치(22)에 의해 처리 장치(21)로 보내지며, 그렇지 않으면 호출은 채널(19)로 직접 보내진다. 단지 하나의 처리 장치(21)만이 도시되고 있지만, 스위치(16)로부터 송출하는 모든 채널은 다른 처리기(21)(도시되지 않음)에 접속 가능하다.

잡음을 갖는 채널(13)로부터의 인입 신호는 기저대역 전화 신호의 것으로 제한된 주파수 응답을 갖는 아날로그 필터(도시되지 않음)에 의해 이점이 되도록 처리될 수 있다.

여기 설명된 시스템에서, 처리기(21)로 보내진 잡음을 갖는 음성은 8kHz 레이트로 디지탈화 되고, 시계열이 프레임으로 처리된다. 이용되는 프레임 크기는 160 샘플(20mece.) 이며, 50% 중복이 재구성 필터 음성의 연속성을 보증하도록 이들 블럭에 부가된다.

제1a도를 참조하면, 프로세서(21)는 위너 필터를 구비하며, 여기에서 이 필터에 대한 신호 스펙트럼이 알려지지 않은 파라미터를 얻도록 각 프레임을 반복하고 모든 폴 LPC 모델을 가정함으로써 추정된다. 이것은 잡음이 있는 호출이 보내지는 필터(23)가 된다. 이러한 호출은 또한 잡음 또는 잡음이 더해진 음성 프레임을 연속하여 검출하며, 음성 프레임이 유성음인지 무성음인지를 결정하는 음성 활성 검출기(VAD ; 25)로 바이패스(24)를 경유해 보내진다. 위너 필터에 이용될 요구된 잡은 스펙트럼은 VAD 에 의해 검출된 잡음만의 프레임으로부터 추정된다.

처리된 프레임이 단지 잡음만으로 검출될때 VAD(25)는 삭제기(27)로 절환되도록 잡음 삭제 회로(26)에 신호를 보낸다. 이러한 모드에서, 필터(23)로의 잡음만의 입력은 단말기(28)에서의 원단 수화자에 대한 송출 경로(19)의 엔트리 이전에 실질적으로 감쇄된다. 부가하여, 잡음만의 프레임이 검출될때 VAD 현재 잡음 프레임에 기초한 새로운 잡음 스펙트럼 추정치를 만들어 이를 이전의 잡음 스펙트럼 추정치로 가중하도록 필터(13)의 갱신 함수(29)에 신호를 보낸다.

음성이 VAD 에 의해 검출될때, 26 으로의 입력은 123 으로 절환되며, 필터 음성은 송출 라인(19)으로 보내진다. 부가하여, 23 의 반복 위너 필터에 대한 LPC 음성 모델의 차수는 유성음의 음성이 검출된다면 10 번째 차수에서, 무성음의 음성 프레임에 대하여는 4 번째 내지 6 번째 차수에서 설정된다. 음성 모델의 이러한 적응 차수에 대한 유도는 LPC 폴에 대한 반복 조사가 신호 전력 스펙트럼 대 잡음 전력 스펙트럼의 비율이 낮은 주파수 대역 부분에서의 그릇된 포르만트가 될 수 있다는 것이다. 이러한 것은 비록 이들이 평균 신호 진폭에 비하여 매우 낮은 레벨이다 하더라도 사람의 귀에 거슬릴 수 있는 필터 출력이 지속 기간과 랜덤 주파수의 잡음 톤이 되게 된다. 그러므로, 무성음의 음성에 주로 필요되는 LPC 차수는 관심 대역폭에 대한 유성음의 음성의 것에 단지 절반이 되고, 무성음의 음성은 유성음의 통상 약하므로, LPC 차수를 변조하는 것은 중요하며, 음성 모델은 전면 열거되지 않는다.

반복적 필터(23)에서 실행되는 처리는 Hansen/Clements 의 참조 문헌에 설명된 비실시간 AUTO-LSP 평활하기에 대한 반복적 수렴을 개선하기 위해 J.H.L. Hansen 에 의해 적용된 인터 프레임 및 인트라프레임 평활화와, Lim/Oppenheim 참조 문헌에서의 가용 필터 접근법에 근거를 둔다. 거기에 본 발명에 의해 실현되는 변경들이 부가된다. 필터(23)는 근접 음성 내용을 얻도록 인입 잡음 음성 신호에 작용한다. 이제 필터 동작이 설명된다.

[인접 시간 프레임의 신호 모델 평활화]

음성이 이미 디지탈 형태가 아니라면, 필터(21)는 샘플 출력의 프레임 블럭을 발생하는 인입 신호 아날로그/디지탈 변환기(30)를 포함한다. 160 샘플의 프레임 크기 또는 20meec 는 LPC 모델링 목적에 대해 통계적 안정 처리에 근접되는 음성에 대한 충분한 지속 시간이 된다. 이러한 필터의 한 성분으로 이용된 음성 처리의 LPC 모델 및 반복 위너 필터는 안정 처리의 가정에 근거를 둔다. 이와같이, 프레임이 이러한 짧은 시간 블럭에서 처리되는 것은 중요하다.

제2도에서, 잡음을 더한 입력 신호는 y[n] = s[n] + d[n] 으로 표시될 수 있으며, 여기서 y 는 가용 입력 샘플이며, s 및 d 는 신호 및 잡음부이다. 샘플은 실례로 대략 50% 중복되는 프레임으로 블럭된다. 데이타 블럭 각각은 Hanning 윈도우와 같이 시간 윈도우에 의해 가중되어, 시간상 바르게 이격된 중복 윈도우 프레임의 합은 원래 입력 시계열을 주도록 가산된다. 윈도우의 사용은 데이타 프레임에 대해 추정된 LPC 모델의 변화를 감소시키고, 프레임 중복은 제1a도에 19 로의 재구성 필터 신호 출력의 연속성을 제공한다.

Hansen/Clements 참조 분헌의 반복적 AUTO-LSP 평활기에서와 같이, 입력 데이타의 현재 프레임의 처리중에 위너 필터의 각 반복에서 적용되는 본 발명에 두 형태의 제한이 있다. 이들은 현 프레임 각각의 인트러프레임 반복에 적용된 LPC 자기상관 매트릭스 완화 제한과, 인접한 과거와 미래 프레임에 대한 각각의 반복에서 실현되는 LPC 폴 위치 맞은편의 현 프레임의 LPC 음성 모델 폴 위치의 인터프레임 평활화이다. LPC 폴 제한은 직접 적용되지 않는데, 이는 이들이 Z 평면의 복소수로 발생하기 때문이며, 인터프레임 평활화에 대한 복소 폴 위치를 만들기 위한 적절한 연관이 명확하지 않다. 간접적이지만 보다 간단한 접근법이 라인 스펙트럼쌍(LSP)으로 불리는 LPC 폴의 등가 표현을 사용함으로써 가능하며, 그에 대한 상세한 내용이 Hansen/Clements 참조문헌과 S.Fururi, Marcel Dekker, Inc., New York, NY, 1989, Chapter V 의 D 디지탈 음성 처리, 합성, 및 인식에 설명되어 있다. N 차 LPC 모델 폴 위치는 복합 Z 평면의 유닛 서클상에 놓인 N/2 LSP 위치 루트 및 N/2 LSP 차이 루트 세트로 동등하게 표현된다. LPC 폴의 이러한 동등한 LSP 표현의 활용은, 신호의 LPC 모델 스펙트럼의 약소하게 감폭된 포르만트 위치가 LSP 위치 루트와 상당히 관련를 갖게 되고 이들 포르만트에서의 LPC 스펙트럼 대역폭은 LSP 차이 루트와 상당한 관련을 갖게 된다는 것이다. 인정된 LPC 모델을 위해 두 종류의 LSP 루트가 정확히 유닛 서클상에 놓이며 이 서클 주변을 교번한다. LSP 루트의 위치 순차는 명백하며, 시간 프레임에 걸친 이들 평탄화는 복합 LPC 루트의 평탄화에서 보다 상당히 간단하다. 요약하면, 필터되는 현재 프레임의 각각의 반복에서의 LPC 폴은 동등한 LSP 위치 루트를 평활화하고 인접한 위치 루트로 차이 루트의 최소 거리상의 보다 낮은 경계를 적용함으로써 인접 프레임의 동일한 반복에서의 LPC 폴에 걸쳐 평활화된다. 후자의 경계는 음성화된 어떠한 LPC 모델 포맷도 그 선명도를 제한한다.

본 발명은 가까운 연속 시간 프레임에 걸쳐 LSP 위치 평활화의 실행을 요구하지만, 통신망의 실시간 적용에 실행되는 필터에서는 단지 필터되는 현재 프레임 앞의 일부 프레임만이 가용될 수 있다. 50% 중복을 갖는 20msce. 프레임에 대하여, 제2도에 표시된 바와같은 두개의 미래 프레임을 사용함으로써 부과된 최소 지연은 30msec 이다. 이러한 적은 지연은 일부 통신망에서 중요할 수 있다. 여기에 기술된 필터는 평활화를 위해 네개의 과거 프레임과 두개의 미래 프레임을 가정한다. 전체의 과거 프레임이 이용가능하지만, 단지 현재 프레임과 관련되는 프레임만이 사용된다.

[반복처리]

현재 프레임 K 에 대하여 실행되는 제한된 반복 단계는 제3도에 도시되며, 반복 1, ... , J 가 제4도에 표시된다. 위너 필터 LSP 사이클은 위너 필터(WF)에 의해 주파수 영역의 입력 블럭 Y[n] 을 필터링함으로써 개시되며, 여기서 이용되는 신호 및 잡음 전력 스펙트럼 추정치는 C S_y(f) 및 S_d(f) 이다. 즉, 초기 필터의 신호 스펙트럼은 신호의 기대 전력을 갖도록 C 로 스테일된 총 입력 스펙트럼이다. P_signal= P_total- P_noise, 개시후, 제3도의 루프는 프레임 K 의 반복 필터링에 대한 다음의 단계를 실행한다.

(1) LPC 자기상관 계산이 프레임에 대한 이전 반복의 자기상관 값 이상에서 이완하게 되는 시간 영역에서의 WF 출력신호의 LPC 파라미터를 추정함으로써 반복 루프를 개시한다. 이러한 이완 단계는 최상의 음성 LPC 모델에 대한 반복 조사를 더욱 안정화하도록 한다. 이에 대하여는 하기의 제5도와 관련하여 설명된다.

(2) 음성 프레임 K 에 대한 반복 j 에서 (1)에서 밝혀진 LPC 모델로부터 LSP 위치 루트 P_j및 루트 Q_j에 대해 해결한다. 이것은 1/2 LPC 차수 각각의 두 다항식의 실수근의 해결을 필요로 한다.

(3) 제2도 및 제5도에 표시된 바와 같이 인접하는 프레임에 걸쳐 현재 프레임 K 에 대한 LSP 위치 루트 P_j를 평활화하며, 평활화된 P_j루트로부터 떨어진 LSP 차이 루프 Q_j를 제한한다. 각각의 차이 루트 Q_j는 그에 가장 근접하게 평활화된 P_j루트로부터 떨어진 최소 거리 D_min보다는 더되도록 제한된다. 이것은 평활화된 LPC 폴 위치가 복소 Z 평면의 유닛 서클로 작동되지 않게 한다. 이러한 발산은 Hansen/Clements 참조문헌에서의 평활화기로 설명되었던 Lim/Oppenheim 참조문헌의 Lim/Oppenheim 반복 필터의 문제이었다. 이러한 제한은 실질적 음성 전송에 바람직하다. 값 D_min= 0.086 라디안은 원격 통신 시험 방법에 이용된다.

(4) 평활화된 LSP 루트는 평활화된 LPC 파라미터로 변환되고, 평균 전력이 현재 K 번째 프레임 추정 신호 전력과 같게 되도록 스케일된 LPC 신호 모델 전력 스펙트럼 S_S(f)_j계산한다. P_signal= P_total- P_noise.

(5) 제3도 및 제4도에 도시된 바와같이 다음 반복의 위너 필터 H_j(f) 를 제한하도록 평활화된 LPC 모델 신호 스펙트럼 S_S(f)j 및 현재 잡음 전력 스펙트럼 추정치 S_d(f)를 사용한다. 여기서는 용어 위너 필터가 막연히 사용되는데, 이는 이 필터가 전력 pow 로 상승된 통상의 비-캐주얼 WF 이기 때문이다. 0.6 및 1.0 사이의 pow 에 대한 값은 원격 통신 시험 방법에 사용된다. 보다 큰 pow 는 각 반복에 발생되는 변화를 더욱 크게 하지만, 보다 작은 pow 는 신호 성분에 대한 반복 조사가 더욱 안정되게 한다.

(6) 이전 반복 WF 시계열 출력 S_j-1[n] 및 신호 추정치 S_j[n] 의 다음 반복을 얻도록 현재 H_j(f) 를 갖는 원래 입력 데이터 y[n]의 조합을 필터한다. 이용되는 선형 조합은 (1 - B) y[n] + B S_j-1[n], 여기서 0 ≤ B ≤ 1, B = 0 이라면, 필터는 비제한의 Lim/Oppenheim 반복 필터가 되며, B = 1 이라면, 다음 WF 로의 입력은 Hansen/Clements 참조문헌의 Hansen AUTO-LSP 평활화기에서 실행된 바와 같이 이전 WF 출력이 된다. 0.80 및 0.95 사이의 B 값은 이 필터상의 대부분의 실험으로 이용된다. 이러한 B 의 값으로 Lim/Oppenheim 필터 및 Hansen 평활화기 모두의 일부 바람직한 특징이 조합되었다. 이러한 가중 개념은 본 발명에서 새로운 것이며, 반복된 필터 음성에 관측된 고주파수 필터링 정도에 대하여 최종 잡음 내용의 부가적 제어를 제공한다.

Lim/Oppenheim 및 Hansen/Clement 참조문헌에서의 두 이전의 신호 모델 반복 알고리즘 특징의 조합, 특히 위너 필터 입력의 각 반복의 가중 조합은 출력에 다소 증가하여 남아 있는 잡음의 트레드 오프로 덜 소거된 소리의 음성 추정치가 된다. 제2도 및 제3도에는 조합이 도시되며, j 번째 반복에서의 필터로의 입력 신호는 (j-1) 번째 반복으로부터의 위너 필터 출력 s[n]_j-1및 총 입력 y[n] 이다.

(7) 본 방법의 적절한 실시예에서, 반복수 intra 는 실험에 의해 결정된 입력 파라미터가 된다. 실험에서 얻어진 결과에 대해 4 내지 7 의 인트러프레임 반복값이 [7, 0.65], [5, 0.8] 및 [4, 1.0]과 같은 조합 [Intra, pow]에 이용되며, 여기에서 피드백 인자 B 의 값은 0.80 및 0.95 사이에 있다. 최적값은 잡음 종류 및 음성 형태에 의존한다. 광대역 플랫 잡음에 대하여, intra = 6 이 일반적이며, 잡음 전력 스펙트럼이 [0.4KHz] 음성 대역 스펙트럼의 1KHz 아래에 상당히 바이어스 될때는 단지 4 또는 5 반복이면 충분하다.

제1a도 항목 25 또는 제3도에 설명된 본 발명의 중요한 특징은 음성이 있는 경우 유성 또는 무성음의 음성을 검출함으로써 각 프레임에 적용하기 위해 최상의 모델 차수를 결정하도록 그리고 잡음만의 프레임을 검출하도록 음성 활성 검출기(VAD)의 다중 작용이 된다. 이전에 설명한 바와 같이, PC 음성 모델에 대한 최상의 차수는 유성 및 무성의 음성 프레임에 대해 다르다. 또한 앞서 언급된 바와 같이, 잡음 스펙트럼은 단지 유성음 신호가 충분한 수의 연속 프레임에서 검출되지 않을 때에만 갱신된다. 잡음만이 검출되는 일정 시간 주기 동안 스위치(26)의 잡음 억제기(27)는 송출 신호를 감소하도록 작동되며, 반복 필터(23)는 작동되지 않는다. 하지만, 음성이 검출된다면 26 은 30 을 출력(19)으로 절환한다. 음성, 유성음 또는 무성음의 종류는 반복에 이용되도록 lpc 음성 모델 차수를 설정한다. 또한, 세개의 가능한 상태 잡음 프레임 유성음 프레임 및 무성음 프레임 사이의 변경 검출은 과거 프레임 K -4, K - 3, K -2 및 K - 1 에 대한 LSP 히스토리가 현재 K 번째 프레임에 대한 평활화 적용 이전에 재개시되게 한다. 이것은 과거 시간 프레임에 걸친 평활화 목적이 평균 프레임에 걸쳐 음성의 짧은 기간 안정의 사용을 제공하므로써 다른 종류의 잡음을 평균하는 것이므로 최상의 음성 필터링에 대해 필수적이며 필연적이다.

[프레임 처리]

필터(23)의 실시간 동작을 이루도록 프레임을 처리하는 방법이 제6도에 도시된다. K 번째 프레임은 현재시간 기준점이 되는 것으로 가정하며, 프레임 K - 4, K - 3, K -2, K - 1 은 이전에 처리된 것으로, 프레임 K + 1 및 K + 2 는 이용가능한 미래 프레임이다. Hansen/Clements 참조문헌에서의 평활화 접근법에서와 같이, 필터(23)는 K 번째 프레임 음성 모델의 LSP 루트를 평활화하고 각 K 번째 프레임 반복에서의 과거 및 미래 프레임에 대하여는 진행의 반복수에서의 과거 프레임 LSP 히스토리를 사용한다. 하지만, Hansen/Clement 참조문헌의 비실시간 평활화기와는 다르게, 본 발명은 단지 두개의 미래 프레임만을 사용하고 또한 각 프레임에 대해 실행된 반복중에 요구된 과거 프레임 LSP 히스토리를 기억하며, 인트러프레임 반복중에는 현재 프레임과 함께 평활화된 이전의 네 프레임에 대하여 이들 히스토리를 축적한다. Hansen/Clements 참조문헌의 방법에서와 같이, 가중치는 프레임에 걸쳐 테이퍼되며, 각 LSP 루트로부터의 테이퍼는 현재 프레임 SNR 과 이 K 번째 프레임까지의 SNR 히스토리에 의존한다.

본 발명의 또다른 개선책은 프레임 전반에 적용될 프레임 LSP 가중치에 대한 록업 테이블의 사용이다. 본 발명에 적용되는 가중치 테이블은 제7도에 도시되며 Hansen/Clements 참조문헌에 요구되는 가중치는 시간 소비 공식 계산에 의해 얻어진다. 제7도 테이블에 적용된 값은 Hansen/Clement 참조문헌에 이용된 공식에 의해 부과된 제한과 다르게 간단하고 독립적으로 조절될 수 있다. 가중치 벡터가 특정 LSP 루트에 적용되는 음성 프레임 임계치는 한 테이블에서 다른 테이블로 절환되며 독립적으로 선택된다. 평활화 벡터를 구성하는 일반적인 계획은 이들 테이블에서 좌에서 우로 표시된 기록과 같이 보다 높은 차수의 LSP 위치(즉, 보다 높은 포르먼트 주파수)로 보다 많은 평활화를 적용하는 것이다. 이것은 보다 높은 차수의 LSP 음성 위치상의 관측된 주어진 SNR 에서 노이즈의 보다 큰 영향에 기인한다. 테이블 값에 부과된 또다른 경향은 SNR 이 평활화가 높은 SNR 에서 적용되지 않는 점으로 증가됨에 따라 프레임 SNR 이 낮고 감소되는때 평활화가 넓고 균일하다는 것이다. 이러한 경향은 프레임 SNR 이 개선됨에 따른 필터 음성상의 노이즈 감소 효과에 기인한다. 가중 벡터의 한 테이블로부터 다른 테이블로 절환하는데 이용되는 프레임 SNR 임계치는 VAD 에서 추정된 잡음 전력의 연속 추정치 Npow 의 배수로서 선택된다. 이용되는 증가 임계치는 테이블 Win1 에서 Win2 로의 변경에 대하여는 Th1 = 2Npow, 테이블 Win2 에서 Win3 으로는 Th2 = 3Npow, 테이블 Win3 에서 Win4 로는 Th3 = 7Npow, 테이블 Win5 로는 Th4 = 11Npow 가 되며, 저 SNR 프레임의 충분한 장기 지속이 발생하면 Win0 이 부가된다.

[음성 활성 검출의 이용]

본 발명에 따라 유성음 활성 검출기(VAD)를 사용하여 잡음만의 프레임으로부터의 잡음 전력 스펙트럼 밀도 S_d(f) 의 측정은 이점을 제공한다. 제3도에 도시된 필터 처리는 음성중 존재하는 잡음이 추정된 S_d(f) 와 동일한 평균 전력 스펙트럼을 갖는다는 가정에 기초한다. 잡음이 통계적으로 광역 감지 안정상태라면 잡음 측정치는 갱신될 필요가 없다. 여기 설명된 음성 인핸스먼트 적용과 많은 다른 전송된 잡음 감소 적용에 대해서는, 잡음 에너지는 단지 대체로 안정적일 뿐이다. 이 경우에서 S_d(f)의 연속 추정치가 요구된다. 따라서, 동작 SNR 에서 잡음에 대해 좋은 면역성을 갖는 제1a도에서의 검출기(25)에서와 같은 VAD 는 음성이 존재치 않을때를 식별하는데 이용된다. 음성 세그먼트 사이에 검출된 잡음만의 프레임은 제10도에 도시된 바와 같이 잡음 전력 스팩트럼 추정을 갱신하는데 이용된다. 제1a도 적용에 이용되는 적절한 VAD 가 D.K.Freeman 등에 의해 IEEE Conf. ICASSP. 1989, Section S7.6, pp.368-372에 The Voice Activity Detector for the PAN-EUROPEAN Digital Cellular Mobile Telephone Service에 기술된 GSM 06.32 VAD Standard 로부터 얻어진다.

제8도 및 제9도에 도시된 이전 필터되고 이후 필터된 음성 예는 유성음이 검출되지 않을때 이떻게 유성음 활성 검출이 송출 신호의 트리거 감쇄에 이용되는지를 설명한다. Freeman 등의 참조문헌에 설명된 바와같이, 잡은 프레임상의 VAD 활성화는 음성이 없는 특성의 반복 프레임 결정 및 검출 입력 레벨의 회선 균형이 된다.

[음성 분류기를 사용한 개선된 출력]

VAD 음성 분류기 결정은 제3도에 도시된 바와같은 LPC 모델 단계의 프론트 엔드에 결합될 수 있다. 이것은 AUTO LSP 알고리즘의 LPC 차수와 같은 파라미터 설정이 현재 처리된 프레임에서 필터되는 음성 분류(유성음 또는 무성음)에 따라 최적으로 조정된다. 처리된 프레임내의 음성은 잡음의 존재에 대해 신뢰할만하게 분류될 수 있으며, 인핸스먼트 개선될 수 있다.

[노이즈 스펙트럼 추정]

본 발명의 또다른 특징에 따라 제3도 및 제10도를 참조하면, 잡음 신호 스펙트럼의 변화에 대한 개선된 민감도가 새로운 잡음 스펙트럼 추정 S_d(f)_new가 이전의 추정 S_d(f) 와 어떻게 다른지에 의존하는 정도로 새로운 잡음만의 프레임을 갖는 스펙트럼 S_d(f)을 갱신하는 장치에 의해 제공된다. S_d(f)_L-1이 이전 잡음 스펙트럼을 나타낸다면, 갱신된 스펙트럼은,

S_d(f)_L= (1-A) S_d(f)_L-1+ A S_d(f)_new

여기서, 0 ≤ A ≤ 1 은 주파수 대역에서의 에러 | S_d(f)_L-1- S_d(f)_new|^P의 정규화 평균이며, P 에 대한 일반적인 값은 1 → 2 이다. 새로운 잡음 스펙트럼 추정치가 이전 추정치 형태에 근접할때 A 는 0 에 가까우며, 두 스펙트럼 형태가 매우 다르면 A 는 보다 1 에 가까우며, 새로운 잡음 프레임은 S_d(f)_L에 상당히 가중될 것이다. 잡음 프레임 결정은 적절한 SNR 범위에 비교적 보전적 추정기인 VAD 에 의해 이루어지며, 옳바른 잡음 결정 가능성이 10dB 이상의 SNR 에 대해 높다. 잡음 갱신 사이의 시간은 이러한 접근의 파라미터는 아니며 단지 평균 스펙트럼 차이가 된다. 스펙트럼 S_d(f)_new의 추정의 변화를 감소하기 위해서, 갱신 및 이전에 VAD 로부터 인접한 잡음 프레임 결정수가 유효함을 규정하는 것이 바람직하다. 인핸스먼트의 시험에서, 5 또는 6 인접 잡음 프레임이 스펙트럼을 갱신하는데 요구된다.

[AUTO-LSP 개선 반복 필터상의 부가적 커멘트]

이전에 설명된 바와 같이, 두 제한의 형태가 Lim-Oppenheim 모델에 기초한 반복 필터를 개선하도록 AUTO-LSP 필터 접근법에 이용된다. LPC 모델의 각 반복에 대해 계산된 자기 상관 매트릭스에 위치된 인트러프레임 자기상관 이완과 필터된 프레임 주변의 시간 프레임에 대한 반복에 발생되는 LSP 루트에 걸친 인터프레임 평활화가 있다. 각 반복에 실행되는 제한 동작이 제5도에 도시된다. 평활화 동작은 반복중에 이전 반복 신호 결과 s[n]_j-1로부터 그 반복 위너 필터(WF) 신호 전력 추정치 S_S(f)_j를 얻도록 제한이 적용되는 차수를 도시한다. 각 반복에서 신호 스펙트럼의 새로운 추정치가 WF 모델로 삽입되는 WF 로 전체신호 +잡음 y[n] 을 필터링하는 반복 시퀀스는 이론적으로 Lim/Oppenheim 참조문헌에 부과된 통계적 가정하에 최상 신호 추정으로 수렴된다. 실제의 음성 신호 및 잡음 분류에 있어서, 부가의 AUTO-LSP 인트러프레임 및 인터프레임 제한은 수렴을 협조하며 WF의 신호 스펙트럼상에 음성과 같은 필요 조건을 부과한다. 인트러프레임 자기 상과 이완은 제5b도에 도시되며, 여기서 소정의 LPC 모델 파라미터가 a 로 표시되고, 최종 신호 추정치 s[n]_j의 자기상관 매트릭스는 R_j, b_j는 Yule-walker AR 방법의 교차 상관 벡터이다. 제안된 이완 인자는 C = 0.7 이다. 이완은 이전 프레임 보다는 더 평활하도록 확장될 수 있지만 이러한 것을 통해 중요한 이점을 제공하는 것은 없다. 평활화 처리는 제5c도에 도시된다. 각 대형 회로는 복소 Z 평면의 유닛 서클을 나타낸다. K 번째 프레임 및 반복 j 에 대하여, 심볼 '0'은 LSP 차이 루트 Q_kj를 나타내며, '*' 위치 루트 P_kj를 나타낸다. 최소 위상인 LPC 모델에 대하여 폴은 유닛 서클 내부에 놓이고, P_kj및 Q_kj는 이 서클을 따라 대체된다. LSP 평활화는 과거 및 미래 프레임에 걸쳐 있으며, 현재 설정은 K - 4, K - 3, K - 2, K-1, K, K +1, K + 2가 된다. 단지 위치 루트 4P_kj만이 직접 평활화되고, 차이 루트 Q_jk는 평활화된 P_kj를 따라가게 된다. 역단계가 평활화된 스케일 LPC 신호 모델의 스펙트럼 S_S(f)_j을 제공한다. 등가의 LSP 표현의 복소근은 간단히 Hansen/Clements 및 Furui 참조문헌에 완전히 설명된 바와같이 각각 원래의 LPC 다항식 치수의 반으로 실근 다항식 쌍의 해가된다.

명백한 계산식 이점이 LPC 자동화기 방법의 복소 영역 루트를 직접 평활화하는 것 보다는 AUTO-LSP 접근법의 LSP 루트의 평활화에 존재한다. LPC 및 LSP 모델 표현이 동등하다하더라도 프레임에 걸친 LSP 루트 평활화의 가능한 단점은 비선형 관계가 LPC 위치/거리 루트 사이에 존재한다. 특히, LPC 루트가 유닛 서클에 떨어져 이동함에 따라 LSP 위치 루트는 LPC 포르먼트 주파수 또는 대역폭과는 잘 일치하지 않는다. 하지만, 이러한 비선형 맵핑은 개선된 음성 인핸스먼트를 제공하는데 제한된 LSP 루트의 유효성을 제한하는 것은 아니다.

설명된 처리는 잡음 전력 스펙트럼의 추정 포인트로부터 이러한 잡음 추정치를 사용하여 처리된 음성 + 잡음의 종료까지의 기간 동안 잡음이 통계적으로 광역 감지 안정 상태일때 특히 효과적이며, 10dB SNR 이상의 신호 대 잡음비에서 가장 유효하다. 다량의 스펙트럼 에너지가 오디오 밴드의 보다 낮은 부분에 있게 되는 자동차 도로 잡음 및 항공기 조종실 잡음과 같은 방해의 경우에는, 5dB SNR 이하에서 유용하게 작용한다. 회로망 내부 흄과 같은 고정 톤과 같은 잡음에 대하여는, VAD 가 잡음만의 프레임을 명백하게 표시할 때 0dB 이하의 SNR 에서 상당히 성공적으로 동작된다.

Claims

스위칭 노드와, 상기 노드와 접속하여 원격 위치로부터 신호 및 잡음을 구비하는 전송을 전달하는 인입 전송 채널 및, 송출 신호 전송 채널을 구비하는 원격 통신망에서, 상기 인입 전송으로부터 잡음을 필터링하는 처리 방법에 있어서, 상기 인입 전송을 인핸스먼트된 음성 신호를 발생하도록 연속적으로 중복되고 시간 윈도우된 정보 프레임으로 변환하는 단계로서, 각각의 프레임이 선형 예측 코딩(LPC) 음성 모델에 의해 인입 신호를 나타내기에 충분한 비율로 취해진 디지탈 샘플을 구비하게 되는 상기 변환 단계와; 상기 LPC 음성 모델상에 반복 추정을 실행하는 수단을 포함하는 신호 필터의 메모리에 각각의 상기 프레임을 기억하는 단계와; 현재 프레임의 다수 인트러프레임 반복을 이루는 단계로서, 상기 신호 필터에서 잡음 스펙트럼의 현재 추정치 및 총 입력 신호 스펙트럼에 기초한 현재 프레임에 대한 음성 신호 성분의 초기 추정치를 만드는 단계와, 상기 초기 추정치로부터 상기 현재 프레임에 대한 등가의 LSP 루트 셋을 발생하는 단계와, 각각의 상기 현재 프레임의 각 인트러프레임 반복에 대해 다수 미래 프레임상의 제1의 상기 반복으로부터 얻어진 다수 LSP 위치 루트 및 과거 프레임 반복중 상응하는 것으로부터 세이브된 위치 루트와 함께 상기 현재 프레임의 상기 위치 루트를 평활화하는 단계에 의한 상기 다수 인트러프레임 반복 단계; 및 선택된 횟수만큼 인트러프레임 반복 단계를 반복하는 단계를 구비하며, 최종의 상기 반복 출력은 인입 음성 신호의 실시간 추정치의 필터 프레임을 구비하게 되는 처리 방법.
제1항에 있어서, 상기 선택된 과거 프레임은 가장 최근 프레임중 네개 프레임 이상으로 구성되며, 선택된 상기 미래 프레임은 인접한 두 프레임으로 구성되는 처리 방법.
제2항에 있어서, 음성 내용을 갖는 프레임과 잡음만의 내용을 갖는 프레임간을 구별하는 단계와; 상기 잡음만의 프레임 내용을 사용하는 잡음 스펙트럼 연속 추정치를 발생하는 단계; 및 잡음만의 프레임에 응답하여, 상기 잡음 스펙트럼 추정치를 갱신하는 단계를 더 구비하는 처리 방법.
제3항에 있어서, 잡음만의 프레임을 검출하는데 응답하여 상기 송출 전송 채널로부터 상기 필터 출력을 단락하며, 상기 인입 전송을 감쇄기를 통해 상기 송출 전송 채널로 직접 연결하는 단계를 더 구비하는 처리 방법.
제4항에 있어서, 각각의 상기 음성 프레임에 대해 음성이 유성음인지 무성음인지를 검출하는 단계와; 상기 음성 프레임의 검출에 응답하여, 상기 음성 모델의 차수를 10 차수 LPC 로 설정하는 단계; 및 상기 무성음의 음성 프레임의 검출에 응답하여 상기 10 차수 보다 상당히 낮은 차수를 설정하는 단계를 더 구비하는 처리 방법.
제5항에 있어서, 상기 무성음의 음성 프레임 검출에 응답하여 설정된 상기 차수는 네번째 내지 여섯번째 차수 사이의 범위에 있게 되는 처리 방법.
제6항에 있어서, 현재 잡음 프레임의 상기 현 추정치는: 상기 필터에 얼마나 많은 잡음만의 연속적 프레임이 현재 기억되 있는지를 검출하는 단계와; 상기 연속적 프레임 수가 소정의 량 이상이라면, 상기 연속적 프레임의 평균 잡음 전력 스펙트럼을 계산하는 단계와; 상기 평균 잡음 전력 스펙트럼 및 이전에 계산된 잡음 전력 스펙트럼 사이의 차이를 측정하는 단계; 및 상기 차이 측정에 관련된 인자를 가중함으로써 최종의 두 지정 스펙트럼 각각을 조절하는 단계로서, 상기 스펙트럼의 결과적인 합을 소정의 전력 스펙트럼 레벨과 일치하게 하는 상기 조절 단계를 구비하는 처리 단계에 의해 유도되는 처리 방법.
제7항에 있어서, 전송된 인입 잡음 임계치를 설정하고 상기 임계치 이상의 잡음이 존재하는지를 결정하는 단계와; 인입 호출이 유성음 신호 내용을 포함하는지를 결정하는 단계와; 발신수가 감소된 전송 잡음 에너지를 제공하는 원격 통신 서비스의 고객수인지를 결정하는 단계; 및 상기 최종 지정된 모든 예정이 존재하면 상기 스위칭 노드에서 상기 처리를 동작하는 단계를 더 구비하는 처리 방법.
제8항에 있어서, 각 프레임에 상기 LSP 루트 값에 대한 가중치를 적용하는 단계로서 상기 가중치는 LSP 포르먼트 수, 총 프레임 전력 값, 프레임 전력 임계치, 연속적 잡음 임계치 P_count, 및 상기 카운트 임계치 L_max가 P_count만큼 초과되는지를 선택적으로 결합함으로써 규정되어지게 되는, 상기 적응 단계를 더 구비하는 처리 방법.
제9항에 있어서, 각각의 상기 현제 프레임으로 이루어진 인트러프레임 반복수는 1 및 7 사이에 있는 처리 방법.
제10항에 있어서, 각각의 연속적 프레임상의 상기 인트러프레임 반복 처리를 반복하는 단계; 및 상기 출력을 발생하도록 시간 중복된 프레임 결과를 결합하는 단계를 더 구비하는 처리 방법.