KR20010051980A

KR20010051980A - 침묵 기간에서의 에코 및 노이즈의 지수적 감소

Info

Publication number: KR20010051980A
Application number: KR1020000071015A
Authority: KR
Inventors: 마트디알.한스위르겐; 발케르미카엘; 마우레르미카엘
Original assignee: 크리스티안 그레그와르; 알까뗄
Priority date: 1999-11-27
Filing date: 2000-11-27
Publication date: 2001-06-25
Also published as: DE19957221A1; EP1103956A2; DE50010504D1; EP1103956A3; EP1103956B1; US6999920B1; ATE297590T1; JP2001202100A

Abstract

침묵 기간이 존재할 때 침묵 기간 검출 수단에 의해 결정되고, 그 후 왜곡된 유용한 신호는 스캔 속도=1/t의 리듬의 사이클을 갖는 시간-종속 제어 신호또는 제어 신호에 의해 변형되는, 유용한 음향 신호 전송을 위해 TK 시스템에서 에코 및/또는 노이즈 신호 감소를 위한 방법이 있다. 이 방법에서, 제어 신호는 유용한 신호에서의 음성 신호의 존재 동안, 제어 신호의 크기가 소정의 상수 값로 설정되고, 침묵 기간이 시작할 때 제어 신호의 크기는에서 순환식에 따라 하나의 샘플 값에서 다음 샘플 값까지 연속적으로 감소되도록 변화된다. 침묵 기간이 끝난 후에는는 다시

Description

침묵 기간에서의 에코 및 노이즈의 지수적 감소{EXPONENTIAL ECHO AND NOISE REDUCTION IN SILENCE INTERVALS}

유용한 음향 신호, 특히 사람의 음성을 전송하기 위해 원격 통신 시스템에서 에코 및/또는 노이즈 신호를 감소하는 방법은, 유용한 신호와 간섭 신호(interference signal)와의 혼합 신호가 음성 신호(speech signal)를 포함할 때, 또는 침묵(silence) 기간이 존재할 때 침묵 검출에 의해 판단하는 단계와, 시간-종속 제어 신호 a_o(t) 또는 제어 신호 a_o(k)-제어 신호 a_o(t) 또는 a_o(k)는 샘플링 속도 f_T=1/T로 클럭되고, k∈로서 샘플 갯수를 나타내며, T는 하나의 샘플에서 다음 샘플까지의 주기를 나타냄-에 응답하여, 일반적으로 에코 및/또는 노이즈 신호에 의해 간섭되는 유용한 신호들의 진폭을 2-입력 곱셈기(multiplier)에 의해 변하시키는 단계를 포함한다.

이러한 방법은 예를 들어, DE 42 29 912 A1으로부터 공지되어 있다.

사람들 사이에서 자연스럽게 통신을 하는 동안, 구두(spoken)의 단어의 크기는 일반적으로, 음향 환경에 자동적으로 적응된다. 그러나, 멀리 떨어져서 이야기하는 구두의 통신에서는 대화하는 상대방들이 동일한 음향 환경에 있지 않아서, 어느 쪽도 상대방의 위치에서의 음향 상황을 인식하지 못하게 된다. 이러한 문제는 특히, 대화자들중의 일방이 그의 주변 음향에 의해 강제되어서 매우 크게 말하는 반면, 상대방은 조용한 음향 환경에 있어서, 작은 크기의 음성 신호를 생성할 때, 심각하게 나타난다.

더 심각한 문제는 TK 채널상에서, "전자적 원인(electronics origin)"의 어떠한 노이즈가 생성되고, 이 노이즈가 유용한 신호에 백그라운드로서 함께 전송된다는 점에 있다. 불희망된 백그라운드 노이즈(거리, 공장, 사무실, 휴대 식기, 항공기 노이즈 등)와 같은 왜곡된 신호를 감쇠하거나 또는 완전히 억제하는 것이 유리하다. 편안히 전화하기 위해서, 일반적으로는 모든 타입의 노이즈를 가능한 한 낮게 유지하는 것이 시도된다.

마지막으로, TK 통신에는 또한, 소위 에코(echo)들이 발생하며 이 에코들은 2개의 와이어 TK 네트워크에 라인 에코로서 존재하고, 예를 들어 단순한 형태의 음향 에코의 형태로 존재하여 좋지 않은 환경의 TK 단자를 결과한다.

따라서, 일반적으로 음성 신호와 왜곡된 신호와의 혼합된 신호를 전송할 때, 노이즈 및 에코와 같은 왜곡된 신호의 크기를 가능한 한 많이 줄이는것이 중요하다.

노이즈 감소를 위한 공지된 방법으로, 소위 "스펙트럼 감산(spectral subtraction)"을 들 수 있으며, "스펙트럼 감산"은 예를 들어, 1998년 ITG Technical Conference Dresden의 S. Gustafsson 및 P. Jax에 의해 공보 "A new approach to noise reduction based on auditory masking effects"에 설명되어 있다. 이 공보는 (예를 들어, MPEG 표준에 따른) 음향 마스킹 임계치(acoustic masking threshold)가 논의되는 스펙트럼 노이즈-감소 방법을 포함한다. 이러한 방법들의 단점으로는 음향 마스킹 임계치 결정이 정밀한 단계이며, 이 방법에 관련된 모든 동작들을 수행하기 위해서는 상당한 계산상의 노력이 수반한다는 것이다.

스펙트럼 감산에서, 음성 중단시 노이즈가 우선 측정되어, 전력 밀도 스펙트럼(power density spectrum) 형태로 메모리에 연속적으로 저장된다. 전력 밀도 스펙트럼은 푸리에 변환(Fourier Transform)을 통해 얻을 수 있다. 음성이 발생할 때, 실제 왜곡된 음성 스펙트럼으로부터 "현재 가장 잘 측정된 값(best current estimated value)"으로서의 저장된 노이즈 스펙트럼이 감해지고, 그 후 동일한 시간 영역으로 원상 변환되어, 이러한 방식으로 왜곡된 신호의 노이즈 감소를 얻을 수 있다.

스펙트럼 감산의 단점은 원래의 것과는 다른 부정확한 노이즈를 측정하여 그 후 감산을 함으로써, 이로 인한 문제가 출력 신호에 영향을 미쳐 "전자 톤(musical tone)"으로서 인식할 수 있는 출력 신호가 발생하게 된다. 또한, 이러한 공지된 방법은 TK 통신 링크에서 에코 신호를 억제하는 데는 그다지 적절하지 못하다.

상기 인용된 참조 내용에서 설명된 확대된 스펙트럼 신호 처리에서는 스펙트럼 감산을 이용하여, 노이즈 및 음성 신호 그 자체에 대한 전력 밀도 스펙트럼이 먼저 측정된다. 이들 부분적-스펙트럼을 알 수 있어서, 그 후 예를 들어, MPEG 표준 법칙을 사용하여 사람의 귀에 대한 스펙트럼 음향 마스킹 임계치 R_T(f)가 계산된다. 이러한 마스킹 임계치와, 노이즈 및 음성 신호에 대한 측정된 스펙트럼을 이용하여, 그 후 음성 신호의 필수 스펙트럼 부분은 가능한 변하지 않은 채 통과되는 반면 노이즈 신호의 스펙트럼 부분은 가능한 많이 감쇠되도록 설계된 필터 통과 곡선 H(f)를 계산하는 데 간단한 법칙을 적용할 수 있다.

원래의 왜곡된 음성 신호는 그 후, 왜곡된 신호에 대한 노이즈 감소를 위해 상기의 필터에 통과되어야 할 필요가 있다. 이 방법의 이점은 이제, 왜곡된 신호에는 또한 왜곡된 신호로부터 "어떠한 신호도 더해지거나 감해질 수 없어서," 측정 에러는 거의 인지할 수 없을 정도의 영향만을 미칠 뿐이라는 데에 있다. 그 단점은 다시, 스펙트럼 노이즈 억제를 위해 상당한 계산상의 노력이 들며, 에코 억제용 적응 필터를 업스트림(upstream) 연결할 필요가 있다는 데에 있다.

예를 들어, 이전에 인용되었던 특허 DE42 29 912 A1에 설명된 바와 같이, 공지된 압신기(compander) 방법에서, 노이즈 및 에코의 감쇠 정도는 정해진(fixed) 소정의 전달 함수(transfer function)에 따라 확립되며, 전달 함수는 다른 신호들 사이에서 심지어 매우 작은 입력 신호의 경우에도 그 레벨을 감소하는 데 영향을 미친다.

압신기는 우선, 음성 신호를 입력에서 출력까지 실질적으로 변화되지 않는 주어진 "정규 음성 신호 레벨"(때때로, 정규의 소리(loudness))로 전송하는 특성을 갖는다.

예를 들어 스피커가 누군가의 마이크로폰에 너무 가까이에 있어서, 현재의 입력 신호가 너무 크다면, 다이내믹 압축기(dynamic compressor)는 출력 레벨을 정규 레벨 경우와 거의 동일한 수준으로 제한하여, 압신기의 실제 증폭은 입력 신호가 점점 커짐에 따라 그에 비례하여 줄어든다. 이러한 특성 때문에, 압신기 시스템 출력에서의 음성은 입력 소리의 파동(fluctuation)이 어떻게 특징되는지에 관계없이 거의 동일한 소리를 유지한다.

한편, 정규 레벨보다 낮은 레벨을 갖는 신호가 압신기의 입력에 전달된다면, 신호는 추가적으로 진폭이 약화되어서(damped), 백그라운드 노이즈를 가능한 많이 감쇠된 형태만으로 전송하기 위해 그 증폭이 줄어든다.

따라서, 압신기는 정규 레벨 이상의 음성 신호 레벨용 압축기와, 정규 레벨 이하의 음성 신호 레벨용의 신장기(expander)로 구성된다. 여기서, 신장기에서의 증폭 감소는 입력 레벨보다 더 작게 나타난다.

압신기 해결 방법의 단점으로는 공지된 단계를 수행하는 데에는 상당한 계산상의 노력이 필요하다는 것을 들 수 있다. 또한, 한쪽에서의 음성 신호 레벨의 압축과, 다른 쪽에서의 음성 신호 레벨의 신장은 음성 소리에 변조를 가하여, 그 결과가 종종 주관적으로 불만족스러운, 즉 불만족스러운 청취 느낌을 생성하는 방식으로 음성 신호를 변화시킨다.

따라서, 본 발명의 목적은 처음에 설명된 특성을 가지며 가능한 한 덜 세밀하며 비용면에서도 효과적이고, 막대한 계산상의 노력이 필요없어서 컴퓨터 메모리 및 데이터 저장 공간이 적게 필요하며, 총체적인 음향 느낌을 사람의 귀-사람의 귀는 사람에 따른 개별적인 필요에 적응될 수 있음-에 가능한 편안하도록 생성하긱 위해 간단한 수단을 사용함으로써, 에코 및 노이즈 감쇠가 달성되는 방법을 제공하는 것에 있다.

본 발명에 따른 이러한 목적은, 유용한 신호에서 음성 신호가 존재하는 동안 제어 신호 a_o(t) 또는 a_o(k)의 진폭이 소정의 일정한 증폭 값 c_o로 설정되고, 유용한 신호에서 침묵 기간이 시작할 때 제어 신호 a_o(t) 또는 a_o(k)의 진폭이 순환식(여기서, β〈1)에 따라 하나의 샘플 값에서 다음 샘플 값까지 연속적으로 감소되고, 침묵 기간이 끝난 후에는 a_o(k)가 다시 c_o로 재저장되는 방식으로 제어 신호 a_o(t) 또는 a_o(k)를 변화시킴으로써, 단순하지만 효과적인 방식으로 달성된다.

이것은 매우 간단하면서 비용면에서도 효과적인 방법이고, 또한 바람직하게는 침묵 기간 동안 왜곡된 에코 및 노이즈 신호를 감쇠하기 때문에, 왜곡을 줄이는 데 있어서 놀라우리만치 우수한 능력을 갖는다. 말하는(speaking) 위상 동안, 왜곡된 노이즈가 적어도 부분적으로 마스킹되어서, 사람의 귀에 훨씬 작은 범위로, 분명히 인지된다. 공지된 압신기 방법에 압축 없이 행함으로써, 원래 음성 신호는 거의 변하지 않아서, 그 결과 일반적으로 라인의 다른 단부에 더 잘 들리는 음성 신호를 얻을 수 있다. 또한, 본 발명에 따른 방법은 최소한 압축이 생략되었기 때문에, 압신기 방법에 비해 계산하는 데 필요한 전력을 덜 필요로 한다. 그에 따라, 데이터 저장 및 컴퓨터 메모리용으로 작은 용량만이 필요되어, 공지된 방법에 비해 본 발명에 따른 방법이 보다 간단하면서 비용도 절감된다.

효과적인 노이즈 감쇠를 달성하기 위해, 압신기 방법에서의 감소가 입력 레벨에 따라 일어나는 것과는 대조적으로, 침묵 기간 동안 전송되어질 신호의 전력은 시간-지수 함수에 따라 감소된다. 이것에 의해 감지할 수 있을 정도의 노이즈 감쇠를 얻을 수 있으며, 또한 시끄러운 노이즈 후에 일어나는 귀를 멍멍하게 하는 효과(deafening effect)를 상당히 줄일 수 있기 때문에, 침묵 기간 동안의 노이즈의 감소는 그 청취시, 분명히 덜 자극적(stressful)이다. 음성이 재개될 때, 귀는 보다 민각하게 반응하여서 더 자세히 들을 수 있다.

유리하게도, 연속 시간 감소(continuous time reduction)가 사람 귀에 지각가능한 정도의 시정수에 거의 대응하도록 요소 β가 선택된다. 이것은 사람의 귀가 강한 소리의 자극-강한 소리의 자극은 시간과, 시정수으로 감쇠하는 변화 곡선 아래의 진폭에 상관함-이 끝난 후에는 새로운 노이즈 자극을 인지할 수 없음을 의미한다. 따라서, 본 발명에 따른 새로운 방법은 요소 β가의 관계에 따라 샘플링 속도 f_T, 시정수, 및 소정의 상수 요소 c₁으로부터 결정되도록 하는 것이 바람직하다.

사람에 대하여, 시정수은 50ms 내지 150ms 사이로, 바람직하게는 65ms이 되도록 선택된다.

시정수에 따라 요소 β를 정확하게 나타내기 위해, c_o=1로 하는 것이 최선이다.

상기의 순환식에 따른 왜곡 신호의 연속하는 지수적 감쇠가 제한되지 않는다면, a_o(k)의 값은 k가 증가함에 따라 급속하게 매우 작아져서 제로에 근접하게 될 것이다. 그러나, 이것이 항상 희망되는 것은 아닌 데, 그 이유는 많은 경우 사람들은 낮은 레벨의 잔여(residual) 노이즈를 청취하고 싶어하여, 음성이 중단하는 동안, TK 라인이 갑자기 "접속되지 않거나(go dead)" 또는 간섭받았다는 느낌을 받지 않기 위해서이다. 따라서, 이전의 값 a_o(k)가 c₂이하가 되었을 때, 침묵 기간 동안 및/또는 에코가 존재할 시의 신호 a_o(k+1)이 소정의 상수 값 c₂라 가정하는 본 발명에 따른 새로은 방법을 갖는 것이 바람직하다.

또한, 침묵 기간 동안, TK 채널의 순간적인 상황에, 신호 레벨 감소 정도를 적응시키는 것이 희망된다.

예를 들어, 노이즈는 바람직하게는, 순간적 노이즈 레벨 N의 함수로서 감소될 수 있거나, 또는 신호-대-노이즈 차(difference) S/N의 함수 g(S/N)에 따라 감소될 수 있으나, 짧은-시간의 에코가 보다 많이 감소될 수 있으며, 에코가 끝난 후에는 그 감소가 노이즈 감소에 사용되기 위해 더 작은 값으로 재저장될 수 있다.

따라서, 침묵 기간 동안 에코 신호가 존재하고, a_o(k)≤c₂이며 c₂는 미리 정의된 상수일 때, 현재 사용되어질 통신 채널에서의 노이즈 레벨 N의 전력 값이 연속적으로 측정되거나 추정되고, 현재의 노이즈 레벨 N에 따라 제어 신호 a_o(k+1)이 a_o(k+1)=f(N)으로서 연속적으로 조정되며 f(N)은 소정의 N의 함수인 것으로 특징되는 새로운 방법을 제공하는 것이 특히, 바람직하다.

이러한 방식으로, 노이즈 감쇠 정도는 노이즈의 전력 N의 함수로서 자동적으로 제어되며, 전화 채널(telephone channel)에서의 순간적인 노이즈 값-소정의 규정된 방식으로 옴-에 적응된다. 또한, f(N) 함수의 선택을 통해 생성된 전체 신호의 주관적인 느낌이 적응될 수 있다. 이러한 새로운 방법의 다른 이점으로는, 전화 채널 번들(bundle)의 경우 예를 들어, 국제 통화 지국들간에는 각 개별 채널에서의 노이즈 상태-노이즈 상태는 하나의 채널에서 다음 채널까지 매우 상이할 수 있음-가 자동적으로 조정되어 개별적으로 최적화될 수 있다.

소정의 함수 f(N)이 함수 g(S/N)이며, g(S/N)은 전송되어질 유용한 신호의 신호 레벨 S의 전력 값과, 노이즈 레벨 N의 전력 값과의 비율 S/N에 따라 변화한다는 것과, 소정의 함수 f(N)이 함수 g'(N/S)이며, g'(N/S)는 전술된 비율의 역(reciprocal)에 따라 변화하는 것으로 특징되는 본 발명에 따른 새로운 방법이 특히 바람직하다. 보다 간단하면서도 실용적인 구현을 할 수 있기 때문에, 함수 (S+N)/N 또는 (S+N)/S가 또한, 사용될 수 있다.

상기의 새로운 방법에서의 이점은, 번들의 전화 채널에서 유용한 신호 레벨 S가 두드러지게 변할 때, 노이즈 감소를 위한 정확한 조정이 항상 발견될 것이라는 점이다. 노이즈 감쇠가 신호 대 노이즈의 역인 N/S에 비례하여 제어될 때, N/S에 대한 수치 범위 0〈N/S〈1이 노이즈 감소를 제어하는 데 주요하게 관련되었기 때문에, 함수 g'(N/S)는 특히 간단한 소프트웨어를 사용하여, 지정된(fixed) 컴퓨터 워드 길이, 예를 들어 16 비트로 디지털 신호 프로세서(=DSP)상에 쉽게 구현될 수 있다.

음향 청취 테스트는, S/N=0 dB일 때 음성이 확실히 많이 왜곡되어서, 자연스럽게 들리는 음성(natural-sounding speech)에 관련한 전체 음향 저하 느낌을 피하려 할 때, 노이즈는 5 내지 10 dB와의 사이, 바람직하게는 6 내지 8 dB와의 사이에서의 값 f_o또는 g_o로의 한정된 범위로만 감소될 수 있다. 신호-대-노이즈 비율 S/N〈 0 dB이 되는 부적절한 값에서도, 값 f_o또는 g_o가 유지되어서, 임의의 노이즈 감소가 더 있을 때는 총체적 느낌을 나쁘게만 한다.

이들 연구에 따라, 평균(mean) S/N 값에서 노이즈 감소가 보다 분명해질 수 있다. 여기서, 노이즈 감소는 최대 10 내지 15 dB의 범위이다. 노이즈 감쇠 값또는는 최대 20 내지 30 사이로, 바람직하게는 대략 25dB이어야 한다.

S/N〉40dB인 매우 우수한 노이즈 값을 가질 때, 0 내지 3dB 사이의 최소 감소에서만 영향을 받을 수 잇어서, 전송된 음성이 가능한 자연스럽게 유지된다.

함수 f(N) 또는 g(S/N)이 상술된 3개의 범위를 넘어 연속적인 방식으로 간섭하여서(coherent), 이에 따라 N 또는 S(N)에서의 빠른 변화가 필터링에 의해 스무딩(smoothing)해질 수 있을 때, 음성의 소리 및 음성에 의한 의사 소통이 특히 우수하게 된다.

이것을 하드웨어 및/또는 소프트웨어로 구현하는 것이 비교적 간단한데, 그 이유는 함수 f(N) 또는 g(S/N) 또는 g'(N/S)는 전술된 3개의 동작점들 사이에서 직선의 특성 라인 부분으로 근사되기 때문이다(부분적인 선형 근사).

본 발명에 따른 보다 세밀한 새로운 방법에서, 더 나은 소리(sound)를 결과하나, 전술된 3개의 범위내에서 연속 함수 f(N) 또는 g(S/N) 또는 g'(N/S)를 구현하기 위해 다항 함수가 사용되어, 그 결과, 비대칭의(skewed) 종 형상의 함수(skewed bell function)를 얻게 된다.

함수 f(N) 및 g(S/N) 또는 g'(N/S)는 노이즈 레벨 N의 감소가, 사람의 귀에 청취가능한 스펙트럼의 정신 음향적(psychoacoustic) 평균 값에 따라 청각적으로 보상되도록 선택된다. 여기서, S 및/또는 N에 대한 값은 S 또는 N의 가중된(weighted) 스펙트럼 변화뿐 아니라, 순간적인 전력으로부터 각각 결정되고, 청취에 적합한 노이즈 감소가 얻어지는 함수를 통해 총체적인 즉, 정신 음향적으로 기분좋게 들리는 것을 달성할 수 있다. 정신 음향적으로 기분좋게 들리는 노이즈 감소에 대한 간단한 측정이 없기 때문에, 평가 스케일(음성 코덱(speech codecs)의 경우와 유사함)을 얻기 위해 포괄적인 청취 테스트에서 모든 능력 평가가 참작되어서, 그에 따라 상기의 목적을 위해 최적화된 통계적 방법에 의한 평가가 이루어진다.

침묵 기간에서는 노이즈 및 띄엄띄엄 들리는 음성(snatches of speech)과의어떠한 혼합도 없이 왜곡된 노이즈만이 존재하고, 실재의 경우에도 종종 그러하다고 확실시되기 때문에, 우수한 노이즈 레벨 측정은 좋은 침묵 기간 검출기를 필요로 한다.

이러한 이유로, 침묵 검출기(SPD)에서 짧은-시간의 출력 신호 sam(x), 중간-시간의 출력 신호 mam(x), 및 긴-시간의 출력 신호 lam(x)가 짧은-시간 레벨 평가기(estimator), 중간-시간 레벨 평가기, 및 긴-시간 레벨 평가기에 의해 각각 형성되고, 3개의 출력 신호들 sam(x), mam(x), 및 lam(x)는 적당한 증폭 계수에 따라 조정되어, 이들 신호는 입력 신호 x가 순수 노이즈 신호일 때 sam(x)〈mam(x)〈lam(x)로 거의 비슷하고, 3개의 출력 신호 sam(x), mam(x), 및 lam(x)는 비교기에 의해 모니터링되고, 우선 sam(x) 및 mam(x) 둘 다 lam(x)보다 클 때 입력 신호 x로서 음성 신호가 존재한다고 가정되는 한편, 그 후 sam(x) 및/또는 mam(x)가 lam(x)보다 더 작을 때 침묵 기간이 존재한다고 가정되는 것을 특징으로 하는 새로운 방법이 특히 바람직하다.

시간 신호의 다양한 평균 값들의 형성을 비교적 간단한 타입으로 할 수 있기 때문에, 놀라우리만치 우수한 침묵 기간 검출이 달성될 수 있었고, 이것은 계산상의 노력을 매우 적게 필요로 한다.

이러한 방법은 침묵 기간 측정 동안, 3개의 출력 신호 sam(x), mam(x), 및 lam(x)가 신경망-신경망 상이한 입력 신호들 x를 갖고 복수의 시나리오(시정수)으로 트레이닝되어 있음-에 전달하는 것으로 발전될 수 있다. 신경망은 많은 수의 입력 파라미터들과 희망된 출력 값들간의 선형 및 비-선형 관계를 유리하게 나타낼(picture) 수 있다. 이것을 위한 필요조건으로, 신경망은 우선 충분한 양의 입력 값들과, 연관된 출력 값들에 연결되어 있다. 따라서, 신경망은 다양한 종류의 왜곡된 노이즈가 존재할 때 침묵 기간 검출을 하는 데 특히, 매우 적합하다.

노이즈 신호의 인식 및 노이즈 신호의 감소 이외에, 에코 신호의 존재 또한 검출 및/또는 예측하여, 해당 에코 신호들을 억제시키거나 감쇠시키는 것이 바람직하다. 전화 채널에서, 노이즈 이외에 에코가 발생하면, 이들은 규정대로 에코의 미리 결정된 신호 존속 시간와, 채널에서 미리 결정된 에코 결합(coupling) ERL과, 반환 채널에서 에코를 트리거(trigger)하는 신호 세기 ES에 의해 예측될 수 있다. 이러한 예측은 방사된 음성 신호와, 그 수간 전력의 함수로서, 지연된 에코의 크기를 측정하는 방식으로 행해질 수 있다. 각각의 경우에 측정된 에코 신호가 결정된 짧은 시간의 세그먼트들내의 소정의 임계치 thrs를 초과한다면, 이러한 에코-영향을 받은 신호를 짧은 시간 동안 예를 들어, 상술된 지수적 감쇠에 의해 에코 신호의 필수적 감소를 위해 필요한 값에서 감쇠시키는 것이 바람직하다. 이러한 맥락에서, 에코가 압신기에 존재할 때, 특성 곡선은 짧은 시간 동안 큰 입력 소리의 방향으로 이동되고, 일단 에코가 사라지면 다시 원래의 위치로 이동될 수 있다.

이러한 방법은 제어 신호은에 따라 연속적으로 조정되고,은 노이즈 레벨 N, 신호 레벨 S, 말하는 측과 반대의 위치에 있는 유용한 신호 ES, 에코 신호의 지연 상수, 및 에코 신호 진폭의 감쇠 상수 ERL의 소정의 함수인것으로 발전되는 것이 특히 바람직하다.

유리하게도, 청취하는 데 적합한 노이즈 감소는 노이즈 감소와 무관한 에코 감소에 결합될 수 있다. 이것은 어떠한 노이즈 감쇠도 존재하지 않아 발생하는 에코 신호가 발신자를 간섭하지 않게 도달하기 때문에, 전화 채널에는 실질적으로 어떠한 백그라운드 노이즈가 존재하지 않을 때가 특히 중요하다.

노이즈 및 에코는 서로 독립적으로 발생하고, 또한 완전히 다른 물리적 효과에 의해 야기되기 때문에, 노이즈 감소의 제어와 에코 감쇠의 제어를 분리하는 것이 적절하다. 그러나, 일반 감소 함수 R이 수학적으로 생성될 수 있어서, 이것은 노이즈 및 에코 둘 다에 대한 신호 레벨의 감쇠를 설명할 수 있다.

R(S, N, ES,, ERL, thrs)g(s/n)d(ES,, ERL, thrs)

이 식에서, g(S/N)은 이전에 설명되었던 노이즈 감소이며, d(...)는 측정된 에코 신호가 소정의 임계치 값 thrs를 초과했을 때 독립적으로 추가 발생하는 에코 감쇠를 나타낸다.

에코 감소 시간 동안, 인위적인 노이즈 신호가 유용한 신호에 더해진다는 점에서 새로운 방법이 특히 유리하다.

일정한 노이즈 레벨에서는 노이즈 감쇠 또한 일정하다. 음성 리듬에서 갑자기 발생하는 추가 노이즈 감소는 (최소한 짧은 시간의 세그먼트에서의) 음성 리듬에 노이즈 감쇠 또한 있을 것임을 의미한다. 이로 인해 자연스럽게 소리나지 않는 펄스 신호의(pulsed) 백그라운드 노이즈가 발생한다. 따라서, 추가 에코 감소가 발생하는 순간, 처리된 신호에 정규 백그라운드 노이즈와 거의 동일한 크기를 갖는 적당한 노이즈 발생기로부터의 종합 노이즈를 더하는 것이 유리하다. 따라서, 청취자에게는 가능한 일정한 백그라운드 노이즈가 결과된다.

노이즈 발생기는 인위적 노이즈 신호가 음향 신호 시퀀스-음향 신호 시퀀스는 정신-음향적으로 기분좋게(=편안한 노이즈) 인지됨-를 포함하도록 설계될 수 있다.

그러나, 종합 백그라운드 노이즈 대신, 에코-시간 세그먼트 동안, 적당한 세기의 이전에 발생한 실제 백그라운드 노이즈 부분을 넣을 수 있다. 더해진 노이즈는 그 후, 이전 노이즈와는 실질적으로 거의 달라서, 청취자에게는 어떠한 왜곡된 음향 변화가 없이 들리도록 결과된다.

음향 마스킹에 노이즈를 더하고 노이즈 및 에코의 독립적 처리를 위한 측정에서, 이들이 서로 정확히 맞을 때, "상이한" 환경(에코+노이즈)에서도 특히, 알아들을 수 있고 기분좋은 음성 느낌이 결과된다.

또한, 전송될 유용한 신호에 스펙트럼 감산 처리를 하는 본 발명에 따른 새로운 방법이 특히 바람직하다. 음성 중지 동안, 수반하는 레벨 감쇠를 갖는 스펙트럼 감산의 이점은, 우선 스펙트럼 감산에 의해 왜곡된 노이즈 부분이 음성 신호 그 자체로부터 제거되고, 이러한 과정 후에만 음성 중지는 전술된 방식으로 노이즈 및 에코로부터 자유로워진다. 총체적인 주관적 테스트에서, 이러한 조합은 단순한 스펙트럼 감산 하나만 있는 것보다 더 나은 청취 느낌을 갖는다.

최종적으로, 전송되어질 유용한 신호에 사람의 청력에 적응되는 스펙트럼 필터링 처리를 하는 본 발명에 따른 새로운 방법이 특히 더 유리하다. 여기에는 또한, 스펙트럼 감산 수단과 함께 노이즈, 음성, 및 에코 측정이 우선 수행되고, 그 후 청취에 적합한 마스킹 임계치가 결정되며, 그 후 전체 신호가 적절히 조정된 전송 필터를 통해 처리되어서, 음성 부분은 가능한 왜곡되지 않으며 에코 및 노이즈 부분은 가능한 한 큰 범위로 억제될 수 있다.

침묵 기간 동안, 수반하는 레벨 감쇠와의 조합으로 청취 느낌을 훨씬 더 향상시킬 수 있다.

본 발명의 범위는 또한, 상술된 본 발명에 따른 방법을 제공하는 서버 유닛(server unit)과, 그 방법을 구현하기 위한 컴퓨터 프로그램을 포함한다. 이 방법은 하드웨어 회로 및 컴퓨터 프로그램 형태의 둘 다로서 구현될 수 있다. 요즘에는 새로운 지식과 추가 기능이 현재의 하드웨어 기초상의 소프트웨어를 수정함으로써, 보다 쉽게 구현될 수 있기 때문에, 강력한 DSP용 소프트웨어 프로그래밍이 바람직하다. 그러나, 그 처리는 예를 들어, TK 단자 또는 전화에서의 하드웨어로서 구현될 수 있다.

본 발명의 장점은 본 발명의 상세한 설명 및 도면에 나타나 있다. 이와 마찬가지로, 상술된 특성 및 하기의 지시된 임의의 특성은 각 경우에서 독립적으로 또는 임의의 조합으로 적응될 수 있다. 지시되고 설명된 실시예들은 배타적이 아닌 본 발명을 설명하는 예로서 이해되어야할 것이다.

도 1은 침묵 기간 동안과 음성 신호가 재개할 때의 음성 신호에서의 제어 신호 a_o를 도시한 도.

도 2는 제어된 신호 감쇠용 구성을 간략하게 도시한 도.

도 3a는 선형 근사의 함수 g(S/N)을 도시한 도.

도 3b는 도 3a에 대응하는 함수 g'(S/N)을 도시한 도.

도 4a는 비대칭의 종 곡선(bell curve)을 갖는 함수 g(S/N)을 도시한 도.

도 4b는 도 4a에 대응하는 함수 g'(S/N)을 도시한 도.

본 발명은 도면에 도시되어 있으며, 예시적 실시예를 참조하여 보다 자세히 설명될 것이다.

시간 t와 샘플 갯수 k의 함수로 도 1에 도시된 제어 신호 a_o는 음성 신호가 검출되는 제1 위상 T1 동안 값 c_o=1로 일정하게 유지된다. 침묵 기간 동안, 시간 세그먼트 T2에서 제어 신호 a₀가 감소되어서 0보다 약간 큰 상수 값 c₂로 되고, 그 후 위상 T3 동안 음성 신호가 재개할 때, 다시 값 c_o=1(또는 어떤 경우 자유롭게 선택가능한 상수)로 샤프하게 증가한다. 결과적으로, 음성 위상 T1, T3 동안에는 전체 신호에서 어떠한 왜곡된 신호의 억제(또는 다른 예로서 왜곡 신호의 약간의 억제)가 존재하지 않아서, 음성 신호는 가능한 변형되지 않으며 간섭되지 않은 채 전송된다. 침묵 기간 동안, 위상 T2에서 다른 단부(end)에서 "데드(dead)" 라인 느낌을 발생시키는 것을 피하기 위해 본 예에서는 이들 노이즈 및 에코가 0이 아닌 작은 잔여 값 c₂로 감쇠되었음에도 불구하고, 에코 및 노이즈 신호의 가장 유효한 억제가 가능한 빨리 (지수적으로) 실시되었다. 에코가 발생할 때, 감쇠는인 잔여 값으로 일어난다.

도 2는 상술된 감소 함수 R(S, N, ES,, ERL, thrs)에 해당하는 침묵 기간 검출기를 가지며, 노이즈 및 에코 감소용 구성에서의 기능 모드를 간략하게 도시하였다.

도 3a 및 도 4b에 도시된 모든 곡선들에 있어서, S/N〈0 dB 즉, 노이즈 백그라운드가 매우 큰 경우, 함수 값 g 또는 g'는 거의 6dB가 되는 노이즈 감소의 상수값 g_o로 변화한다. S/N=0dB에서 시작해서, 신호-대-노이즈 비율 S/N이 점차 증가함에 따라, 증가된 노이즈 감소는 S/N이 대략 12dB에서 최대가 된다. S/N이 더 증가하면, 노이즈 감소 정도는 최종적으로는 제로로 떨어져서, 백그라운드 노이즈가 거의 존재하지 않아, 전송된 유용한 신호의 조정이 거의 없을 것이다.

본 발명에 따라, 에코 및 노이즈 감쇠는 많은 계산상의 노력이 없이 간단하면서 비용면에서도 경제적이고, 컴퓨터 메모리 및 데이터 저장 용량도 그다지 많이 필요하지 않게 행해진다. 간단한 수단으로, 상기 에코 및 노이즈 감소는 전체적으로 사람의 귀에 음향적으로 가능한 편하게 들리는 느낌을 주며, 사람의 귀는 그의 청력에 따른 개별적인 수단에 적응될 수 있다.

Claims

유용한 신호와 간섭 신호와의 혼합 신호가 음성 신호를 포함할 때, 또는 침묵(silence) 기간이 존재할 때를 침묵 검출에 의해 판정하는 단계와,

2-입력 곱셈기에 의해 상기 유용한 신호의 진폭을 변환하는 단계로서, 상기 유용한 신호는 일반적으로, 샘플링 속도로 클럭된 시간-종속 제어 신호또는 제어 신호에 응답하여, 에코 및/또는 노이즈 신호들에 의해 간섭받고,는 샘플 갯수를 나타내고, T는 한 샘플에서 다음 샘플까지의 주기를 나타내는 단계를 포함하여, 유용한 음향 신호, 특히 사람의 음성을 전송하기 위한 원격 통신 시스템에서 에코 및/또는 노이즈 신호를 줄이는 방법에 있어서,

상기 제어 신호또는는, 상기 유용한 신호내에 음성 신호가 존재할 때, 상기 제어 신호또는의 크기를 소정의 상수 값로 설정하고,

상기 유용한 신호의 침묵 기간 시작부터, 상기 제어 신호또는의 크기가 순환식일 때에 따라 한 샘플에서 다음 샘플까지 연속적으로 감소하고, 침묵 기간이 끝난 후에는,가와 같게 설정되도록 변화되는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 요소는 샘플링 속도, 시정수, 및 미리 정의된 상수으로부터 식에 따라 결정되는 것을 특징으로 하는 방법.
제2항에 있어서, 상기 시정수수은 50ms 내지 150ms 사이, 바람직하게는이 되도록 선택되는 것을 특징으로 하는 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 상수값는 1이 되도록 선택되는 것을 특징으로 하는 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 침묵 기간 동안 및/또는 에코 신호가 존재시,은 이전 값가보다 작거나 같아질 때, 미리 정의된 상수 값를 취하는 것을 특징으로 하는 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 침묵 기간 동안 및/또는 에코 신호가 존재하고로서는 미리 정의된 상수일 때, 현재 사용되고 있는 통신 채널의 노이즈 레벨 N의 전력값은 연속적으로 측정 및/또는 추정되고, 현재 노이즈 레벨 N에 좌우되어, 제어 신호은에 따라 연속적으로 조정되고, f(N)은 소정의 N의 함수인 것을 특징으로 하는 방법.
제6항에 있어서, 소정의 함수 f(N)은 전송되어질 상기 유용한 신호의 신호 레벨 S의 전력 값과, 노이즈 레벨 N의 전력 값과의 비율 S/N에 따라 변하는 함수 g(S/N)이거나, 또는 소정의 함수 f(N)이 상기 비의 역에 따라 변하는 함수 g'(N/S)인 것을 특징으로 하는 방법.
제7항에 있어서, 1/N〈〈1이거나 또는 S/N=0dB일 때, 함수 f(N) 또는 g(S/N)이 상수 값〉0 또는〉0에서 각각 시작하여, N 또는 S/N=10dB 내지 15dB 사이의 범위, 바람직하게는 N 또는 S/N12dB에서 최대또는로 각각 증가하고, 그 후 최소 값또는, 바람직하게는 0dB로 각각 감소하며, 여기서 5dB,10dB, 바람직하게는 6dB,8dB이고, 20dB30dB, 바람직하게는 25dB인 것을 특징으로 하는 방법.
제6항 내지 제8항 중 어느 한 항에 있어서, 함수 f(N) 또는 g(S/N)은 적어도 부분적으로 선형이고, 바람직하게는 모든 부분에서 선형인 것을 특징으로 하는 방법.
제6항 내지 제8항 중 어느 한 항에 있어서, 함수 f(N) 또는 g(S/N)은 다항식으로 구성되고, 비대칭의 종-형상의(skewed bell curve) 곡선인 것을 특징으로 하는 방법.
제6항 내지 제10항 중 어느 한 항에 있어서, 상기 함수 f(N) 및 g(S/N), 또는 g'(N/S)는, 노이즈 레벨 N의 감소가 사람 귀로 가청가능한 정신-음향적(psychoacoustic) 스펙트럼의 평균 값(mean value)에 따라 청각적으로 보상되도록 선택되는 것을 특징으로 하는 방법.
제1항 내지 제11항 중 어느 한 항에 있어서, 상기 노이즈 신호의 검출 및 감소에 더하여, 에코 신호의 존재가 검출되거나 또는 예측되고, 상기 에코 신호가 억제되거나 감소되는 것을 특징으로 하는 방법.
제12항, 제6항 내지 제11항 중 어느 한 항에 있어서, 상기 제어 신호은=h(N, S, ES,, ERL)에 따라 연속적으로 조정되고, 여기서 h(N, S, ES,, ERL)은 노이즈 레벨 N, 신호 레벨 S, 말하는 당사자의 반대의 위치에 있는 유용한 신호 ES, 에코 신호의 지연 상수, 및 에코 신호 크기의 감쇠 상수 ERL의 소정의 함수인 것을 특징으로 하는 방법.
제12항에 있어서, 노이즈 신호의 감소와 에코 신호의 감소가 독립적으로 제어되는 것을 특징으로 하는 방법.
제12항 내지 제14항에 있어서, 에코 감소의 시간 동안, 인위적 노이즈 신호가 상기 유용한 신호에 더해지는 것을 특징으로 하는 방법.
제15항에 있어서, 상기 인위적 노이즈 신호는 정신 음향적으로 즐겁게(=편안한 노이즈) 인지되는 음향 신호 시퀀스를 포함하는 것을 특징으로 하는 방법.
제15항에 있어서, 상기 인위적 노이즈 신호는 현재의 통신 동안 이전에 기록된 노이즈 신호를 포함하는 것을 특징으로 하는 방법.
제1항 내지 제17항 중 어느 한 항에 있어서,

침묵 검출기(SPD)에서, 짧은-시간 출력 신호 sam(x), 중간-시간 출력 신호 mam(x), 및 긴-시간 출력 신호 lam(x)가 짧은-시간 레벨 평가기(estimator), 중간-시간 레벨 평가기, 및 긴-시간 레벨 평가기 각각의 수단으로 형성되고,

3개의 출력 신호들 sam(x), mam(x), 및 lam(x)가, 입력 신호 x가 순수 노이즈 신호인 sam(x)〈mam(x)〈lam(x)일 때, 그 크기가 거의 같게 되도록 적당한 증폭 계수를 통해 조정되고,

3개의 출력 신호들 sam(x), mam(x), 및 lam(x)가 비교기에 의해 모니터링되고,

우선 sam(x) 및 mam(x)가 lam(x)보다 더 클 때에는 음성 신호가 입력 신호 x로서 존재한느 것으로 추정되는 반면, 그 후 sam(x) 및/또는 mam(x)가 lam(x)보다 더 작을 때에는 침묵 기간이 존재하는 것으로 추정되는 것을 특징으로 하는 방법.
제18항에 있어서, 침묵 기간 추정 동안, 3개의 출력 신호 sam(x), mam(x), 및 lam(x)는 신경망-상이한 입력 신호들 x를 갖는 복수의 시나리오(시정수)으로 트레이닝되어 있음-에 전달되는 것을 특징으로 하는 방법.
제1항 내지 제19항 중 어느 한 항에 있어서, 전송되어질 상기 유용한 신호는 스펙트럼 감산 처리를 받는 것을 특징으로 하는 방법.
제1항 내지 제20항 중 어느 한 항에 있어서, 전송되어질 상기 유용한 신호는 사람의 청력에 적응되는 스펙트럼 필터링 처리를 받는 것을 특징으로 하는 방법.
서버 유닛에 있어서, 제1항 내지 제21항 중 어느 한 항에 따른 방법을 지원하기 위한 서버 유닛(server unit).
컴퓨터 프로그램에 있어서, 제1항 내지 제21항 중 어느 한 항에 따른 방법을 수행하기 위한 컴퓨터 프로그램.