KR20070085729A - 바크 밴드 위너 필터 및 선형 감쇠를 이용한 노이즈 감소및 컴포트 노이즈 이득 제어 - Google Patents
바크 밴드 위너 필터 및 선형 감쇠를 이용한 노이즈 감소및 컴포트 노이즈 이득 제어 Download PDFInfo
- Publication number
- KR20070085729A KR20070085729A KR1020077012592A KR20077012592A KR20070085729A KR 20070085729 A KR20070085729 A KR 20070085729A KR 1020077012592 A KR1020077012592 A KR 1020077012592A KR 20077012592 A KR20077012592 A KR 20077012592A KR 20070085729 A KR20070085729 A KR 20070085729A
- Authority
- KR
- South Korea
- Prior art keywords
- noise
- circuit
- gain
- speech
- comfort
- Prior art date
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 43
- 230000001629 suppression Effects 0.000 claims abstract description 33
- 238000009499 grossing Methods 0.000 claims abstract description 10
- 230000007704 transition Effects 0.000 claims abstract description 6
- 230000003595 spectral effect Effects 0.000 claims description 38
- 238000000034 method Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 5
- 230000005236 sound signal Effects 0.000 claims description 3
- 230000008030 elimination Effects 0.000 abstract 1
- 238000003379 elimination reaction Methods 0.000 abstract 1
- 238000001228 spectrum Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000001413 cellular effect Effects 0.000 description 8
- 238000005086 pumping Methods 0.000 description 8
- 238000001914 filtration Methods 0.000 description 6
- 238000012935 Averaging Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000010363 phase shift Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 108020004566 Transfer RNA Proteins 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 235000019504 cigarettes Nutrition 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Noise Elimination (AREA)
Abstract
바크 밴드 수정된 위너 필터(Bark band modified Weiner filter)(121)를 이용하는 노이즈 억제(suppression)와 선형 노이즈 감소(linear noise redeuction)(122)의 조합이 전화에서의 노이즈 제거를 개선한다. 긴, 논-스피치 인터벌(non-speech interval)들을 검출하기 위한 검출기(detector)가 상기 노이즈 억제기(suppressor)의 출력에 접속되고 노이즈 억제 또는 노이즈 감소의 선택을 제어한다. 이득 평활화 필터(gain smoothing filter)는 노이즈 감소가 이용될 때 긴 시상수(time constant)를 가지며 일 레벨의 이득으로부터 다른 레벨의 이득으로의 점진적인 전이를 제공한다. 컴포트 노이즈(comfort noise)는 검출된 긴, 논-스피치 인터벌들 동안에만 컴포트 노이즈를 발생시키기 위한 데이터를 갱신함으로써 매끄럽게 삽입된다.
Description
본 발명은 오디오 신호 프로세싱과, 특히 전화기에서 노이즈 억제와 컴포트 노이즈의 발생을 개선하는 회로에 관련된다.
여기서 사용되는, "전화(telephone)"는 라이센스 받은 서비스 제공자로부터의 다이얼 톤(dial tone)을, 직접적으로 또는 간접적으로 이용하는 통신 장치에 대한 일반적인 용어이다. 그리하여, "전화"는 다른 것들 중에서 탁상 전화기(도 1 참조), 무선 전화기(도 2 참조), 스피커 폰(도 3 참조), 핸즈프리 키트(도 4 참조), 그리고 셀룰러 전화(도 5 참조)를 포함한다. 단순화를 위하여, 본 발명은 전화의 관점에서 기술되지만 더 넓은 용도를 갖는다; 예컨대 무선 주파수 트랜시버(transceiver)들 또는 인터콤(intercom)들과 같이, 다이얼 톤을 이용하지 않는 통신 장치.
전화 시스템에는 많은 노이즈 소스(source)들이 존재한다. 일부 노이즈는 근원적으로 어쿠스틱(acoustic)인 반면 다른 노이즈의 근원은 전자적이며, 예를 들어 전화망이다. 여기서 사용되는, "노이즈(noise)"는 임의의 원치 않는 음향을 칭 하며, 그 원치 않는 음향이 주기적, 순전히 무작위의, 또는 어딘가에 중간에 낀 것인지 여부를 불문한다. 그래서, 노이즈는 배경음악, 요구되는 화자(speaker)가 아닌 사람들의 음성, 타이어 노이즈, 바람 노이즈 등을 포함한다. 자동차들은 특히 시끄러운 환경일 수 있다.
광범위하게 정의한 바와 같이, 노이즈는 화자 음성의 반향(echo)을 포함할 수 있다. 그러나, 반향 소거(echo cancellation)는 전화 시스템에서 별도로 취급되며 신호 경로의 전달 특성 모델링과 관련된다. 더군다나, 상기 모델은 상기 특성들, 예를 들어 주파수 응답 및 상기 경로의 지연 또는 위상 시프트(shift)가 변하기 때문에 시간이 지남에 따라 변경되거나 적응된다.
예외없이 인정되지는 않지만, 종래 기술은 일반적으로 노이즈 "억제(suppresion)와 차감(subtraction)을 그리고 노이즈 "감소(reduction)"와 감쇠(attenuation) 또는 감소된 이득(gain)을 관련시킨다. 여기서 사용된 바와 같이, 노이즈 억제는 다른 신호로부터 하나의 신호를 차감하여 노이즈의 양을 줄이는 것을 포함한다.
최신의 적응성 반향 소거 알고리듬 단독으로는 반향을 완전히 소거하는데 충분하지 않다. 반향 소거기(echo canceler)가 야기하는 모델링 오류(modelling error)는 반향 소거 프로세스 후에 잔여 반향을 남길 것이다. 이러한 잔여 반향(residual echo)은 청취자를 불쾌하게 한다. 잔여 반향은 백그라운드 노이즈(background noise)가 있던지 없던지 간에 문제가 된다. 상기 백그라운드 노이즈 레벨(level)이 상기 잔여 반향보다 큰 경우에조차, 상기 잔여 반향은 불쾌한데 이 는 상기 잔여 반향이 오고 감에 있어서, 청취자가 더 인지할 수 있기 때문이다. 대부분의 경우, 상기 잔여 반향의 스펙트럼 특성들은 상기 백그라운드 노이즈와 달라서, 더욱 인지가능하다.
잔여 반향 억제기(residual echo suppressor) 및 비선형 처리기와 같은, 다양한 기술들이 채택되어 상기 잔여 반향을 제거한다. 잔여 반향 억제기가 노이즈가 없는 환경에서 잘 작용할지라도, 이 기술이 시끄러운 환경에서 효력이 있게 하는데에는 일부 추가적인 신호 처리가 필요하다. 시끄러운 환경에서, 상기 잔여 반향 억제기의 비선형 처리는 노이즈 펌핑(noise pumping)으로 알려진 것을 발생시킨다. 상기 잔여 반향이 억제될 때, 부가적인 백그라운드 노이즈 또한 억제되고, 노이즈 펌핑을 야기한다. 노이즈 펌핑이라는 성가신 효과를 감소시키기 위해, 백그라운드 노이즈에 정합되는, 컴포트 노이즈(comfort noise)가 상기 반향 억제기가 활성화될 때 삽입된다.
노이즈를 감소시키고 컴포트 노이즈를 부가하기 위한 개선된 시스템이 존재할지라도, 논-스피치(non-speech) 긴 인터벌(inverval)들(예를 들어 300 밀리초(millisecond) 보다 긴) 동안에 문제가 남는다. 바크 밴드(Bark band) 기반, 수정된 위너 필터(Weiner filter)를 이용하는 노이즈 억제 시스템들은 긴 논-스피치 인터벌들 동안에 아티팩트 음(tonal artifact)들을 초래하지 않고 노이즈를 충분히 감소시킬 수 없다. 게다가, 잔여 반향 억제기와 노이즈 억제기가 보완적으로 이네이블(enable)될 때, 상기 컴포트 노이즈 발생 프로세스 동안에는 주의가 필요한데 이는 상기 노이즈 억제 프로세스 전에 컴포트 노이즈가 추정되고 노이즈 레벨이 상 기 노이즈 억제 후에 달라질 것이기 때문이다. 따라서, 상기 노이즈 억제 알고리듬에 의해 야기되는 변화, 주파수 및 레벨을 추적하는데에는 더 견고한 방법이 요구된다.
실제 백그라운드 노이즈를 이용하는 컴포터 노이즈 발생기들은 스펙트럼 성분을 조정하는데 시간이 걸리는데, 상기 시간 중에는 긴 논-스피치 인터벌들 동안 실제 백그라운드 노이즈와 눈에 띄게 달라질 수 있다. 합성 컴포트 노이즈는 노이즈 감소가 이네이블 될 때 실제 백그라운드 노이즈와 정합되지 않는다. 노이즈 억제 알고리듬의 이득 파라미터가 바뀔 때 상기 컴포트 노이즈의 이득을 조정하는 것은 어렵다.
당업자는, 일단 아날로그 신호가 디지털 형식으로 변환되면, 모든 이후의 동작들은 하나 이상의 적합하게 프로그램된 마이크로프로세서들에서 일어날 수 있다는 점을 알 것이다. 예를 들어, 용어 "신호(signal)"의 이용이 반드시 아날로그 신호 또는 디지털 신호 중 하나를 의미하는 것은 아니다. 메모리의 데이터는, 단일 비트(bit)일지라도, 신호가 될 수 있다. 유사하게, "메모리"는 형태가 아닌, 기능에 관련된다. 상기 데이터가 마이크로프로세서 안의 레지스터(register), 랜덤 액세스 메모리(random access memory), 읽기용 기억 장치(read only memory), 또는 임의의 다른 종류의 저장 매체에 저장되는 것이 중요한 것은 아니다.
상기내용을 고려하면, 본 발명의 목적은 긴 논-스피치 인터벌들 동안 노이즈 억제를 증가시키는 것이다.
본 발명의 다른 목적은 백그라운드 노이즈에 대한 컴포트 노이즈의 스펙트럼 정합을 향상시키는 것이다.
본 발명의 또 다른 목적은 노이즈 펌핑을 충분히 제거하는 컴포트 노이즈 발생기를 제공하는 것이다.
본 발명의 다른 목적은 노이즈 감소 튜닝(tunning) 파라미터들에 의존적인 컴포트 노이즈의 레벨의 동적 조정(dynamic adjustment)들을 제공하는 것으로서, 실시간 튜닝을 없애는 것이다.
상기 목적들은 오디오 프로세싱 회로가 바크 밴드 기반, 수정된 위너 필터 및 선형 노이즈 감소 회로를 포함하는 본 발명으로 이뤄질 수 있다. 긴, 논-스피치 인터벌들을 검출하기 위한 검출기(detector)는 긴, 논-스피치 인터벌이 검출될 때 바크 밴드 위너 필터링(Bark band Weiner filtering)으로부터 선형 노이즈 감소로 전환한다. 선형 노이즈 감소는 바크 밴드 위너 필터링보다 더 많은 노이즈 감소를 가능하게 하고 아티팩트 음을 발생시키지 않는다. 이득 평활화 필터(gain smoothing filter)는 선형 노이즈 감소가 이용될 때 장시간 불변하며 이득의 일 레벨로부터 다른 레벨로의 점진적인 전환을 제공한다. 검출기는 긴 논-스피치 인터벌이 있을 때 컴포트 노이즈 발생을 위해 백그라운드 노이즈의 추정을 제어하여, 컴포트 노이즈의 발생을 개선한다. 추가로 컴포트 노이즈는 상기 선형 노이즈 감소 회로 또는 상기 바크 밴드 위너 필터 중 하나로부터의 스펙트럼 이득 계산 회로로부터의 데이터에 기초하여 상기 컴포트 노이즈에 기초하여 상기 컴포트 노이즈의 이득을 조정함으로써 개선된다.
본 발명의 더 완전한 이해는 첨부된 도면과 함께 이하의 실시예를 참조함으로써 이뤄질 수 있다:
도 1은 탁상 전화의 투시도이다;
도 2는 무선(cordless) 전화의 투시도이다;
도 3은 컨퍼런스 폰(conference phone) 또는 스피커 폰의 투시도이다;
도 4는 핸즈프리 키트의 투시도이다;
도 5는 셀룰러 전화의 투시도이다;
도 6은 전화기의 오디오 프로세싱 회로의 일반적인 블록 다이어그램이다;
도 7은 본 발명에 따라 구성된 노이즈 억제기의 블록 다이어그램이다;
도 8은 주파수 영역에서 노이즈를 계산하기 위한 회로의 블록 다이어그램이다;
도 9는 신호에서 스피치 및 논-스피치 인터벌들을 나타내는 파형이다;
도 10은 스피치 부분과 논-스피치 부분을 가지는 파형을 나타낸다;
도 11은 긴 논-스피치 인터벌들을 검출하기 위한 회로의 블록 다이어그램이다;
도 12는 본 발명의 일 특징을 나타낸다.
도 13은 본 발명의 다른 특징을 나타낸다.
신호는 아날로그 또는 디지털이기 때문에, 블록 다이어그램은 하드웨어, 소프트웨어(예컨대 순서도), 또는 하드웨어와 소프트웨어의 조합으로 해석될 수 있 다. 마이크로프로세서를 프로그래밍 하는 것은 개인적으로 또는 단체로 간에 당해 기술 분야에서 통상의 지식을 가진 자에게는 용이하다.
본 발명은 장치의 내부 전자부분은 본질적으로 동일하지만 외부의 형태는 다른 많은 애플리케이션들의 이용을 제공한다. 도 1은 베이스(base)(10), 키패드(11), 디스플레이(13) 및 핸드셋(14)을 포함하는 탁상 전화기를 나타낸다. 도 1에 도시한 바와 같이, 상기 전화는 스피커(15)와 마이크로폰(16)을 구비하여 스피커 폰 특성을 갖는다. 도 2에 도시한 무선 전화는 베이스(20)와 핸드셋(21)이 코드(cord)대신 안테나들(23, 24)을 통해, 무선 주파수 신호들로써 연결되는 점을 제외하고 유사하다. 핸드셋(21)의 전원은 상기 핸드셋이 크래들(cradle)(29)에 놓여질 때 베이스(20)의 단자들(26, 27)을 통해 충전되는 내부 배터리들(도시하지 않음)에 의해 공급된다.
도 3은 사무실에서 볼 수 있는 것과 같은 컨퍼런스 폰(conference phone) 또는 스피커 폰을 나타낸다. 전화(30)는 조형된 케이스 안의 마이크로폰(31)과 스피커(32)를 포함한다. 전화(30)는 마이크로폰들(34 및 35)와 같이, 수개의 마이크로폰들을 포함하여, 미국 특허 5,138,651(Sudo)에 개시된 바와 같이, 음성 수신을 향상시키거나 반향 제거 또는 노이즈 제거를 위해 수개의 입력들을 제공할 수 있다.
도 4는 핸즈 프리 키트로 알려진 것으로서 도 5에 도시된, 셀룰러 전화에 오디오 연결을 제공하는 것을 나타낸다. 핸즈 프리 키트들은 다양하게 구현되지만 일반적으로 플러그(37)에 부착되어 전력을 공급받는 스피커(36)를 포함하며, 이는 차량의 액세서리 구멍 또는 담배 라이터 소켓에 끼운다. 핸즈프리 키트는 또한 플러그(39)에서 끝나는 케이블(38)을 포함한다. 플러그(39)는 소켓(41)(도 5)과 같은, 셀룰러 전화의 헤드셋(headset) 소켓에 맞는다. 일부 키트들은, 무선 전화기처럼, RF 신호들을 이용하여 전화기에 연결된다. 핸즈프리 키트는 또한 일반적으로 볼륨 제어 및 일부 제어 스위치들(예컨대 호(call)에 응답하기 위해 "오프 후크(off hook)"하기 위한)을 포함한다. 핸즈프리 키트는 또한 일반적으로 상기 키트에 접속되는 바이저 마이크로폰(visor microphone)(도시하지 않음)을 포함한다. 본 발명에 따라 구성된 오디오 프로세싱 회로는 핸즈프리 키트 또는 셀룰러 전화기 안에 포함될 수 있다.
다양한 형태의 전화 모두가 본 발명의 이점을 얻을 수 있다. 도 6은 셀룰러 전화의 주요 구성요소들의 블록 다이어그램이다. 일반적으로, 상기 블록들은 표시된 기능을 구현하는 집적회로들에 대응한다. 마이크로폰(51), 스피커(52), 그리고 키패드(53)는 신호 처리 회로(54)에 연결된다. 회로(54)는 복수의 기능들을 수행하고 당해 기술분야에서 수개의 명칭들로 알려져 있으며, 이는 생산자에 따라 다르다. 예를 들어, 인피니온(Infineon)은 회로(54)를 "단일 칩 기저대역 IC(single chip baseband IC)"라고 칭한다. 퀄컴(QualComm)은 회로(54)를 "이동국 모뎀(mobile station modem)"이라고 칭한다. 다른 생산자들로부터의 상기 회로들은 세부적으로는 명백히 다르지만, 일반적으로 상기 표시된 기능들이 포함된다.
셀룰러 전화는 오디오 주파수와 무선 주파수 회로 모두를 포함한다. 듀플렉서(duplexer)(55)는 안테나(56)를 수신 처리기(receive processor)(57)와 연결한 다. 듀플렉서(55)는 전송 중에 안테나(56)를 전력 증폭기(58)와 연결시키고 수신 처리기(57)를 상기 전력 증폭기로부터 분리시킨다. 전송 처리기(59)는 무선 주파수 신호를 회로(54)로부터의 오디오 신호로써 변조한다. 스피커 폰과 같이, 셀룰러-외의 애플리케이션들에서는 무선 주파수 회로들이 없으며 신호 처리기(54)는 다소 단순화될 수 있다. 반향 제거 및 노이즈 잔여의 문제점들은 오디오 처리기(60)에서 다뤄진다. 본 발명을 포함하도록 수정되는 것은 오디오 처리기(60)이다.
대부분의 최신 노이즈 감소 알고리듬들은 스펙트럼 차감(spectral subtraction)으로 알려진 기술에 기초한다. 클린 스피치 신호(clean speech signal)가 부가적인 그리고 상관되지 않은(uncorrelated) 노이지 신호(noisy signal)에 의해 변형되면, 상기 노이지 스피치 신호(noisy speech signal)는 단순히 상기 신호들의 합이다. 만일 상기 노이즈 소스(source)의 전력 스펙트럼 밀도(power spectral density, PSD)가 완전히 알려진다면, 위너 필터를 이용하여 상기 노이지 스피치 신호로부터 차감되어 깨끗한 음성을 생성할 수 있다; 예컨대 J.S.Lim 과 A.V.Oppenheim, "노이지 스피치의 개선 및 대역폭 압축(Enhancement and bandwidth compression of noisy speech)," Proc. IEEE, vol.67, pp-1586-1604, 1979년 12월 참조. 통상적으로, 상기 노이즈 소스는 알려지지 않으며, 따라서 스펙트럼 차감 알고리듬의 결정적인 요소는 상기 노이지 신호의 전력 스펙트럼 밀도(PSD)의 추정이다.
도 7은 본 발명에 따라 구성된 노이즈 억제기(noise suppressor)를 포함하는 오디오 처리기(60) 부분의 블록 다이어그램이다. 노이즈 억제 외에, 오디오 처리 기(60)는 반향 제거, 추가적 필터링, 그리고 다른 기능들을 포함하며, 이들은 본 발명의 일부가 아니다. 제 2 노이즈 억제 회로와 컴포트 노이즈 발생기는 파선(79)으로 표현되는, 라인 입력(line input)(66)과 스피커 출력(68) 사이의, 상기 수신 채널 내에서 연결될 수 있다.
상기 노이즈 감소 프로세스는 복수의 입력 신호 샘플들을 그룹으로 처리함으로써 수행된다. 데이터의 그룹들은 종종 "블록(block)들"로 칭한다. 도면 내의 도형으로 된 블록들과의 혼선을 피하기 위해, 한 그룹의 32 샘플들은 "프레임(frame)"이고 한 그룹의 4 프레임들(128 샘플들)은 "수퍼-프레임(super-frame)"이다. 4 프레임들이 함께 처리되기 때문에, 상기 입력 데이터는 프로세싱 동안 버퍼링(buffer)되어야만 한다. 128 워드(word) 크기의 버퍼를 이용하여 상기 입력 데이터를 윈도윙(windowing)하기 위해 샘플들을 저장한다.
상기 버퍼링된 데이터는, 블록(71)에 나타난 바와 같이, 윈도윙되어 주파수 영역에서 그룹 프로세싱(group processing)에 의해 야기된 상기 아티팩트(artifact)들을 감소시킨다. 다른 윈도우 옵션들도 이용가능하다. 윈도우 선택은, 메인 로브 폭(main lobe width), 사이드 로브 레벨(side lobe level), 그리고 오버랩 크기(overlap size)과 같은 다양한 요소들에 기초한다. 상기 프로세싱에 이용되는 윈도우의 종류는 상기 메인 로브 폭과 사이드 로브 레벨에 영향을 미친다. 예를 들어, 해닝 윈도우(Hanning window)는 직각 윈도우에 비하여 더 넓은 메인 로브와 더 낮은 사이드 로브 레벨들을 갖는다. 공지된 몇가지 종류의 윈도우들이, 이득 및 평활화 계수들과 같은 일부 파라미터들을 적절히 조정하여, 이용될 수 있다.
주파수 영역 프로세싱에 의해 야기되는 상기 아티팩트(artifact)들은 작은 오버랩(overlap)을 이용하면 악화된다. 큰 오버랩은 계산상의 요구에 있어서 증가를 초래할 것이다. 합성 윈도우(synthesis window)를 이용하여 상기 재구성 단계에서 야기되는 상기 아티팩트들을 감소시킨다. 상기 모든 요인들을 고려하면, 평활화된(smoothed), 사다리꼴(trapezoidal) 분석 윈도우와 평활화된, 사다리꼴 합성 윈도우(각각 25퍼센트 오버랩됨)가 본 발명의 우선적인 실시예에 이용된다. 128-포인트 이산 푸리에 변환에서, 25 퍼센트 오버랩은 이전의 수퍼-프레임으로부터 최종 32 샘플들이 현재의 수퍼-프레임의 최초(가장 오래된) 32 샘플들로 이용됨을 의미한다. 따라서, 8kHz의 산업 표준 샘플 레이트에서, 각 프레임은 4 밀리초의 신호를 나타내고 각 수퍼-프레임은 16ms의 신호를 나타낸다. 오버랩 때문에, 수퍼-프레임은 매 12ms 마다 발생될 수 있다.
상기 윈도윙된 시간 영역 데이터는 이산 푸리에 변환(72)을 이용하여 주파수 영역으로 변환된다. 상기 노이즈 억제 회로의 주파수 응답이 계산되며 도 8의 블록 다이어그램에 도시된 몇가지 특징들을 갖는다. 신호 대 잡음비 검출기(96)와 컴포트 노이즈 발생기(98)는 주파수 영역 프로세싱 회로에 부착되어 상기 백그라운드 노이즈 추정으로부터 발생된 스펙트럼 데이터를 공유한다. 이러한 기능들은 이하에서 상세히 기술된다.
블록(81)에서, 상기 노이지 음성의 전력 스펙트럼 밀도는 현재의 수퍼-프레임들의 실시 평균(running average)과 이전 수퍼-프레임들의 평균으로서 근사화되 며, 각각 적절하게 가중치가 부여된다. 부-대역 노이즈 추정(85)은 인간 청각의 인지를 모델링하는 바크 밴드(또한 "크리티컬 밴드(critical band)"로 칭함)를 이용한다. 상기 노이지 음성 프레임의 DFT는 17개의 바크 밴드들로 분리된다. 부-대역 에너지는 블록(82)에서 추정되고 부대역 노이즈는 블록(85)에서 추정된다.
일반화된 위너 필터링(Weiner filtering)에 근거하여 신호 대 잡음비의 함수로서 스펙트럼 이득을 계산하는 것은 공지되어 있다; L. Arslan, A. McCree, V. Viwsanathan, "새로운 적응형 노이즈 억제 방법(New methods for adaptive noise suppression)," 음향학, 음성, 및 신호 처리에 관한 26회 IEEE 국제 컨퍼런스 회보(Proceedings of the 26 th IEEE International Conference on Acoustics, Speech, and Signal Processing), ICASSP-01, 솔트 레이크 시티, 유타, pp. 812-815, 2001년 5월 참조. 상기 필터는 노이지 프레임들에 대해 더 강한 억제를 적용하고 유성 스피치 음성 프레임들 동안에는 더 약한 억제를 제공한다.
신호 대 잡음비는 블록(86)의 각 프레임의 각각의 대역에서 계산된다. 최종적으로, 스펙트럼 이득 값은 수정된 위너 솔루션(Weiner solution)의 바크 밴드 SNR을 이용하여 블록(89)에서 계산된다. 스펙트럼 차감 기반 방법들의 한가지 결점은 악음(musical tone) 아티팩트(artifact)들을 야기하는 것이다. 상기 노이즈 추정에 있어서의 부정확 때문에, 일부 스펙트럼 피크(peak)들이 스펙트럼 차감 이후에 잔여물로 남을 것이다. 이러한 스펙트럼 피크들은 악음(musical tone)들로써 나타난다. 이러한 아티팩트들을 감소시키기 위해, 상기 노이즈 억제 요소는 계산된 것보다 더 높은 값으로 유지되어야 한다. 그러나, 높은 값은 더 많은 유성 스 피치 왜곡(voiced speech distortion)을 초래할 것이다. 상기 파라미터를 조정하는 것은 음성 진폭 감소와 악음 아티팩트들 사이의 타협(tradeoff)이다. 이는 스피치 중에 노이즈 감소량을 제어하기 위한 새로운 매커니즘(mechanism)으로 귀결된다.
스피치(speech) 향상을 위해 노이지 스펙트럼 요소들 내의 신호 존재의 불확실성을 이용하는 아이디어는 공지되어 있다; R.J. McAulay 와 M.L. Malpass, "소프트 디시젼 노이즈 억제 필터를 이용한 스피치 개선(Speech enhancement using a soft-decision noise suppression filter)," IEEE Trnas . Acoust ., Speech, Sginal Processing, vol ASSP-28, pp.137-145, 1980년 4월 참조. 노이지한 환경에서 스피치(speech)가 존재하는 상기 확률을 계산한 후에, 상기 계산된 확률을 이용하여 노이즈 억제 인수(factor)를 조정한다.
유성 스피치(voiced speech)를 검출하는 한가지 방법은 상기 노이지 스피치에너지 스펙트럼(noisy speech energy spectrum)과 상기 노이지 에너지 스펙트럼(noisy energy spectrum) 간의 비율(ratio)을 계산하는 것이다. 이 비율이 매우 크다면, 유성 스피치가 존재한다고 가정할 수 있다. 상기 스피치 존재 확률(speech presence probability)은 1차의, 지수(exponential)의, 평균화(averaging)(평활화(smoothing)) 필터(87)에 의해 계산된다. 상기 노이즈 억제 인수는 상기 스피치 존재 확률을 스펙트럼 이득 계산기(spectral gain calculator)(89) 내의 임계치와 비교함으로써 결정된다. 특히, 상기 노이즈 억제 인수는 상기 임계치를 초과하지 않을 때보다는 상기 임계치를 초과하면 더 낮은 값 으로 설정된다. 상기 인수는 각각의 대역(band)에 대해 계산된다.
스펙트럼 이득(spectral gain)은 이득이 최소치, 예컨대 -20 dB 이하로 떨어지는 것을 방지하도록 제한된다. 본 시스템은 이득은 적지만 이득을 상기 최소치 이하가 되지 않도록 할 수 있다. 상기 값은 임계적인 것은 아니다. 이득을 제한하는 것은 제한된 정확도의, 부동 소수점 스펙트럼 이득 계산이 초래하는 악음 아티팩트(musical tone artifact)들과 스피치 왜곡(speech distortion)을 감소시킨다.
상기 이득의 하한은 상기 스펙트럼 이득 계산 프로세스(spectral gain calculation process)에 의해 조정된다. 바크 밴드의 상기 에너지가 어떤 임계치, E th 보다 적으면, 최소 이득은 -1 dB로 설정된다. 어느 세그먼트(segment)가 유성 스피치(voiced speech)로 분류되면, 즉 상기 확률이 p th 를 초과하면, 상기 최소 이득은 -1 dB로 설정된다. 어느 조건도 만족하지 않는다면, 상기 최소 이득은 허용되는 최소 이득, 예컨대 -20 dB로 설정된다. 본 발명의 일 실시예로, E th 에 대한 적절한 값은 0.01이다. p th 에 대한 적절한 값은 0.1이다. 상기 프로세스는 각각의 대역(band)이 각 대역의 상기 이득을 조정하도록 반복된다.
모든 그룹-변환 기반 프로세싱에서, 윈도윙(windowing)과 오버랩-추가(overlap-add)는 주파수 영역에서 그룹으로 신호를 처리함으로써 야기되는 아티팩트(artifact)들을 감소시키기 위한 기술로 알려져 있다. 그러한 아티팩트들의 감소는 상기 윈도우의 메인 로브의 폭, 상기 윈도우의 사이드 로브의 기울기, 그리고 그룹과 그룹의 오버랩 정도와 같은, 몇가지 요인들에 의해 영향을 받는다. 상기 메인 로브의 폭은 이용되는 윈도우의 종류가 영향을 미친다. 예를 들어, 해닝(Hanning, 레이즈드 코사인(raised cosine)) 윈도우는 직각 윈도우에 비하여 더 넓은 메인 로브와 더 낮은 사이드 로브 레벨들을 갖는다.
주파수들 간에 갑작스러운 이득 변화를 피하기 위해, 상기 스펙트럼 이득들은 지수 평균화 평활화 필터(exponential averaging smoothing filter)(92)를 이용하여 주파수 축을 따라 평활화된다. 스펙트럼 게인의 갑작스런 변화들은 각 바크 밴드의 상기 스펙트럼 이득들을 평균화(블록(95))시킴으로써 더 감소될 수 있다. 신속하게 변화하는, 노이지(noisy) 환경에서, 저주파 노이즈 플러터(low frequency noise flutter)가 향상된 출력 스피치(output speech)에 적용될 것이다. 본 플러터는 대부분의 스펙트럼 차감 기반, 노이즈 감소 시스템들의 부산물이다. 상기 백그라운드 노이즈가 급속히 변하고 상기 노이즈 추정이 상기 급속한 변화들에 적응할 수 있다면, 상기 스펙트럼 이득 또한 신속히 변화하여, 상기 플러터를 일으킬 수 있다. 상기 저주파 플러터는 1차 지수 평균화 평활화 필터(94)에서 시간에 대해 상기 스펙트럼 이득을 평균화함으로써 감소된다.
클린 스피치 스펙트럼(clean speech spectrum)은 상기 노이지 스피치 스펙트럼을 블록(75)의 상기 스펙트럼 이득 함수와 곱함(도 7)으로써 얻을 수 있다. 상기 스펙트럼은 역변환(76)에서 시간 영역으로 변환되고 합성 윈도우(77)를 이용하여 윈도윙(window)되어 상기 그룹핑 아티팩트(grouping artifact)들을 감소시킨다. 최종적으로, 상기 윈도윙된 클린 스피치는, 블록(78)에 이어져서, 이전 프레임에 오버랩되고 더해진다.
도 9는 본 발명의 우선적인 실시예에 따라 구성된 컴포트 노이즈 발생기의 블록 다이어그램이다. 백그라운드 노이즈 추정기(84)(도 8)는 상기 백그라운드 노이즈 스펙트럼과 정합하는 고-해상(high-resolution) 컴포트 노이즈 데이터를 생성한다. 컴포트 노이즈는 의사-랜덤(pseudo-random) 위상 스펙트럼을 변조함으로써 주파수 영역에서 발생되어 역 DFT를 이용하여 시간 영역으로 변환된다. 순방향 DFT(72)와 PSD 추정(81)(도 8)은 노이즈 억제를 위해 상기 기술된 바와 같이 동작한다.
발생기(101)는 단일 크기를 가지는 랜덤 위상 주파수 스펙트럼(random phase frequency spectrum)을 생성한다. 상기 컴포트 노이즈의 위상 스펙트럼을 발생시키는 한가지 방법은 [-p, p] 범위에 균일하게 분포되는 의사-난수 발생기(pseudo-random number generator)를 이용하는 것이다. 상기 위상 스펙트럼을 이용하여, 상기 단일 크기 및 랜덤 위상 주파수 스펙트럼은 상기 위상 스펙트럼으로부터 실수 및 허수 성분을 계산함으로써 얻을 수 있다. 그러나, 이 방법은 계산상 곤란하다.
다른 방법은 상기 의사-난수 발생기를 이용하여 상기 랜덤 주파수 스펙트럼(크기 및 위상 모두 랜덤하다)을 먼저 발생시켜 이 스펙트럼의 실수 및 허수부를 발생시키고, 이어서 이 스펙트럼을 단일(unity) 크기로 정규화(normalize)하는 것이다. 상기 랜덤 주파수 스펙트럼의 실수 및 허수부들이 균일하게 분포하기 때문에, 상기 유도된 위상 스펙트럼은 균일하지 않을 것이다. 상기 균일하게 분포된 랜덤 숫자들의 적절한 경계 값들을 선택함으로써, 더 균일한 위상 스펙트럼을 발생시킬 수 있다. 이전 방법과 비교하여, 이 방법은 하나의 추가적인 난수 발생기(random number generator)와 하나의 부분 경계를 필요로 하지만 초월수(transcendental) 함수들을 계산하는 것을 피한다.
단위(unit) 크기, 랜덤 위상 스펙트럼을 발생시키는 더 단순하고 더 효율적인 방법은 8 위상 룩-업 테이블(eight phase look-up table)을 이용하는 것이다. 상기 위상 스펙트럼은 균일하게 분포된, 난수를 이용하여 상기 룩-업 테이블의 8개의 값들 중 하나로부터 선택된다. 특히, 상기 숫자는 범위 [0,1]에 균일하게 분포하고 8개의 다른 값들로 양자화(quantize)된다. (0-9.125 범위의 난수는 1로 양자화된다. 0.126-0.250 범위의 난수는 2로 양자회되는 등.) 상기 양자화된 값들은 또한 균일하게 분포되고 특정 위상 편이들(phase shift), 예를 들어 45°, 90°등에 대응한다. 위상들의 수는 임의적이다. 8개의 위상은 들을 수 있는 아티팩트(artifact)들 없이 컴포트 노이즈를 발생시키는데 충분한 것으로 알려져 있다. 이 기술은 상기 첫 번째 기술에 비하여 더 용이하게 구현되는데 이는 분할(division) 또는 삼각함수들의 계산에 관련되지 않기 때문이다.
컴포트 노이즈 이득은 블록(102)에서 백그라운드 노이즈 레벨과 노이즈 감소 레벨(noise reduction level)의 함수로써 계산된다. 상기 VAD_OUTPUT 제어 신호는 상기 블록의 동작, 온(on) 또는 오프(off)를 제어한다. 노이즈 감소가 이네이블(enable)되면, 컴포트 노이즈 이득은, 우선적으로 룩-업 테이블로부터, 상기 노이즈 감소 레벨에 반비례하도록 설정된다.
상기 컴포트 노이즈의 스펙트럼 정합된(spectrally matched), 고 해상(high resolution)의 주파수 스펙트럼은 발생기(101)로부터의 상기 단일(unity) 크기 주파수 스페트럼을 회로(103)에서 계산(102)로부터의 상기 컴포트 노이즈 이득을 곱함으로써 발생된다. 상기 스펙트럼 정합된 주파수 스펙트럼은 상기 역(inverse) DFT(104)를 이용하여 시간 영역으로 변환된다.
상기 발생한 컴포트 노이즈가 랜덤(random)하기 때문에, 청취가능한 아티팩트(artifact)들이 프레임 경계에서 초래된다. 상기 경계 아티팩트들을 감소시키기 위해, 상기 컴포트 노이즈는 임의의 윈도우를 이용하여 블록(105)에서 윈도윙 된다. 상기 윈도윙된 컴포트 노이즈는 버퍼링되고 상기 출력 레이트(rate)는 상기 노이즈 감소 알고리듬의 출력 레이트와 동기화된다.
도 7 및 도 8과 관련하여 기술한 상기 노이즈 감소 알고리듬은 긴 논-스피치 인터벌 동안 노이즈 감소량을 줄일 수 있다. 게다가, 상기 처리된 신호들은 긴 논-스피치 인터벌들 동안 음 아티팩트(musical artifact)들을 포함할 수 있다. 이 문제를 해결하기 위해, 스피치 버스트 검출기(speech burst detector)를 이용하여 긴 논-스피치 인터벌을 검출한다. 검출시, 선형 노이즈 감소가 상기 노이지 신호에 적용되어, 바크 밴드 위너 필터링으로써 얻을 수 있는 것보다 더 큰 노이즈 감소를 얻는데 이는 바크 밴드 위너 필터링이, 상기 기술한 바와 같이 아티팩트(artifact)들을 생성하기 때문이다. 선형 노이즈 감소로 바꿈으로써 긴 논-스피치 인터벌들 동안 수정된 위너 필터에 의해 야기된 음조 아티팩트(tonal artifact)들을 제거한다.
도 10에서 파형(100)은 스피치 부분(107)과 논-스피치 부분(108)을 가지는 신호를 나타낸다. 상기 부분들의 지속기간은 스케일(scale)링하지 않는다. 여기에서 사용된 바와 같이, "긴(long)" 논-스피치 부분은 300ms 정도의 지속기간을 갖는다. (약 75 프레임들 또는 25 수퍼-프레임들) 또는 그 이상이다. 개선사항들은 긴 논-스피치 인터벌들을 검출하는 것에 의존한다.
도 11은 긴 논-스피치 인터벌들을 검출하기 위한 회로의 블록 다이어그램이다. 상기 검출기는 단순한 에너지 기반 방법에 기초한다. 수퍼-프레임의 신호 대 잡음비(SNR)(111)는 미리-결정된 임계치, th와 비교된다. 상기 SNR이 상기 임계치보다 크면, 상기 수퍼-프레임은 논-스피치 프레임으로 지정된다. 수퍼-프레임은 상기 SNR이 특정한 수, 예컨대 2개의 연속적인 프레임들에 대한 상기 임계치보다 클 때에만 스피치 프레임(speech frame)으로 선언된다. 상기 주기(period)당 스피치 프레임들의 수는 레지스터(register)(114)에서 카운트(count)되고 비교기(comparator)(115)의 임계치와 비교된다.
본 발명의 일 실시예로, 긴 인터벌(interval) 동안의 상기 임계치 지속기간은 31 수퍼-프레임들로 설정되었다. 정논리(positive logic)가 이용되는데, 즉 영("0")은 "거짓(false)" 또는 논-스피치(non-speech)를 나타내고 일("1")은 "참(true)" 또는 스피치(speech)를 나타낸다. 이들은 중요한 설계상 선택들은 아니다. 대신 다른 값들 또는 부논리(negative logic)가 이용될 수 있다.
상기 스피치 검출기 플래그(speech detector flag), VAD_OUTPUT은 상기 수퍼-프레임이 과거 n 프레임들 내에서 적어도 하나의 프레임 동안 스피치 프레임으로 선언되면 1로 설정된다. VAD_OUTPUT이 0이면 이는 긴 논-스피치 인터벌이 존재함 을 의미한다.
본 발명에 따라, 도 12에 도시한 바와 같이, VAD_OUTPUT에 의해 제어되는 스위칭 회로에 의해 바크 밴드 위너 필터(121)와 선형 노이즈 감소 회로(122)가 교번적으로 선택된다. 선형 노이즈 감소는 VAD_OUTPUT이 0일 때 이용된다. 상기 노이즈 억제 회로에서 상기 수정된 위너 필터로부터 선형 노이즈 감소로 스위칭되는 동안 또는 반대의 경우 회로 이득이 갑자기 변하면, 상기 백그라운드 노이즈에 있어 불쾌한 변화가 있을 수 있다. 이 효과를 피하기 위해, 이득은 상기 노이즈 감소 회로의 이득을 평활화(smooth)하기 위한 슬로우 디케이 필터(slow decay filter)를 이용하여 매우 천천히 변한다. 상기 필터는 가중치가 부여되고(weighted), 실시 평균(running average) 형태의,
여기서 G(k,m)은 프레임 m에서 빈(bin) k에 대한 이득이며, 는 주파수 독립 선형 이득(frequency independent linear gain), 그리고 α는 평활화(smoothing) 상수이다. 슬로우 디케이(slow decay)를 위해, 본 발명의 일 실시예로 .992의 값이 α에 대해 이용되었다. 이러한 값들은 단지 예시적인 것이다.
본 발명의 우선적인 실시예로, 도 8의 상기 평활화된 노이즈 추정이 SNR의 계산에 이용된다. 단순한 에너지 기반 검출기(detector)의 성능은 백그라운드 노이즈의 양에 의해 제한되고, 상기 SNR 계산에 일부 수정이 되어 낮은 입력 SNR 조건들에서 상기 VAD 성능을 개선한다. 상기 SNR이 상기 노이즈 제거 블록 뒤에 계 산될 때 상당한 성능 개선이 이뤄진다. 즉, 성능은 블록(111)(도 11)이 상기 블록(75)(도 7)의 출력에 연결되면 개선된다. 상기 성능 개선은 상기 바크 밴드 기반 수정된 위너 필터가 상기 노이지(noisy) 스피치 신호의 SNR을 향상시키기 때문에 이뤄진다. 주파수 영역에서 전체 대역에 대해 SNR을 계산하는 것은, 파시발 정리(Parseval's Theorem)에 근거하면, 시간 영역에서 SNR을 계산하는 것과 동일하다. 상기 SNR 계산은 주파수 영역에서 행해지는데 이는 상기 노이즈 추정이 주파수 영역에서 이용가능하기 때문이다.
컴포트 노이즈 이득은 상기 바크 밴드 기반, 오버-차감 인수(over-subtraction factor)에 기초하여 조정된다. 글로벌(스펙트럼 빈 번호들에 대하여) 파라미터를 이용하여 상기 컴포트 노이즈 레벨을 정합한다. 이 방법에 있어서 결점은 선형 노이즈 감소가 이네이블(enable)될 때 상기 합성 컴포트 노이즈(synthetic comfort noise)가 실제 백그라운드 노이즈에 스펙트럼상 정합되지 않는다는 것이다. 게다가, 상기 노이즈 감소 알고리듬에서 최소 이득이 변경될 때 상기 컴포트 노이즈 레벨을 튜닝하는 것은 번거롭다. 이러한 문제들을 해결하기 위해, 상기 컴포트 노이즈 이득은 도 13에 도시한 바와 같이, 상기 스펙트럼 (노이즈 감소) 이득에 기초하여 조정된다. 이러한 개선은 튜닝하는 노력을 경감하고 상기 컴포트 노이즈의 스펙트럼 품질을 향상시킨다. 상기 스펙트럼 이득은 선형 노이즈 감소가 이용되지 않을 때라도 컴포트 노이즈 발생에 영향을 미친다는 점을 유의하여야 한다.
컴포트 노이즈의 품질은 스피치 동안 상기 백그라운드 노이즈를 과대평가 (overestimate)함으로써 절충된다. 상기 컴포트 노이즈의 품질을 향상시키기 위해, 본 발명에 따라서, 긴 인터벌 검출기(long interval detector)(도 11)를 이용하여 스피치 동안 백그라운드 노이즈의 추정을 방지한다. 컴포트 노이즈 발생기(98)를 위한 백그라운드 노이즈 추정(도 8, 블록(84))은 VAD_OUTPUT이 0일 때에만 갱신된다. 상기 백그라운드 노이즈는 수정된 도블링거의 노이즈 추정(Doblinger's noise estimation) 알고리듬에 기초하여 갱신된다. 상기 언급한 평활화된 노이즈 추정이 상기 SNR의 계산에 이용된다.
상기 노이즈 억제기로부터의 스펙트럼 이득이 이용되면, 상기 발생된 컴포트 노이즈의 레벨은 감소된 백그라운드 노이즈에 더 근접하게 정합된다. 이는 노이즈 감소 모드로부터 컴포트 노이즈 삽입 모드로 더 원활한 전이를 가져온다. 더 원활한 전이는 듣기 좋은 음향 효과를 생성한다. 그러나, 컴포트 노이즈 이득을 제어하는 이 기술의 결점은, 상기 컴포트 노이즈가 스피치 세그먼트(speech segment)에 이어 즉시 삽입되어야 할 필요가 있다면, 상기 컴포트 노이즈 이득이 비대해질 것이라는 점인데 이는 노이즈 감소량이 상기 스피치 세그먼트 동안 적기 때문이다. 상기 비대해진 컴포트 노이즈 이득은 노이즈 펌핑(noise pumping)을 초래할 것이다. 노이즈 펌핑을 피하기 위해, 상기 컴포트 노이즈 이득은 스피치가 존재하지 않을 때에만, 즉 상기 입력 상에 백그라운드 노이즈만 있을 때 갱신된다. 이는 상기 노이즈 감소 이득이 상기 신호 대 잡음비에 직접적으로 비례하기 때문이다. 그러므로, 상기 컴포트 노이즈가 갱신될 때, 상기 SNR이 높은 프레임들 동안에, 노이즈 펌핑은 컴포트 노이즈 이득의 과대평가 때문에 들릴 것이다. 이 효과를 감소시 키기 위해, VAD_OUTPUT과 평활화 필터(smoothing filter)를 이용하여 상기 컴포트 노이즈 이득을 제어한다. 필터(94)로부터 필터링된 출력(도 8)이 이용되거나 또는 별도의 필터가 이용될 수 있다.
본 발명은 긴 논-스피치 인터벌들 동안의 증가된 노이즈 억제와 백그라운드 노이즈에 대한 컴포트 노이즈의 향상된 스펙트럼 정합을 제공한다. 또한, 상기 개선사항들은 실질적으로 노이즈 펌핑을 제거하고 노이즈 감소 파라미터들에 완전히 의존적인 방법으로 컴포트 노이즈의 레벨을 조정할 수 있게 한다.
따라서 기술한 본 발명에 따라, 당해 기술분야에서 통상의 지식을 가진 자에게는 본 발명의 범위 내에서 다양한 수정이 행해질 수 있음이 명백할 것이다. 예를 들어, 긴 논-스피치 인터벌들은 신호의 완전한 스펙트럼 또는 감소된 스펙트럼을 이용하여 시간 영역에서 검출될 수 있다.
Claims (8)
- 오디오 신호를 복수의 프레임들로 분할하기 위한 분석 회로(analysis circuit), 노이즈 억제 회로(noise suppression circuit) 및 노이즈 감소 회로(noise reduction circuit)를 포함하는 오디오 프로세싱 회로(audio processing circuit)로서, 여기서 각각의 프레임은 복수의 샘플(sample)들을 포함하는, 오디오 프로세싱 회로;긴 논-스피치 인터벌(non-speech interval)들을 검출하기 위한 수단; 및긴 논-스피치 인터벌이 검출될 때 노이즈 억제로부터 노이즈 감소로 전환(switch)하기 위한 수단을 포함하는 전화.
- 제 1 항에 있어서,상기 노이즈 감소 회로에 이득 평활화 필터(gain smoothing filter)를 더 포함하며, 여기서 상기 이득 평활화 필터는 일 레벨의 이득으로부터 다른 레벨의 이득으로 점차적인 전이를 제공하기 위해 노이즈 억제로부터 노이즈 감소로 전환할 때 긴 시상수(time constant)를 가지는, 전화.
- 제 2 항에 있어서,상기 필터는 짧은 논-스피치 인터벌들 동안에는 짧은 시상수를 가지는 전화.
- 제 1 항에 있어서,상기 검출 수단은 상기 노이즈 억제 회로의 출력에 접속되어, 낮은 신호 대 잡음비(signal to noise ratio)에서 검출수단의 성능을 향상시키는, 전화.
- 노이즈 억제 회로로서, 백그라운드 노이즈(background noise)를 추정하기 위한 회로를 가지며, 상기 노이즈 억제회로에 접속되어 백그라운드 노이즈를 추정하기 위해 상기 회로로부터의 데이터에 기초하여 컴포트 노이즈(comfort noise)를 발생시키기 위한 컴포트 노이즈 발생기(comfort noise generator)를 가지는 노이즈 억제 회로;논-스피치 인터벌들을 검출하기 위한 수단; 및상기 긴 논-스피치 인터벌들을 검출하기 위한 수단이 긴 논-스피치 인터벌을 검출할 때 추정(estimate)을 연기하기 위해 상기 회로에 접속되는 수단을 포함하는 전화.
- 제 5 항에 있어서,상기 전화는 스펙트럼 이득 계산 회로(spectral gain calculation circuitry); 및상기 스펙트럼 이득 계산 회로로부터의 데이터에 기초하여 상기 컴포트 노이즈의 이득을 조정하기 위한 수단을 더 포함하는 전화.
- 제 6 항에 있어서,상기 데이터는 평균화된(averaged) 전화.
- 제 5 항에 있어서,상기 검출 수단은 상기 노이즈 억제 회로의 출력에 접속되어, 낮은 신호 대 잡음비에서 검출 수단의 성능을 향상시키는, 전화.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/979,969 | 2004-11-03 | ||
US10/979,969 US7454010B1 (en) | 2004-11-03 | 2004-11-03 | Noise reduction and comfort noise gain control using bark band weiner filter and linear attenuation |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20070085729A true KR20070085729A (ko) | 2007-08-27 |
Family
ID=36336933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020077012592A KR20070085729A (ko) | 2004-11-03 | 2005-10-17 | 바크 밴드 위너 필터 및 선형 감쇠를 이용한 노이즈 감소및 컴포트 노이즈 이득 제어 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7454010B1 (ko) |
EP (1) | EP1815461A2 (ko) |
JP (1) | JP2008519553A (ko) |
KR (1) | KR20070085729A (ko) |
CN (1) | CN101080766A (ko) |
WO (1) | WO2006052395A2 (ko) |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8159548B2 (en) | 2003-01-30 | 2012-04-17 | Qualcomm Incorporated | Modular architecture having reusable front end for processing digital video data |
US7769189B1 (en) * | 2005-04-12 | 2010-08-03 | Apple Inc. | Preserving noise during editing of a signal |
US8767974B1 (en) * | 2005-06-15 | 2014-07-01 | Hewlett-Packard Development Company, L.P. | System and method for generating comfort noise |
US8566086B2 (en) * | 2005-06-28 | 2013-10-22 | Qnx Software Systems Limited | System for adaptive enhancement of speech signals |
US8295682B1 (en) | 2005-07-13 | 2012-10-23 | Apple Inc. | Selecting previously-selected segments of a signal |
US8364294B1 (en) | 2005-08-01 | 2013-01-29 | Apple Inc. | Two-phase editing of signal data |
US8538761B1 (en) | 2005-08-01 | 2013-09-17 | Apple Inc. | Stretching/shrinking selected portions of a signal |
US7610197B2 (en) * | 2005-08-31 | 2009-10-27 | Motorola, Inc. | Method and apparatus for comfort noise generation in speech communication systems |
KR20070078171A (ko) * | 2006-01-26 | 2007-07-31 | 삼성전자주식회사 | 신호대 잡음비에 의한 억제 정도 조절을 이용한 잡음 제거장치 및 그 방법 |
US20080091415A1 (en) * | 2006-10-12 | 2008-04-17 | Schafer Ronald W | System and method for canceling acoustic echoes in audio-conference communication systems |
CN101335003B (zh) * | 2007-09-28 | 2010-07-07 | 华为技术有限公司 | 噪声生成装置、及方法 |
US8219387B2 (en) * | 2007-12-10 | 2012-07-10 | Microsoft Corporation | Identifying far-end sound |
US8483854B2 (en) | 2008-01-28 | 2013-07-09 | Qualcomm Incorporated | Systems, methods, and apparatus for context processing using multiple microphones |
CN101483042B (zh) | 2008-03-20 | 2011-03-30 | 华为技术有限公司 | 一种噪声生成方法以及噪声生成装置 |
CN100550133C (zh) * | 2008-03-20 | 2009-10-14 | 华为技术有限公司 | 一种语音信号处理方法及装置 |
WO2010070840A1 (ja) * | 2008-12-17 | 2010-06-24 | 日本電気株式会社 | 音声検出装置、音声検出プログラムおよびパラメータ調整方法 |
GB0919672D0 (en) | 2009-11-10 | 2009-12-23 | Skype Ltd | Noise suppression |
KR20120034863A (ko) * | 2010-10-04 | 2012-04-13 | 삼성전자주식회사 | 이동통신 단말기에서 오디오 신호 처리 방법 및 장치 |
CN102201241A (zh) * | 2011-04-11 | 2011-09-28 | 深圳市华新微声学技术有限公司 | 语音信号处理方法及装置 |
US9173025B2 (en) | 2012-02-08 | 2015-10-27 | Dolby Laboratories Licensing Corporation | Combined suppression of noise, echo, and out-of-location signals |
US8712076B2 (en) | 2012-02-08 | 2014-04-29 | Dolby Laboratories Licensing Corporation | Post-processing including median filtering of noise suppression gains |
CN103327201B (zh) * | 2012-03-20 | 2016-04-20 | 联芯科技有限公司 | 残留回声消除方法及系统 |
MY178710A (en) | 2012-12-21 | 2020-10-20 | Fraunhofer Ges Forschung | Comfort noise addition for modeling background noise at low bit-rates |
CA2894625C (en) * | 2012-12-21 | 2017-11-07 | Anthony LOMBARD | Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals |
US8958509B1 (en) | 2013-01-16 | 2015-02-17 | Richard J. Wiegand | System for sensor sensitivity enhancement and method therefore |
FR3002679B1 (fr) * | 2013-02-28 | 2016-07-22 | Parrot | Procede de debruitage d'un signal audio par un algorithme a gain spectral variable a durete modulable dynamiquement |
US20140278380A1 (en) * | 2013-03-14 | 2014-09-18 | Dolby Laboratories Licensing Corporation | Spectral and Spatial Modification of Noise Captured During Teleconferencing |
CN104093178A (zh) * | 2013-04-01 | 2014-10-08 | 联想(北京)有限公司 | 一种通信方法及移动终端 |
CN106169297B (zh) | 2013-05-30 | 2019-04-19 | 华为技术有限公司 | 信号编码方法及设备 |
CN110265058B (zh) * | 2013-12-19 | 2023-01-17 | 瑞典爱立信有限公司 | 估计音频信号中的背景噪声 |
RU2665916C2 (ru) | 2014-07-29 | 2018-09-04 | Телефонактиеболагет Лм Эрикссон (Пабл) | Оценивание фонового шума в аудиосигналах |
CN104581538B (zh) * | 2015-01-28 | 2018-03-02 | 三星电子(中国)研发中心 | 消除噪音的方法和装置 |
US10186276B2 (en) * | 2015-09-25 | 2019-01-22 | Qualcomm Incorporated | Adaptive noise suppression for super wideband music |
US9838783B2 (en) | 2015-10-22 | 2017-12-05 | Cirrus Logic, Inc. | Adaptive phase-distortionless magnitude response equalization (MRE) for beamforming applications |
EP3312838A1 (en) | 2016-10-18 | 2018-04-25 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for processing an audio signal |
JP7043344B2 (ja) * | 2018-05-17 | 2022-03-29 | 株式会社トランストロン | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム |
US10951859B2 (en) | 2018-05-30 | 2021-03-16 | Microsoft Technology Licensing, Llc | Videoconferencing device and method |
CN111147983A (zh) * | 2018-11-06 | 2020-05-12 | 展讯通信(上海)有限公司 | 扬声器控制方法及装置、可读存储介质 |
EP3683794B1 (en) * | 2019-01-15 | 2021-07-28 | Nokia Technologies Oy | Audio processing |
CN113113039B (zh) * | 2019-07-08 | 2022-03-18 | 广州欢聊网络科技有限公司 | 一种噪声抑制方法、装置和移动终端 |
CN111863001A (zh) * | 2020-06-17 | 2020-10-30 | 广州华燎电气科技有限公司 | 一种多方通话系统中抑制背景噪声的方法 |
CN112185410B (zh) * | 2020-10-21 | 2024-04-30 | 北京猿力未来科技有限公司 | 音频处理方法及装置 |
JP2023106686A (ja) * | 2022-01-21 | 2023-08-02 | ヤマハ株式会社 | 音声処理装置および音声処理方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4630305A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic gain selector for a noise suppression system |
US6212273B1 (en) * | 1998-03-20 | 2001-04-03 | Crystal Semiconductor Corporation | Full-duplex speakerphone circuit including a control interface |
JP2000022603A (ja) * | 1998-07-02 | 2000-01-21 | Oki Electric Ind Co Ltd | コンフォートノイズ発生装置 |
US7058572B1 (en) * | 2000-01-28 | 2006-06-06 | Nortel Networks Limited | Reducing acoustic noise in wireless and landline based telephony |
US6377637B1 (en) * | 2000-07-12 | 2002-04-23 | Andrea Electronics Corporation | Sub-band exponential smoothing noise canceling system |
-
2004
- 2004-11-03 US US10/979,969 patent/US7454010B1/en active Active
-
2005
- 2005-10-17 KR KR1020077012592A patent/KR20070085729A/ko not_active Application Discontinuation
- 2005-10-17 WO PCT/US2005/037320 patent/WO2006052395A2/en active Application Filing
- 2005-10-17 JP JP2007540324A patent/JP2008519553A/ja not_active Withdrawn
- 2005-10-17 EP EP05817102A patent/EP1815461A2/en not_active Withdrawn
- 2005-10-17 CN CNA2005800435036A patent/CN101080766A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP1815461A2 (en) | 2007-08-08 |
US7454010B1 (en) | 2008-11-18 |
WO2006052395A3 (en) | 2006-12-14 |
WO2006052395A2 (en) | 2006-05-18 |
JP2008519553A (ja) | 2008-06-05 |
CN101080766A (zh) | 2007-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7454010B1 (en) | Noise reduction and comfort noise gain control using bark band weiner filter and linear attenuation | |
US7649988B2 (en) | Comfort noise generator using modified Doblinger noise estimate | |
US7492889B2 (en) | Noise suppression based on bark band wiener filtering and modified doblinger noise estimate | |
US8886525B2 (en) | System and method for adaptive intelligent noise suppression | |
EP2056296B1 (en) | Dynamic noise reduction | |
US8521530B1 (en) | System and method for enhancing a monaural audio signal | |
AU771444B2 (en) | Noise reduction apparatus and method | |
US8010355B2 (en) | Low complexity noise reduction method | |
US6549586B2 (en) | System and method for dual microphone signal noise reduction using spectral subtraction | |
US8189766B1 (en) | System and method for blind subband acoustic echo cancellation postfiltering | |
EP2008379B1 (en) | Adjustable noise suppression system | |
CN111554315B (zh) | 单通道语音增强方法及装置、存储介质、终端 | |
US20130322643A1 (en) | Multi-Microphone Robust Noise Suppression | |
KR100595799B1 (ko) | 스펙트럼 종속 지수 이득 함수 평균화를 이용한 스펙트럼공제에 의한 신호 잡음 저감 | |
KR20090096484A (ko) | 복수의 노이즈 억제 기술을 이용하는 노이즈 억제 회로 및 방법 | |
KR20130061673A (ko) | 모노 또는 다중 마이크로폰 시스템 내의 잡음 제거 및 음성 품질을 공동으로 최적화하는 방법 | |
JP2003500936A (ja) | エコー抑止システムにおけるニアエンド音声信号の改善 | |
Nemer | Acoustic Noise Reduction for Mobile Telephony | |
JP2003517761A (ja) | 通信システムにおける音響バックグラウンドノイズを抑制するための方法と装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |