KR100870502B1 - 배경잡음의 존재하에 음성 강화를 위한 방법 및 기기 - Google Patents

배경잡음의 존재하에 음성 강화를 위한 방법 및 기기 Download PDF

Info

Publication number
KR100870502B1
KR100870502B1 KR1020067015437A KR20067015437A KR100870502B1 KR 100870502 B1 KR100870502 B1 KR 100870502B1 KR 1020067015437 A KR1020067015437 A KR 1020067015437A KR 20067015437 A KR20067015437 A KR 20067015437A KR 100870502 B1 KR100870502 B1 KR 100870502B1
Authority
KR
South Korea
Prior art keywords
frequency
speech
noise suppression
delete delete
bands
Prior art date
Application number
KR1020067015437A
Other languages
English (en)
Other versions
KR20060128983A (ko
Inventor
밀란 젤리넥
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20060128983A publication Critical patent/KR20060128983A/ko
Application granted granted Critical
Publication of KR100870502B1 publication Critical patent/KR100870502B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Telephone Function (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Devices For Executing Special Programs (AREA)

Abstract

일 양태에서 본 발명은 복수의 주파수빈들로 분할가능한 주파수영역표현을 가지는 음성신호에 대해, 상기 주파수빈들 중의 적어도 일부를 위한 크기조정이득 값을 결정하는 단계 및 평활화된 크기조정이득 값들을 계산하는 단계를 구비하는 음성신호의 잡음 억제를 위한 방법을 제공한다. 평활화된 크기조정이득 값들의 계산은, 주파수빈들의 적어도 일부에 대해 현재 결정된 크기조정이득 값 및 이전에 결정된 평활화된 크기조정이득 값을 조합한다. 다른 양태에서 본 발명은 복수의 주파수빈들을 제1 및 제2집합들 사이에 경계주파수를 가지는 연속하는 주파수빈들의 제1집합과 연속하는 주파수빈들의 제2집합으로 구획하며, 경계주파수는 잡음 억제 기법들 간을 구별 짓고, 경계주파수의 값을 음성신호의 스펙트럼 내용의 함수로 하여 변경한다.

Description

배경잡음의 존재하에 음성 강화를 위한 방법 및 기기{Method and device for speech enhancement in the presence of background noise}
본 발명은 음성(speech)신호들을 강화시켜 배경잡음의 존재하에서 통신을 개선하는 기법에 관한 것이다. 특정되지만 한정적이지는 않게, 본 발명은 음성신호의 배경잡음의 레벨을 낮추는 잡음 감소 시스템의 설계에 관한 것이다.
배경잡음의 레벨을 낮추는 것은 많은 통신시스템들에서 매우 중요하다. 예를 들면, 이동전화기들은 높은 레벨의 배경잡음이 존재하는 많은 환경들에서 이용되고 있다. 그러한 환경들은 차들(점점 핸즈프리가 되어가고 있음), 또는 거리에서의 이용이고, 그것에 의해 통신시스템은 높은 레벨의 차 소음 또는 거리 소음의 존재 하에서 동작하는 것이 필요하다. 화상회의 및 핸즈프리 인터넷 애플리케이션과 같은 사무실 응용에서, 시스템은 사무실 소음을 효율적으로 잘 처리하는 것이 필요하다. 소음 억제, 또는 음성 강화라고 알려지기도 한 잡음 감소는, 이 응용들에서 매우 중요하게 되었고, 종종 낮은 신호-대-잡음비(SNR)에서 동작할 필요가 있다. 잡음감소는 각종 실제 환경들에서 점점 더 채용되는 자동 음성인식 시스템들에서 중요하다. 잡음감소는 전술한 응용들에서 통상 이용되는 음성 부호화 알고리즘들 또는 음성인식 알고리즘들의 성능을 개선한다.
스펙트럼 차감(spectral subtraction)은 잡음감소를 위해 가장 많이 사용되는 기법들 중의 하나이다(참조 S. F. Boll, "Suppression of acoustic noise in speech using spectral subtraction," IEEE Trans . Acoust ., Speech , Signal Processing, vol. ASSP-27, pp. 113-120, Apr. 1979). 스펙트럼 차감은 잡음성 음성로부터 잡음추정값을 감산하는 것에 의해 음성의 단시간 스펙트럼 크기를 추정하는 것을 시도한다. 잡음 음성의 위상은 위상왜곡이 사람의 귀에 의해 지각되지 않는다는 가정에 기초하여 처리되지 않는다. 실사용에서, 스펙트럼 차감은 잡음 스펙트럼 및 잡음성 음성 스펙트럼의 추정값들로부터 SNR기반 이득함수를 형성하는 것에 의해 이행된다. 이 이득함수는 낮은 SNR로 주파수 성분들을 억제하도록 입력스펙트럼에 의해 곱해진다. 기존의 스펙트럼 차감 알고리즘들을 이용하는 주된 불이익은 "악음(musical tones)"으로 구성되는 결과적인 음악적 잔여 잡음이 청취자뿐만 아니라 후속하는 신호처리 알고리즘들(이를테면 음성 부호화)을 방해한다는 것이다. 악음들은 주로 스펙트럼 추정값들의 변동 때문이다. 이 문제를 해결하기 위해, 스펙트럼 평활화(smoothing)가 제안되어 있는데, 결과적으로 변동 및 분해능을 감소시킨다. 악음들을 감소하기 위한 다른 알려진 방법은 스펙트럼마루(spectral floor)와 조합하여 과잉감산계수(over-subtraction factor)를 이용하는 것이다(M. Berouti, R. Schwartz, and J. Makhoul, "Enhancement of speech corrupted by acoustic noise," in Proc . IEEE ICASSP, Washington, DC, Apr. 1979, pp. 208-211 참조). 이 방법은 악음들이 충분히 감소될 때 음성을 열화시키는 불리점을 가진다. 다른 접근방법들은 연판정(soft-decision) 잡음 억제 필터링(R. J. McAulay and M. L. Malpass, "Speech enhancement using a soft decision noise suppression filter," IEEE Trans . Acoust ., Speech , Signal Processing, vol. ASSP-28, pp. 137-145, Apr. 1980 참조)과 비선형 스펙트럼 감산(P. Lockwood and J. Boudy, "Experiments with a nonlinear spectral subtractor (NSS), hidden Markov models and projection, for robust recognition in cars," Speech Commun., vol. 11, pp. 215-228, June 1992 참조)이다.
본 발명의 한 양태에서 음성신호의 잡음 억제를 위한 방법에 있어서,
주파수 분석을 수행하여 복수의 주파수빈들을 포함하는 음성신호의 스펙트럼영역 표현을 생성하는 단계; 및
주파수빈들을 다수의 주파수대역들로 그룹화하는 단계를 포함하며,
발성된 음성 활동도가 음성신호에서 검출될 때, 잡음 억제가 제1수의 주파수대역들에 대해 주파수빈마다 수행되고 잡음 억제는 제2수의 주파수대역들에 대해 주파수대역마다 수행되는 것을 특징으로 하는 방법이 제공된다.
본 발명의 다른 양태에서 음성신호의 잡음을 억제하기 위한 기기에 있어서, 상기 기기는,
주파수 분석을 수행하여 복수의 주파수빈들을 포함하는 음성신호의 스펙트럼영역 표현을 생성하도록; 그리고
주파수빈들을 다수의 주파수대역들로 그룹화하도록 구성되며,
상기 기기는 발성된 음성 활동도를 검출하도록 구성되고 발성된 음성 활동도가 음성신호에서 검출될 때, 제1수의 주파수대역들에 대해 주파수빈마다 잡음 억제를 수행하고 제2수의 주파수대역들에 대해 주파수대역마다 잡음 억제를 수행하는 것을 특징으로 하는 기기가 제공된다.
본 발명의 추가의 양태에서 잡음 억제를 위한 기기를 포함하는 음성 부호화기에 있어서,
주파수 분석을 수행하여 복수의 주파수빈들을 포함하는 음성신호의 스펙트럼영역 표현을 생성하도록; 그리고
주파수빈들을 다수의 주파수대역들로 그룹화하도록 구성되며,
상기 기기는 발성된 음성 활동도를 검출하도록 구성되며, 발성된 음성 활동도가 음성신호에서 검출될 때, 제1수의 주파수대역들에 대해 주파수빈마다 잡음 억제를 수행하고 제2수의 주파수대역들에 대해 주파수대역마다 잡음 억제를 수행하는 것을 특징으로 하는 음성 부호화기가 제공된다.
본 발명의 더 추가의 양태에서 잡음 억제를 위한 기기를 포함하는 자동 음성인식 시스템에 있어서, 상기 기기는
주파수 분석을 수행하여 복수의 주파수빈들을 포함하는 음성신호의 스펙트럼영역 표현을 생성하도록; 그리고
주파수빈들을 다수의 주파수대역들로 그룹화하도록 구성되며,
상기 기기는 발성된 음성 활동도를 검출하도록 구성되며, 발성된 음성 활동도가 음성신호에서 검출될 때, 제1수의 주파수대역들에 대해 주파수빈마다 잡음 억제를 수행하고 제2수의 주파수대역들에 대해 주파수대역마다 잡음 억제를 수행하는 것을 특징으로 하는 자동 음성인식 시스템이 제공된다.
본 발명의 또 다른 양태에서 잡음 억제를 위한 기기를 포함하는 이동전화기에 있어서, 상기 이동전화기는
주파수 분석을 수행하여 복수의 주파수빈들을 포함하는 음성신호의 스펙트럼영역 표현을 생성하도록; 그리고
주파수빈들을 다수의 주파수대역들로 그룹화하도록 구성되며,
상기 기기는 발성된 음성 활동도를 검출하도록 구성되며, 발성된 음성 활동도가 음성신호에서 검출될 때, 제1수의 주파수대역들에 대해 주파수빈마다 잡음 억제를 수행하고 제2수의 주파수대역들에 대해 주파수대역마다 잡음 억제를 수행하도록 구성되는 이동전화기가 제공된다.
삭제
삭제
삭제
삭제
삭제
삭제
본 발명의 전술한 및 다른 목적들, 이점들 및 특징들은 첨부 도면들에 관해 예로써만 주어지는 예시적인 실시예의 다음의 비제한적인 설명을 읽는 것에 의거하여 명백하게 될 것이다. 첨부 도면들에서:
도 1은 잡음감소를 포함하는 음성통신시스템의 개략적인 블록도이며;
도 2는 스펙트럼 분석 시의 창의 예시를 보이며;
도 3은 잡음감소 알고리즘의 예시적인 실시예의 개략도이며; 그리고
도 4는 잡음감소 알고리즘이 제안된 음성프레임의 성질에 의존하는 부류특화 잡음감소의 예시적인 실시예의 개략적인 블록도이다.
본 명세서에는, 잡음감소를 위한 효율적인 기법들이 개시되어 있다. 이 기법들은 적어도 부분적으로는 임계대역들에서의 진폭 스펙트럼을 나누는 것과 EVRC 음성코덱(3GPP2 C.S0014-0 "Enhanced Variable Rate Codec (EVRC) Service Option for Wideband Spread Spectrum Communication Systems", 3GPP2 Technical Specification, December 1999 참조)에서 이용되는 접근법에 유사한 임계대역당 SNR에 기초한 이득함수의 계산에 근거한다. 예를 들면, 처리되는 음성프레임의 성질에 기초하여 다른 처리기법들을 이용하는 특징들이 개시되어 있다. 무성 프레임들에서는, 대역마다의 처리가 전체 스펙트럼에서 이용된다. 발성(voicing)이 특정 주파수까지 검출되는 프레임들에서는, 빈(bin)마다의 처리가 발성이 검출되는 스펙트럼 하위부분에서 이용되고 대역마다의 처리는 나머지 대역들에서 이용된다. 배경잡음 프레임들의 경우에, 일정한 잡음 바닥(noise floor)이 전체 스펙트럼에서 동일한 크기조정이득을 이용하여 제거된다. 게다가, 각 대역 또는 주파수빈에서 크기조정이득의 평활화가 실제 크기조정이득에 역으로 관계되는 평활화계수(smoothing factor)를 이용하여 수행되는 기법(평활화는 이득들이 작을수록 더 강함)이 개시되어 있다. 이 접근방법은 예를 들면 발성개시(voiced onsets)의 경우와 같이 낮은 SNR 프레임들이 앞서는 높은 SNR 음성세그먼트들에서의 왜곡을 방지한다.
본 발명의 하나의 비제한적인 양태는 스펙트럼 차감 기법들에 기초한 잡음감소를 위한 신규한 방법들을 제공하는 것이고, 이로써 잡음감소 방법은 처리되는 음성프레임의 성질에 의존한다. 예를 들면, 발성 프레임들에서, 처리는 특정 주파수 미만의 빈마다 수행될 수 있다.
예시적인 실시예에서, 잡음감소는 음성부호화시스템 내에서 부호화 전에 음성신호에 있는 배경잡음의 레벨을 낮추기 위해 수행된다. 개시된 기법들은 8000샘플/s로 샘플링된 협대역 음성신호들이나 16000샘플/s로 샘플링된 광대역 음성신호들의 어느 한 종류로, 또는 임의의 다른 샘플링주파수로 샘플링된 음성신호들로 전개될 수 있다. 이 예시적인 실시예에서 이용되는 부호기는 AMR-WB 코덱(S. F. Boll, "Suppression of acoustic noise in speech using spectral subtraction," IEEE Trans . Acoust ., Speech , Signal Processing , vol. ASSP-27, pp. 113-120, Apr. 1979 참조)에 기초하며, 그것은 내부 샘플링변환을 이용하여 신호 샘플링 주파수를 12800샘플/s(6.4kHz 대역폭으로 동작)로 변환한다.
그래서 이 예시적인 실시예에서 개시된 잡음감소 기법은 12.8kHz로의 샘플링 변환 후에 협대역 또는 광대역 신호들에 대해 동작한다.
광대역 입력들의 경우에, 16kHz부터 12.8kHz까지 추림(decimation)되어야 한다. 추림은 4배의 1차 업샘플링을 한 후 그 출력을 6.4kHz의 차단주파수를 가지는 저역통과 FIR필터를 통해 필터링함으로써 수행된다. 그 다음에, 신호는 5배로 다운샘플링된다. 필터링 지연은 16kHz 샘플링주파수에서 15개 샘플이다.
협대역 입력들의 경우에, 협대역 입력들의 경우에는, 신호는 8 kHz부터 12.8 kHz까지 업샘플링되어야 한다. 이것은 8배의 1차 업샘플링을 한 후 그 출력을 6.4kHz의 차단주파수를 가지는 저역통과 FIR필터를 통해 필터링함으로써 수행된다. 그 다음에, 신호는 5배로 다운샘플링된다. 필터링 지연은 8kHz 샘플링주파수에서 8개 샘플이다.
샘플링 변환 후, 2가지 전처리 기능들인 고역통과 필터링 및 예비강조(pre-emphasizing)가 부호화 처리 전에 신호에 적용된다.
고역통과필터는 바라지 않은 저주파수 성분들에 대한 예방조치로서 쓸모가 있다. 이 예시적인 실시예에서, 차단주파수 50Hz의 필터가 이용되고, 그것은
Figure 112006054774007-pct00001
로 주어진다.
예비강조에서, 1차 고역통과필터가 높은 주파수들을 강조하기 위해 이용되고, 그것은
Figure 112006054774007-pct00002
로 주어진다.
예비강조는 AMR-WB 코덱에서 고주파수들의 코덱 성능을 개선하기 위해 그리고 부호화기에서 이용되는 오류최소화처리에서의 인지가중치(perceptual weighting)을 개선하기 위해 이용된다.
예시적인 실시예의 나머지에서 잡음감소 알고리즘의 입력에 있는 신호는 12.8kHz 샘플링주파수로 변환되고 전술한 바와 같이 전처리된다. 그러나, 개시된 기법들은 8kHz 또는 16kHz와 같은 다른 샘플링주파수들에서 전처리와 함께 그리고 전처리 없이 신호들에 동등하게 적용될 수 있다.
다음에서, 잡음감소 알고리즘이 상세히 설명될 것이다. 잡음감소 알고리즘이 이용되는 음성 부호화기는 12.8kHz 샘플링 주파수에서 256개 샘플을 담고 있는 20ms 프레임들에 대해 동작한다. 게다가, 이 부호화기는 그것의 분석 시에 장차의 프레임으로부터 13ms 예견능력(lookahead)을 이용한다. 잡음 감소는 동일한 프레이밍(framing) 구조를 따른다. 그러나, 약간의 변화가 부호화기 프레이밍과 잡음감소 프레이밍 사이에 도입되어 예견능력의 이용을 극대화할 수 있다. 이 설명에서, 샘 플들의 색인들은 잡음감소 프레이밍을 반영할 것이다.
도 1은 잡음감소를 구비한 음성통신시스템의 개략도를 보인다. 블록 101에서, 전처리는 위에서 설명된 예시적인 예로서 수행된다.
블록 102에서, 스펙트럼분석과 음성활동도검출(voice activity detection; VAD)이 수행된다. 2가지 스펙트럼분석이 각 프레임에서 50% 겹치는 20ms 윈도우들을 이용하여 수행된다. 블록 103에서, 잡음감소가 스펙트럼 매개변수들에 적용된 다음 역DFT가 증대된 신호를 시간영역으로 변환하기 위해 이용된다. 그 다음에 겹침-가산 연산이 신호를 재구성하기 위해 이용된다.
블록 104에서, 선형예측(LP) 분석과 개방루프 피치 분석이 (통상 음성 부호화 알고리즘의 일부로서) 수행된다. 이 예시적인 실시예에서, 블록 104로부터 나오는 매개변수들은 임계대역들에서의 잡음 추정값들을 갱신하는 판단에 이용된다(블록 105). VAD판단은 잡음 갱신 판단으로서 이용될 수도 있다. 블록 105에서 갱신된 잡음에너지 추정값들은 크기조정이득들을 계산하기 위해 잡음감소 블록(103)에서 다음 프레임에 이용된다. 블록 106은 증대된 음성신호에 대한 음성부호화를 수행한다. 다른 응용들에서, 블록 106은 자동 음성인식시스템일 수 있다. 블록 104의 기능들은 음성부호화알고리즘의 일부분(integral part)일 수 있다는 점에 주의한다.
스펙트럼 분석
이산 푸리에 변환이 스펙트럼 분석 및 스펙트럼 에너지 추정을 수행하기 위해 이용된다. 주파수 분석은 50퍼센트 겹치는 256-지점 고속 푸리에 변환(FET)을 이용하여 프레임당 2번씩 행해진다(도 2에 예시됨). 분석 윈도우들은 모든 예견능 력이 이용되도록 놓인다. 제1윈도우의 시작은 음성부호화기의 현재 프레임 시작 후의 24개 샘플에 놓인다. 제2윈도우는 그 후의 128개 샘플에 놓인다. 해닝(Hanning) 윈도우의 제곱근(이것은 사인 윈도우에 등가임)은 주파수분석을 위해 입력신호를 가중하기 위해 이용되고 있다. 이 윈도우는 겹침-가산법에 특히 잘 맞다(그래서 이 특정 스펙트럼분석은 스펙트럼 감산 및 겹침-가산 분석/합성에 기초하여 잡음 억제 알고리즘에 이용된다). 제곱근 해닝 윈도우는
Figure 112006054774007-pct00003
에 의해 주어지고, 여기서 L FFT = 256은 FTT분석의 크기이다. 윈도우는 그것이 대칭적이기 때문에 절반만이 계산되고 저장된다(0부터 L FFT /2까지).
s'(n)은 잡음감소 프레임에서의 제1샘플에 해당하는 색인 0을 가지는 신호라고 하자(이 예시적인 실시예에서, 음성부호화기 프레임의 시작보다 24개 샘플들이 더 있음). 양 스펙트럼 분석을 위해 윈도우들에 들어 있는 신호들은 다음과 같이 얻어지고
Figure 112006054774007-pct00004
여기서 s'(n)은 현재 잡음감소 프레임에서의 제1샘플이다.
FFT는 양 윈도우 신호들에 대해 수행되어 프레임당 스펙트럼 매개변수들의 다음 두 집합들을 얻는다:
Figure 112006054774007-pct00005
FFT의 출력은 X R (k), k = 0~128, X I (k), k= 1~127로 표시되는 스펙트럼의 실수부 및 허수부를 준다. X R (0)는 0Hz(DC)의 스펙트럼에 해당하고 X R (128)은 6400Hz의 스펙트럼에 해당한다. 이 점들에서의 스펙트럼은 실수값으로만 되고 통상 후속하는 분석에서는 무시된다.
FFT분석 후, 결과적인 스펙트럼은 다음의 상한들을 가지는 간격들을 이용하여 임계대역들(주파수범위 0~6400Hz의 20개 대역들)로 나누어진다:
임계대역들 = {100.0, 200.0, 300.0, 400.0, 510.0, 630.0, 770.0, 920.0, 1080.0, 1270.0, 1480.0, 1720.0, 2000.0, 2320.0, 2700.0, 3150.0, 3700.0, 4400.0, 5300.0, 6350. 0}Hz.
D. Johnston, "Transform coding of audio signal using perceptual noise criteria," IEEE J. Select. Areas Commun., vol. 6, pp. 314-323, Feb. 1988 참조.
256-지점 FFT는 주파수분해능이 50Hz(6400/128)가 되게 한다. 그래서 스펙트럼의 DC성분을 무시한 후에는, 임계대역당 주파수빈들의 수는 M CB = {2,2,2,2,2,2,3,3,3,4,4,5,6,6,8,9,11,14,18,21}이다.
임계대역의 평균에너지는 다음과 같이 계산되고
Figure 112006054774007-pct00006
여기서 X R (k)과 X I (k)는 각각 k번째 주파수빈의 실수부 및 허수부이고 j i j i ={1, 3, 5, 7, 9, 11, 13, 16, 19, 22, 26, 30, 35, 41, 47, 55, 64, 75, 89, 107}에 의해 주어진 i번째 임계대역에서의 제1빈의 색인이다.
스펙트럼분석 모듈은 주파수빈당 에너지인 E BIN (k)를 제1의(처음의) 17개 임계대역들(DC성분을 제외한 74개 빈들)에 대해 계산한다:
Figure 112006054774007-pct00007
최종적으로, 스펙트럼분석 모듈은 평균 임계대역 에너지들(E CB )을 가산하는 것에 의해 20ms 프레임에서의 양쪽 FFT분석들에 대해 평균 총 에너지를 계산한다. 즉, 특정 스펙트럼분석을 위한 스펙트럼 에너지가 다음과 같이 계산되고:
Figure 112006054774007-pct00008
총 프레임 에너지가 프레임에서 양 스펙트럼분석들의 스펙트럼에너지들의 평균으로서 계산된다. 즉,
Figure 112006054774007-pct00009
스펙트럼분석 모듈의 출력매개변수들, 즉 임계대역당 평균에너지, 주파수빈당 에너지, 및 총 에너지는 VAD, 잡음감소, 및 비율선택 모듈들에서 사용된다.
8000샘플/s로 샘플링된 협대역 입력들의 경우, 12800샘플/s로 샘플링변환된 후, 스펙트럼의 양끝에는 내용물이 없고, 그래서 제1의 낮은 주파수의 임계대역뿐 아니라 나머지 3개의 고주파수 대역들은 출력매개변수들의 계산에서 고려되지 않는다(i=1~16의 대역들만이 고려됨).
음성 활동도 검출
위에서 설명된 스펙트럼분석은 프레임당 2번 수행된다.
Figure 112006054774007-pct00010
Figure 112006054774007-pct00011
는 제1 및 제2 스펙트럼분석들 각각을 위한 임계대역당 에너지 정보(수학식 (2)에 보인 것과 같음)를 나타낸다고 하자. 이전 프레임의 전체 프레임과 부분에 대한 임계대역당 에너지는 다음과 같이 계산되며
Figure 112006054774007-pct00012
여기서
Figure 112006054774007-pct00013
는 이전 프레임의 제2분석으로부터의 임계대역당 에너지 정보를 나타낸다. 그 다음에 임계대역당 신호-대-잡음비(SNR)가 다음과 같이 계산되며
Figure 112006054774007-pct00014
여기서 N CB (i)는 추정된 임계대역당 잡음에너지가고 다음 섹션에서 설명될 것이다. 그 다음에 프레임당 평균 SNR이 다음과 같이 계산되며
Figure 112006054774007-pct00015
여기서 광대역신호들의 경우에 b min =0이고 b max =19이며, 협대역신호들의 경우에는 b min =1이고 b max =16이다.
음성활동도(voice activity)는 프레임당 평균 SNR을 장기간 SNR의 함수인 특정 문턱값과 비교함으로써 검출된다. 장기간 SNR은 다음에 의해 주어지며
Figure 112006054774007-pct00016
여기서
Figure 112006054774007-pct00017
Figure 112006054774007-pct00018
는 각각 수학식 (12)와 (13)을 이용하여 계산되고, 그것들은 나중에 설명될 것이다.
Figure 112006054774007-pct00019
의 초기값은 45dB이다.
문턱은 장기간 SNR의 단편성(piece-wise) 선형함수이다. 두 함수들이 사용되는데 하나는 깨끗한 음성을 위한 것이고 하나는 잡음성 음성을 위한 것이다.
광대역 신호들의 경우, SNRLT < 35 (잡음성 음성)이면
th VAD = 0. 4346 SNR LT + 13.9575
그렇지 않으면(깨끗한 음성이면)
th VAD = 1.0333 SNR LT - 7
협대역 신호들의 경우, SNR LT < 29.6 (잡음성 음성)이면
th VAD = 0.313 SNR LT + 14.6
그렇지 않으면(깨끗한 음성이면)
th VAD =1.0333 SNR LT -7
게다가, VAD 판정에서의 히스테리시스는 활동적 음성기간의 끝에서의 빈번한 전환을 방지하기 위해 부가된다. 그것은 프레임이 연성잔류기간(soft hangover period)인 경우에 또는 만일 마지막 프레임이 활동적 음성프레임이라면 적용된다. 연상잔류기간은 2개의 연속하는 프레임보다 긴 각각의 활동적 음성버스트 뒤의 처음 10개 프레임으로 구성된다. 잡음성 음성(SNR LT < 35)의 경우 히스테리시스는
th VAD = 0.95th VAD
에 의해 VAD판정 문턱을 감소시킨다.
깨끗한 음성의 경우 히스테리시스는
th VAD = th VAD - 11
에 의해 VAD판정 문턱을 감소시킨다.
프레임당 평균 SNR이 VAD판정 문턱보다 크다면, 즉, SNRav > th VAD 라면, 프레임은 활동적 음성프레임이라 선언되고 VAD플래그 및 국소 VAD플래그는 1로 설정된다. 그렇지 않으면 VAD플래그와 국소 VAD플래그는 0으로 설정된다. 그러나 잡음성 음성의 경우에, VAD플래그는 강성잔류프레임들에서는 1로 강제된다. 즉, 하나 또는 2개의 비활동적 프레임들이 2개의 연속하는 프레임들보다 긴 음성기간을 뒤따른다(그러면 국소 VAD플래그는 0과 동일하게 설정되지만 VAD플래그는 1로 강제된다.
제1레벨의 잡음 추정 및 갱신
이 섹션에서, 총 잡음에너지, 상대 프레임에너지, 장기간 평균 잡음에너지 및 장기간 평균 프레임에너지의 갱신물, 임계대역당 평균 에너지, 및 잡음 정정계수가 계산된다. 게다가, 하향식 잡음에너지 초기화 및 갱신이 주어진다.
프레임당 총 잡음에너지는
Figure 112006054774007-pct00020
에 의해 주어지고, 여기서 N CB (i)는 임계대역당 추정된 잡음에너지가다.
프레임의 상대 에너지는 dB의 프레임 에너지와 장기간 평균에너지 사이의 차이로 주어진다. 상대 프레임에너지는
Figure 112006054774007-pct00021
에 의해 주어지고, 여기서 E t 는 수학식 (5)에서 주어진다.
장기간 평균 잡음에너지 또는 장기간 평균 프레임에너지는 프레임마다 갱신된다. 활동적 음성프레임들(VAD플래그 = 1)의 경우에, 장기간 평균 프레임에너지는 다음 수학식
Figure 112006054774007-pct00022
을 이용하여 갱신되고, 여기서 초기값
Figure 112006054774007-pct00023
= 45dB이다.
비활동적 음성프레임들(VAD플래그 = 0)의 경우에, 장기간 평균 잡음에너지는
Figure 112006054774007-pct00024
에 의해 갱신된다.
Figure 112006054774007-pct00025
의 초기값은 처음 4개의 프레임에 대해 N tot 에 동일하게 설정된다. 게다가, 처음 4개의 프레임에서,
Figure 112006054774007-pct00026
의 값은
Figure 112006054774007-pct00027
Figure 112006054774007-pct00028
+10에 의해 경계가 정해진다
임계대역당 프레임 에너지, 잡음 초기화, 및 하향 잡음 갱신 :
전체 프레임에 대한 임계대역당 프레임에너지는 프레임에서 양 스펙트럼분석들로부터의 에너지들을 평균하는 것에 의해 계산된다. 즉,
Figure 112006054774007-pct00029
임계대역당 잡음에너지 N CB (i)는 처음에는 0.03으로 초기화된다. 그러나, 처음 5개 프레임에서, 신호에너지가 너무 높지 않다면 또는 신호가 강한 고주파수 성분들을 가지지 않는다면, 잡음에너지는 임계대역당 에너지를 이용하여 초기화되어 잡음감소 알고리즘은 처리의 시작부터 바로 효율적일 수 있다. 2개의 고주파수비율들이 계산되는데, r 15 , 16 는 임계대역 15 및 16의 평균에너지 및 처음 10개 대역에서의 평균에너지 사이의 비율(양 스펙트럼 분석들의 평균)이고, r 18,19 는 대역 18 및 19에 대해 동일하게 하여 얻어진 비율이다.
처음 5개 프레임에서, 만일 E t < 49이고 r 15 , 16 < 2이고 r 18 ,19 < 1.5라면, 처음 3개 프레임에 대해,
Figure 112006054774007-pct00030
이고 다음 2개의 프레임에 대해 NCB(i)는
Figure 112006054774007-pct00031
에 의해 갱신된다.
다음 프레임들의 경우, 이 단계에서, 하향 잡음에너지 갱신(noise energy update downward)만이 임계대역들에 대해 수행되어 에너지는 배경잡음 에너지 미만이 된다. 먼저, 임시 갱신된 잡음에너지는
Figure 112006054774007-pct00032
와 같이 계산되고, 여기서
Figure 112006054774007-pct00033
는 이전 프레임으로부터의 제2스펙트럼분석에 해당한다.
그러면, i = 0~19에 대해, 만일 N tmp (i) < N CB (i)이면 N CB (i) = N tmp (i)이다.
만일 프레임이 비활동적 프레임으로서 선언된다면 제2레벨의 잡음 갱신이 나중에 N CB (i) = N tmp (i)로 설정함으로써 수행된다. 잡음에너지 갱신을 두 부분들로 단편화하는 이유는 잡음 갱신이 비활동적 음성프레임들 동안에만 실행될 수 있고 그래서 음성활동도 판정에 필요한 모든 매개변수들이 필요하기 때문이다. 그러나 이 매개변수들은 잡음 제거된 음성신호에 대해 실행되는 LP예측분석 및 개방루프 피치 분석에 의존한다. 가능한 한 정확한 잡음 추정을 해야하는 잡음감소 알고리즘의 경우, 잡음 추정 갱신은 잡음감소 실행 전에 하향식으로 갱신되고 나중에 프레임이 비활동적이라면 상향식으로 갱신된다. 하향식 잡음 갱신은 안전하고 음성활동도에 무관하게 행해질 수 있다.
잡음감소 :
잡음감소는 신호영역에 적용되고 그러면 잡음 제거된 신호는 겹침 및 가산을 이용하여 재구성된다. 이 감소는 각 임계대역의 스펙트럼을 gmin와 1사이로 제한되 고 그 임계대역의 신호-대-잡음비(SNR)로부터 도출된 크기조정이득에 의해 크기조정함으로써 수행된다. 잡음 억제에서의 새로운 특징은 신호 발성(signal voicing)에 관계된 특정 주파수보다 낮은 주파수들에 대해 처리가 주파수빈 기반이지만 임계대역 기반은 아니게 수행된다는 것이다. 그래서, 크기조정이득은 그 빈(bin)의 SNR로부터 도출된 모든 주파수빈에 적용된다(SNR은 그 빈에 포함된 임계대역의 잡음에너지에 의해 나누어진 빈에너지를 이용하여 계산된다). 이 새로운 특징은 고조파(harmoincs) 근처의 주파수들에서 에너지를 보존하여 고조파 사이에서의 잡음을 강하게 감소하면서 왜곡을 방지할 수 있다. 이 특징은 발성 신호들에만 이용될 수 있고, 비교적 짧은 피치 기간을 가진 신호들의 경우, 사용되는 주파수분석의 주파수 분해능이 제공될 수 있다. 그러나, 이것들은 정확히 고조파들 사이의 잡음이 대부분 인지가능한 신호들이다.
도 3은 개시된 절차의 개요를 보인다. 블록 301에서, 스펙트럼분석이 수행된다. 블록 302는 발성된 임계대역들의 수가 0보다 큰지를 확인한다. 만일 그렇다면 잡음감소가 블록 304에서 수행되어 빈마다(per bin) 처리가 처음 발성된 K개 대역들에서 수행되고 대역마다(per band) 처리가 나머지 대역들에서 수행된다. 만일 K = 0이면 대역마다 처리는 모든 임계대역들에 적용된다. 스펙트럼에 대한 잡음감소 후, 블록 305는 역DFT 분석을 수행하고 겹침-가산연산이 이용되어 나중에 설명될 바와 같이 증대된 음성신호를 재구성한다.
최소 크기조정이득(gmin)이 최대로 허용된 잡음감소 dB인 NR max 로부터 도출된 다. 최대로 허용된 잡음감소는 14dB의 디폴트값을 가진다. 그래서 최소 크기조정이득은
Figure 112006054774007-pct00034
로 주어지고 그것은 14dB의 디폴트값에 대해 0.199953이다.
VAD = 0을 가지는 비활동적 프레임들의 경우에, 동일한 크기조정은 전체 스펙트럼에 적용되고 잡음 억제가 가동된다면(gmin이 1보다 작다면) gs = 0.9gmin로 주어진다. 즉, 스펙트럼의 크기조정된 실수 및 허수 성분들은
Figure 112006054774007-pct00035
로 주어진다.
협대역 입력들의 경우, 수학식 (19)의 상한들은 79(3950Hz까지)로 설정된다는 점에 주의한다.
활동적 프레임들의 경우, 크기조정이득은 처음 발성된 대역들에 대해 임계대역당의 또는 빈당의 SNR에 관계하여 계산된다. 만일 K VOIC > 0이라면 빈마다 잡음 억제는 처음 K VOIC 대역들에 대해 수행된다. 대역마다 잡음 억제는 나머지 대역들에 대해 수행된다. K VOIC = 0인 경우에 대역마다 잡음 억제는 전체 스펙트럼에 이용된다. K VOIC 의 값은 나중에 설명될 바와 같이 갱신된다. K VOIC 의 최대값은 17이고, 그러므로 빈당 처리는 최대주파수 3700Hz에 상응하는 처음 17개 임계대역에만 적용될 수 있다. 빈당 처리가 이용될 수 있는 빈들의 최대 수는 74(처음 17개 대역의 빈(bin) 수)이다. 이 섹션의 나중에 설명될 강성잔류프레임들에 대해 예외가 만들어진다.
대체 구현예에서, K VOIC 의 값은 고정될 수 있다. 이 경우, 모든 유형들의 음성프레임들에서, 빈마다 처리가 특정 대역까지 수행되고 대역마다 처리는 다른 대역들에 적용된다.
특정 임계대역에서의 또는 특정 주파수빈에 대한 크기조정이득은, SNR의 함수로서 계산되고
Figure 112006054774007-pct00036
로 주어진다.
k s c s 의 값들은 SNR = 에 대해 g s = g min , 그리고 SNR = 45에 대해 g s = 1과 같이 결정된다. 즉, 1dB 이하에서의 SNR들의 경우, 크기조정은 g s 로 제한되고 45dB 이상에서의 SNR들의 경우, 주어진 임계대역에서는 잡음 억제가 수행되지 않는다(g s = 1). 그래서, 이 두 끝점들이 주어지면, 수학식 (20)에서의 k s c s 의 값들은 다음에 의해 주어진다:
Figure 112006054774007-pct00037
수학식 (20)에서의 변수 SNR은 처리 유형에 의존하여 임계대역당 SNR인 SNR CB (i), 또는 주파수빈당 SNR인 SNR BN (k) 중의 하나이다.
임계대역당 SNR은 프레임에서의 제1스펙트럼분석의 경우에는 다음과 같이 계산되고
Figure 112006054774007-pct00038
제2스펙트럼분석의 경우, SNR은 다음과 같이 계산되며,
Figure 112006054774007-pct00039
여기서
Figure 112006054774007-pct00040
Figure 112006054774007-pct00041
는 각각 제1 및 제2 스펙트럼분석들에 대한 임계대역당 에너지 정보(수학식 (2)로 계산됨)를 나타내고,
Figure 112006054774007-pct00042
는 이전 프레임의 제2분석으로부터의 임계대역당 에너지 정보이고, N CB(i)는 임계대역당 잡음에너지 추정값을 나타낸다.
특정 임계대역(i)에서의 임계 빈당 SNR은 프레임에서의 제1스펙트럼분석의 경우에는 다음과 같이 계산되고
Figure 112006054774007-pct00043
제2스펙트럼분석의 경우, SNR은 다음과 같이 계산되며
Figure 112006054774007-pct00044
여기서
Figure 112006054774007-pct00045
Figure 112006054774007-pct00046
는 각각 제1 및 제2 스펙트럼분석들에 대한 주파수빈당 에너지들(수학식 (3)으로 계산됨)을 나타내며,
Figure 112006054774007-pct00047
는 이전 프레임의 제2분석으로부터의 주파수빈당 에너지 정보이며, N CB(i)는 임계대역당 잡음에너지 추정값을 나 타내며, j i i번째 임계대역에서의 제1빈의 색인이고 M CB (i)는 위에서 정의된 임계대역(i)에서의 빈들의 수이다.
색인 i를 가지는 대역에 대한 임계대역마다의 처리의 경우에, 수학식 (22)에서와 같은 크기조정이득을 결정한 후, 그리고 수학식 (24) 또는 (25)에서 정의된 SNR을 이용하면, 실제 크기조정은 모든 주파수분석마다 갱신되는 평활화된 크기조정이득을 이용하여 다음과 같이 수행된다:
Figure 112006054774007-pct00048
이 발명에서, 평활화계수(smoothing factor)가 적응적이고 이득 자체에 역의 관계를 이룬다는 신규한 특징이 개시된다. 이 예시적인 실시예에서 평활화계수는 αgs = l-gs로 주어진다. 즉, 평활화는 이득(gs)이 작을수록 더 강하다. 이 접근법은 발성개시를 위한 경우처럼 낮은 SNR의 프레임들이 앞서는 높은 SNR의 음성세그먼트들에서의 왜곡을 방지한다. 예를 들면 비발성 음성프레임들에서 SNR은 낮고 그래서 강한 크기조정이득이 스펙트럼에서 잡음을 줄이기 위해 이용된다. 만일 발성개시가 비발성 프레임을 뒤따른다면, SNR은 더 높게 되고, 만일 이득 평활화가 크기조정이득의 신속한 갱신을 방지한다면, 열악한 성능에 이르게 할 발성개시에는 강한 크기조정이 사용되기 쉽다. 제안된 접근법에서, 평활화 절차는 신속히 적합하게 될 수 있고 개시(onset)에 대해 더 낮은 크기조정이득을 이용한다.
임계대역에서의 크기조정은 다음과 같이 수행되며
Figure 112006054774007-pct00049
여기서 j i 는 임계대역(i)에서 처음 빈의 색인이고 M CB (i)는 그 임계대역에서 빈들의 수이다.
색인 i를 가지는 대역에서의 빈마다 처리의 경우에, 수학식 (20)에서처럼 크기조정이득을 결정한 후, 그리고 수학식 (24) 또는 (25)에서 정의된 바와 같은 SNR을 이용하면, 실제 크기조정은 모든 주파수분석마다 갱신되는 평활화된 크기조정이득을 이용하여 다음과 같이 수행되며,
Figure 112006054774007-pct00050
여기서 수학식 (26)과 마찬가지로 αg s = 1- gs이다.
이득들의 일시적인 평활화는 가청 에너지 진동들을 방지하는 반면 αg s를 이용한 평활화 제어는 낮은 SNR의 프레임들이 앞서는 높은 SNR 음성세그먼트들에서의 왜곡을 방지하는데, 예를 들면 발성개시들의 경우와 같다.
임계대역(i)에서의 크기조정은 다음과 같이 수행되며,
Figure 112006054774007-pct00051
여기서 j i 는 임계대역(i)에서 처음 빈의 색인이고 M CB (i)는 그 임계대역에서 빈들의 수이다.
평활화된 크기조정이득들인 g BIN ,LP (k) 및 g CB,LP (i)는 초기에 1로 설정된다. 비활동적 프레임이 처리되는 각 시간에(VAD=0), 평활화된 이득값들은 수학식 (18)에서 정의된 gmin으로 재설정된다.
위에서 언급된 바와 같이, 만일 K VOIC > 0이면 빈마다 잡음 억제가 처음 K VOIC 대역들에 대해 수행되고, 대역마다 잡음 억제는 전술한 절차들을 이용하여 나머지 대역들에 대해 수행된다. 매 스펙트럼분석에서 평활화된 크기조정이득들인 g CB, LP (i)는 모든 임계대역들에 대해 갱신된다(빈마다 처리로 처리되는 발성 대역들의 경우에도 - 이 경우 g CB, LP (i)는 대역 i에 속한 g BIN , LP (k)의 평균으로 갱신된다). 마찬가지로, 크기조정이득들인 g BIN , LP (k)는 처음 17개 대역들의 모든 주파수빈들(빈 74까지)에 대해 갱신된다. 밴드마다 처리로 처리된 대역들의 경우 그것들은 그것들을 이 17개 특정 대역들에서 g CB, LP (i)와 동일하게 설정하는 것에 의해 갱신된다.
깨끗한 음성의 경우에, 잡음 억제는 활동적 음성프레임들(VAD=1)에서 수행되지 않는다. 이것은 모든 임계대역들에서 최대 잡음에너지인 max(N CB (i)), i = 0,..., 19를 찾음으로써 검출되고, 만일 이 값이 15 이하라면 잡음 억제는 수행되지 않는다.
위에서 언급된 바와 같이, 비활동적 프레임들(VAD=0)의 경우, 0.9gmin의 크기조정은 전체 스펙트럼에 적용되고, 그것은 일정한 잡음 마루를 제거하는 것과 동등 하다. VAD 단기잔류 프레임들의 경우(VAD=1이고 local_VAD=0), 대역마다 처리는 위에서 설명된 바와 같이 처음 10개 대역에 적용되고(1700Hz에 해당), 스펙트럼의 나머지에 대해서는, 스펙트럼의 나머지를 일정한 값 gmin로 크기조정하는 것에 의해 일정한 잡음 마루가 감산된다. 이 방책은 고주파수 잡음에너지 진동들을 상당히 감소시킨다. 10번째 대역 위의 이 대역들의 경우, 평활화된 크기조정이득들인 g CB,LP (i)는 재설정되지 않지만 gs = g min 와 수학식 (26)을 이용하여 갱신되고 빈마다 평활화된 크기조정이득들인 g BIN ,LP (k)는 그것들을 대응하는 임계대역들에서 g CB, LP (i)와 동일하게 설정하는 것에 의해 갱신된다.
위에서 설명된 절차는 잡음감소 알고리즘이 처리되는 음성프레임의 성질에 의존하는 부류특화 잡음감소로 이해될 수 있다. 이것은 도 4에 도시되어 있다. 블록 401은 VAD플래그가 0(비활동적 음성)인지를 확인한다. 만일 이것이 그 경우라면 동일한 크기조정이득을 전체 스펙트럼에 적용하는 것에 의해 일정한 잡음 마루가 스펙트럼으로부터 제거된다. 그렇지 않다면, 블록 403은 프레임이 VAD 잔류 프레임인지를 확인한다. 만일 이것이 그 경우라면 대역마다 처리가 처음 10개 대역에 이용되고 동일한 크기조정이득이 나머지 대역들에 이용된다(블록 406). 그렇지 않다면, 블록 405는 발성이 스펙트럼의 처음 대역들에서 검출되는지를 확인한다. 만일 이것이 그 경우라면 빈마다 처리가 처음 K개 발성대역들에서 수행되고 대역마다 처리는 나머지 대역들에서 수행된다(블록 406). 발성 대역들이 검출되지 않는다면 대역마다 처리는 모든 임계대역들에서 수행된다(블록 407).
협대역 신호들의 전처리의 경우에(12800Hz로 업샘플링됨), 잡음 억제는 처음 17개 대역에 대해 수행된다(3700Hz까지). 3700Hz와 4000Hz 사이의 나머지 5개 주파수빈의 경우, 스펙트럼은 3700Hz의 빈에 마지막 크기조정이득 gs를 이용하여 크기조정된다. 스펙트럼의 나머지(4000Hz부터 6400Hz까지)에 대해, 스펙트럼은 제로화된다.
잡음 제거된 신호의 재구성:
크기조정된 스펙트럼 성분들인 X' R (k) 및 X' I (k)를 결정한 후, 역FFT가 크기조정된 스펙트럼에 적용되어 시간영역에서 윈도우 내에 있는 잡음 제거된 신호를 얻는다.
Figure 112006054774007-pct00052
이것은 잡음 제거된 윈도우 내의 신호들인
Figure 112006054774007-pct00053
Figure 112006054774007-pct00054
를 얻기 위해 프레임의 양 스펙트럼분석들에 반복된다. 모든 절반 프레임마다, 신호는 분석의 겹침부분들을 위한 겹침-가산 동작을 이용하여 재구성된다. 제곱근 해닝 윈도우가 스펙트럼분석 전에 원본신호에 대해 사용되므로, 동일한 위도우가 겹침-가산 동작 전의 역FFT의 출력에 적용된다. 그래서, 이중 윈도우의 잡음 제거된 신호는 다음에 의해 주어진다:
Figure 112006054774007-pct00055
분석윈도우의 처음 반분의 경우, 잡음 제거된 신호를 재구성하기 위한 겹침-가산 동작은 다음과 같이 수행되며:
Figure 112006054774007-pct00056
그리고 분석 윈도우의 제2절반의 경우, 잡음 제거된 신호를 재구성하기 위한 동작-가산 정보는 다음과 같고
Figure 112006054774007-pct00057
여기서
Figure 112006054774007-pct00058
는 이전 프레임의 제2분석으로부터의 이중의 윈도우 내에 있는 잡음 제거된 신호이다.
겹침-가산동작으로, 음성 부호화기 프레임과 잡음감소 프레임 사이에 24 샘플 시프트가 있으므로, 잡음 제거된 신호는 현재 프레임 외에도 예견능력으로부터 샘플링된 24개까지 재구성될 수 있다. 그러나, 다른 128개 샘플이 선형예측(LP) 분석 및 개방루프 피치 분석을 위해 음성부호화기에 의해 필요해진 예견능력을 완성하는 것이 여전히 필요하다. 이 부분은 겹침-가산동작을 수행하는 일 없이 잡음 제거된 윈도우 내의 신호
Figure 112006054774007-pct00059
의 제2의 절반을 역 윈도우잉하는 것에 의해 임시적으로 얻어진다. 즉
Figure 112006054774007-pct00060
신호의 이 부분이 겹침-가산 동작을 이용하여 다음 프레임 내에서 적당히 재계산됨에 주의한다.
잡음에너지 추정값 갱신
이 모듈은 잡음 억제를 위해 임계대역당 잡음에너지 추정값들을 갱신한다. 갱신은 비활동적 음성기간들 동안 수행된다. 그러나, 위에서 수행된 VAD판정은, 임계대역당 SNR에 기초한 것으로, 잡음에너지 추정값들이 갱신되는지를 결정하기 위해 이용되지 않는다. 다른 판정이 임계대역당 SNR에 독립적으로 다른 매개변수들에 기초하여 수행된다. 잡음 갱신 판정을 위해 이용되는 매개변수들은, 피치 안정도, 신호 비-정상성(non-stationarity), 발성, 및 2차 및 16차 LP 잔류에러 에너지들 사이의 비율이고 잡음레벨 변동들에 대해 일반적으로 낮은 민감도를 가진다.
잡음 갱신을 위해 부호화기 VAD 판정을 이용하지 않는 이유는 잡음추정을 신속히 변화하는 잡음레벨들에 대해 강건하게(rbust) 만드는 것이다. 부호화기 VAD 판정이 잡음 갱신을 위해 이용된다면, 잡음레벨의 갑작스런 증가는 비활동적 음성프레임들에 대해서 조차도 SNR의 증가를 야기하여, 잡음 추정기가 갱신되는 것을 막을 것이고, 이는 다음 프레임들에서 SNR을 높게 유지하는 등의 일을 유발할 것이다. 결과적으로, 잡음 갱신은 차단될 것이고 약간의 다른 논리가 잡음 적응을 재개하는데 필요할 것이다.
이 예시적인 실시예에서, 개방루프 피치 분석이 부호화기에서 수행되어 프레임당 3개의 개방루프 피치 추정값들, 즉 제1절반프레임, 제2절반프레임, 및 예견능력에 각각 대응하는 d 0 , d 1 , 및 d 2 를 계산한다. 피치 안정도 카운터는 다음과 같이 계산되며
Figure 112006054774007-pct00061
여기서 d- 1는 이전 프레임의 제2절반프레임의 래그(lag)이다. 이 예시적인 실시예에서, 122보다 큰 피치래그들에 대해, 개방루프 피치 검색모듈은 d 2 = d 1 으로 설정한다. 그래서, 그런 래그들에 대해 수학식 (31)에서의 pc의 값은 3/2가 곱해져 수학식에서 누락되는 3번째 항을 보상한다. 피치 안정도는 pc의 값이 12미만이라면 진짜이다. 게다가, 낮은 발성을 가지는 프레임들의 경우, pc는 12로 설정되어 피치 불안정성을 나타낸다. 즉,
Figure 112006054774007-pct00062
여기서 C norm (d)는 정규화된 원시 상관(normalized raw correlation)이고 r e 는 배경잡음의 존재 시에 정규화된 상관의 감소를 보상하기 위해 정규화된 상관에 부가되는 옵션적인 상관이다. 이 예시적인 실시예에서, 정규화된 상관은 추림되어 있는 가중된 음성신호에 기초하여 계산되고 다음과 같이 주어지며
Figure 112006054774007-pct00063
여기서 합산 한계는 지연 자체에 의존한다. 이 예시적인 실시예에서, 개방루프 피치 분석에 이용되는 가중된 신호는 2로 추림되고 합산 한계들은
Figure 112006054774007-pct00064
에 따라 주어진다.
신호 비-정상성 추정은 임계대역당 에너지와 임계대역당 평균 장기간 에너지 사이의 비율들의 적(곱)에 기초하여 수행된다.
임계대역당 평균 장기간 에너지는 다음에 의해 갱신되며
Figure 112006054774007-pct00065
여기서 광대역 신호들의 경우에 b min =0 및 b max =19이고, 협대역 신호들의 경우에 b min =1 및 b max =16이고,
Figure 112006054774007-pct00066
는 수학식 (14)에 정의된 임계대역당 프레임에너지이다. 갱신계수(αe)는 수학식 (5)에서 정의된 총 프레임에너지의 선형함수이고, 다음과 같이 주어진다:
광대역 신호들의 경우: αe = 0.0245E tot - 0.235이고 0.5 ≤ αe ≤ 0.99.
협대역 신호들의 경우: αe = 0.00091E tot + 0.3185이고 0.5 ≤αe ≤ 0.999.
프레임 비-정상성은 프레임에너지와 임계대역당 평균 장기간 에너지 사이의 비율들의 적에 의해 주어진다. 즉,
Figure 112006054774007-pct00067
잡음 갱신을 위한 발성계수는 다음에 의해 주어진다:
Figure 112006054774007-pct00068
최종적으로, 2차 및 16차 분석 후의 LP잔여에너지들 사이의 비율은 다음에 의해 주어지며
Figure 112006054774007-pct00069
여기서 E(2)와 E(16)은 2차 및 16차 분석 후의 LP잔여에너지들이고, 이 기술분야의 당업자에게 잘 알려진 레빈슨-더빈(Levinson-Durbin) 재귀(recursion)에서 계산된다. 이 비율은 신호의 스펙트럼 포락선을 나타내기 위해서는 더 높은 차수의 LP가 일반적으로 잡음보다는 음성신호를 위해 필요하다는 사실을 반영한다. 바꾸어 말하면, E(2)와 E(16) 사이의 차이는 활동적 음성의 경우보다 잡음의 경우에 더 낮다고 추측된다.
갱신 판정은 변수 noise _ update에 기초하여 결정되는데 이 변수는 초기에는 6으로 설정되고 비활동적 프레임이 검출된다면 1만큼 감소되고 활동적 프레임이 검출된다면 2만큼 감소된다. 게다가, noise _ update는 0과 6으로 경계가 정해진다. 잡음에너지들은 noise_update = 0일 때만 갱신된다.
변수 noise _ update의 값은 각 프레임에서 다음과 같이 갱신된다:
If(nonstat>th stat )OR(pc<12)OR(voicing>0.85)OR(resid _ratio>th resid )
noise_update = noise_update + 2
Else
noise_update = noise_update-1
여기서 광대역 신호들의 경우 th stat =350000 및 th resid =1.9이고, 협대역 신호들의 경우 th sta t =500000 이고 th resid =11이다.
바꾸어 말하면, 프레임들은
(nonstat th stat )AND(pc 12)AND(voicing 0.85)AND(resid _ ratio th resid )
일 때 잡음 갱신을 위해 비활동적으로 선언되고 잔류하는 6개 프레임들은 잡음 갱신이 일어나기 전에 이용된다.
그래서, 만일 noise_update=0이면,
i = 0~19에 대해 N CB (i) = N tmp (i)
여기서 N tmp (i)는 수학식 (17)에서 미리 계산된 임시 갱신된 잡음에너지가다.
발성 차단주파수의 갱신 :
그 아래의 신호가 발성된 것으로 간주되는 차단주파수는 갱신된다. 이 주파수는 잡음억제가 빈 처리를 이용하여 수행되는 임게대역들의 수를 결정하는데 이용된다.
먼저, 발성 계량값은 다음과 같이 계산되며
Figure 112006054774007-pct00070
발성 차단주파수는 다음에 의해 주어진다:
Figure 112006054774007-pct00071
그 다음에, f c 를 초과하지 않는 상위주파수를 가지는 임계대역들의 수(K voic )가 결정된다. 325 ≤ f c ≤ 3700의 경계들이 빈마다 처리가 최소 3개의 대역들과 최대 17개 대역들(위에서 정의된 임계대역들의 상한들을 말함)에 대해 수행되도록 설정된다. 발성측정 계산에서 더 많은 가중치가 예견능력의 정규화된 상관에 주어지는데 결정된 발성 대역들의 수가 다음 프레임에서 이용될 것이기 때문임에 주의한다.
그래서, 다음 프레임에서, 처음 K voic 임계대역들의 경우, 잡음 억제는 위에서 설명된 바와 같이 빈마다 처리를 이용할 것이다.
낮은 발성을 가지는 프레임들에 대해 그리고 큰 피치 지연들에 대해, 임계대역마다 처리만이 이용되고 그래서 K voic 는 0으로 설정된다. 다음 조건이 이용된다:
Figure 112006054774007-pct00072
물론, 많은 다른 변형들과 개조들이 가능하다. 본 발명의 실시예들 및 관련 도면들의 위에서 설명된 예시적 설명의 견지에서, 그러한 다른 변형들과 개조들은 이 기술분야의 당업자에게 이제 명백하게 될 것이다. 그러한 다른 변형들이 본 발명의 정신과 범위로부터 벗어나는 일없이 행해질 수 있을 것임 또한 명백할 것이다.

Claims (125)

  1. 음성신호의 잡음 억제를 위한 방법에 있어서,
    주파수 분석을 수행하여 복수의 주파수 빈들을 포함하는 음성신호의 스펙트럼영역 표현을 생성하는 단계; 및
    주파수 빈들을 다수의 주파수대역들로 그룹화하는 단계를 포함하며,
    발성된 음성 활동도가 음성 프레임에서 검출될 때, 잡음 억제가 제1수의 주파수대역들에 대해 주파수 빈마다 수행되고 잡음 억제는 제2수의 주파수대역들에 대해 주파수대역마다 수행되는 것을 특징으로 하는 음성 신호의 잡음 억제를 위한 방법.
  2. 제1항에 있어서, 상기 주파수대역들의 제1수는 발성되는 주파수대역들의 수에 따라 결정되는, 음성 신호의 잡음 억제 방법.
  3. 제1항에 있어서, 상기 주파수대역들의 제1수는 음성 프레임이 발성된다고 간주되는 상한 주파수인 발성 차단주파수에 대해 결정되는, 음성 신호의 잡음 억제 방법.
  4. 제3항에 있어서, 상기 제1수의 주파수대역들은 발성 차단주파수를 초과하지 않는 상위주파수를 가지는 음성 프레임의 모든 주파수대역들을 포함하는, 음성 신호의 잡음 억제 방법.
  5. 제1항에 있어서, 상기 주파수대역들의 제1수는 기설정된 정수인, 음성 신호의 잡음 억제 방법.
  6. 제1항에 있어서, 음성 프레임의 주파수대역들이 발성되지 않는다면, 잡음 억제는 모든 주파수대역들에 대해 주파수대역마다 수행되는, 음성 신호의 잡음 억제 방법.
  7. 제6항에 있어서, 상기 음성신호는 다수의 샘플을 포함하는 음성프레임들을 포함하고 제1항의 방법은 음성프레임의 잡음을 억제하는데 적용되는, 음성 신호의 잡음 억제 방법.
  8. 제7항에 있어서, 음성프레임의 제1샘플에 대해 m개 샘플만큼 오프셋된 분석윈도우를 이용하여 상기 주파수 분석을 수행하는 단계를 포함하는, 음성 신호의 잡음 억제 방법.
  9. 제7항에 있어서,
    음성프레임의 제1샘플에 대해 m개 샘플만큼 오프셋된 제1분석윈도우와 음성프레임의 제1샘플에 대해 p개 샘플만큼 오프셋된 제2주파수분석윈도우를 이용하여 제1주파수분석을 수행하는 단계를 포함하는, 음성 신호의 잡음 억제 방법.
  10. 제9항에 있어서, m = 24이고 p = 128인, 음성 신호의 잡음 억제 방법.
  11. 제9항에 있어서, 상기 제2분석윈도우는 음성신호의 상기 음성프레임부터 후속하는 음성프레임까지 연장하는 예견능력부를 포함하는, 음성 신호의 잡음 억제 방법.
  12. 제1항에 있어서, 상기 제1수의 주파수 대역들에 대한 크기조정이득을 주파수 빈들에 적용하고 그리고 상기 제2수의 주파수 대역들에 대해 주파수 대역들의 이득을 크기 조정하는 것에 의해 잡음 억제를 수행하는 단계를 포함하는, 음성 신호의 잡음 억제 방법.
  13. 제1항에 있어서, 잡음 억제가 주파수빈마다 수행될 때, 상기 방법은 주파수빈에 대해 주파수빈 특화 크기조정이득을 결정하는 단계를 더 포함하는, 음성 신호의 잡음 억제 방법.
  14. 제1항에 있어서, 잡음 억제가 주파수대역마다 수행될 때, 상기 방법은 주파수대역에 대해 주파수대역 특화 크기조정이득을 결정하는 단계를 더 포함하는, 음성 신호의 잡음 억제 방법.
  15. 제6항에 있어서, 모든 주파수대역들에 대해 일정한 크기조정이득을 적용함으로써 잡음 억제를 수행하는 단계를 포함하는, 음성 신호의 잡음 억제 방법.
  16. 제13항에 있어서, 주파수빈에 대해 결정된 신호-대-노이즈비(SNR)에 관련한 주파수빈에 대해 주파수빈 특화 크기조정이득을 위한 값을 결정하는 단계를 포함하는, 음성 신호의 잡음 억제 방법.
  17. 제14항에 있어서, 주파수대역에 대해 결정된 신호-대-노이즈비(SNR)에 관련한 주파수대역에 대해 주파수대역 특화 크기조정이득을 위한 값을 결정하는 단계를 포함하는, 음성 신호의 잡음 억제 방법.
  18. 제16항에 있어서, 제1 및 제2 주파수분석들의 각각에 대해 제16항의 단계들을 수행하는 단계를 포함하는, 음성 신호의 잡음 억제 방법.
  19. 제17항에 있어서, 제1 및 제2 주파수분석들의 각각에 대해 제17항의 단계들을 수행하는 단계를 포함하는, 음성 신호의 잡음 억제 방법.
  20. 제12항 내지 제14항 중 어느 한 항에 있어서, 상기 크기조정이득은 평활화된 크기조정이득인, 음성 신호의 잡음 억제 방법.
  21. 제12항 내지 제14항 중 어느 한 항에 있어서, 특정 주파수빈 또는 특정 주파수대역에 대해 크기조정이득에 역 비례하는 값을 가지는 평활화계수를 이용하여 특정 주파수빈 또는 특정 주파수대역에 적용하려는 평활화된 크기조정이득을 계산하는 단계를 포함하는, 음성 신호의 잡음 억제 방법.
  22. 제12항 내지 제14항 중 어느 한 항에 있어서, 크기조정이득의 값들이 작을수록 평활화가 더 강해지도록 결정된 값을 가지는 평활화계수를 이용하여 특정 주파수빈 또는 특정 주파수대역에 적용하려는 평활화된 크기조정이득을 계산하는 단계를 포함하는, 음성 신호의 잡음 억제 방법.
  23. 제13항 또는 제14항에 있어서, 크기조정이득의 값을 결정하는 단계는 음성프레임당 n번 발생하고 n은 1보다 큰, 음성 신호의 잡음 억제 방법.
  24. 제23항에 있어서, n = 2인, 음성 신호의 잡음 억제 방법.
  25. 제13항 또는 제14항에 있어서, 크기조정이득의 값을 음성프레임당 n번 결정하는 단계로서, n은 1보다 크고, 발성 차단주파수는 적어도 부분적으로는 이전 음성프레임의 음성신호의 함수인, 음성 신호의 잡음 억제 방법.
  26. 제13항에 있어서, 주파수빈마다의 잡음 억제는 17개 대역에 상응하는 최대 74개 빈들에 대해 수행되는, 음성 신호의 잡음 억제 방법.
  27. 제13항에 있어서, 주파수빈마다의 잡음 억제는 주파수 3700Hz에 상응하는 최대 수의 주파수빈들에 대해 수행되는, 음성 신호의 잡음 억제 방법.
  28. 제16항에 있어서, 제1 SNR값에 대해, 크기조정이득의 값은 최소값으로 설정되고, 제1 SNR값보다 큰 제2 SNR값에 대해 크기조정이득 값은 1로 설정되는, 음성 신호의 잡음 억제 방법.
  29. 제28항에 있어서, 제1 SNR값은 1dB 이하이고, 제2 SNR값은 45dB 이상인, 음성 신호의 잡음 억제 방법.
  30. 제20항에 있어서, 활동적 음성을 담고 있지 않은 음성신호의 구역들을 검출하는 단계를 더 포함하는, 음성 신호의 잡음 억제 방법.
  31. 제30항에 있어서, 활동적 음성을 담고 있지 않은 음성신호의 구역을 검출하는 것에 응답하여 평활화된 크기조정이득을 최소값으로 재설정하는 단계를 더 포함하는, 음성 신호의 잡음 억제 방법.
  32. 제7항에 있어서, 잡음 억제는 복수의 주파수대역들의 최대 잡음에너지가 문턱값 미만일 때에는 수행되지 않는, 음성 신호의 잡음 억제 방법.
  33. 제7항에 있어서, 단기잔류 음성프레임의 발생에 응답하여, 제1 x개 주파수대역들에 대해 주파수대역마다 결정되는 크기조정이득을 적용함으로써 잡음 억제를 수행하고 나머지 주파수대역들에 대해 크기조정이득의 단일 값을 적용함으로써 잡음 억제를 수행하는, 음성 신호의 잡음 억제 방법.
  34. 제33항에 있어서, 제1 x개 주파수대역들은 1700Hz까지의 주파수에 상응하는, 음성 신호의 잡음 억제 방법.
  35. 제20항에 있어서, 협대역 음성신호에 대해 상기 방법은 3700Hz까지의 주파수에 상응하는 제1 x개 주파수대역들에 대해 주파수대역마다 결정되는 평활화된 크기조정이득들을 적용함으로써 잡음 억제를 수행하는 단계, 3700Hz에 상응하는 주파수빈에서의 크기조정이득의 값을 3700Hz와 4000Hz 사이의 주파수빈들에 적용함으로써 잡음 억제를 수행하는 단계, 및 음성신호의 주파수 스펙트럼의 나머지 주파수대역들을 제로화하는 단계를 더 포함하는, 음성 신호의 잡음 억제 방법.
  36. 제35항에 있어서, 협대역 음성신호는 12800Hz로 업샘플링된 것인, 음성 신호의 잡음 억제 방법.
  37. 제3항에 있어서, 계산된 발성 계량값을 이용하여 발성 차단주파수를 결정하는 단계를 더 포함하는, 음성 신호의 잡음 억제 방법.
  38. 제37항에 있어서, 상기 발성 차단주파수를 초과하지 않는 상위주파수를 가지는 다수의 임계대역을 결정하는 단계로서, 경계들은 주파수빈마다의 잡음 억제가 최소 x개 대역 및 최대 y개 대역들에 대해 수행되도록 설정되는 단계를 더 포함하는, 음성 신호의 잡음 억제 방법.
  39. 제38항에 있어서, x = 3이고 y = 17인, 음성 신호의 잡음 억제 방법.
  40. 제37항에 있어서, 상기 발성 차단주파수는 325Hz 이상이고 3700Hz 이하가 되도록 경계가 정해지는, 음성 신호의 잡음 억제 방법.
  41. 음성신호의 잡음을 억제하기 위한 기기에 있어서, 상기 기기는,
    주파수 분석을 수행하여 복수의 주파수 빈들을 포함하는 음성신호의 스펙트럼영역 표현을 생성하도록; 그리고
    주파수 빈들을 다수의 주파수대역들로 그룹화하도록 구성되며,
    상기 기기는 발성된 음성 활동도를 검출하도록 구성되고 발성된 음성 활동도가 음성 프레임에서 검출될 때, 제1수의 주파수대역들에 대해 주파수 빈마다 잡음 억제를 수행하고 제2수의 주파수대역들에 대해 주파수대역마다 잡음 억제를 수행하는 것을 특징으로 하는, 음성 신호의 잡음 억제 기기.
  42. 제41항에 있어서, 상기 주파수대역들의 제1수는 발성되는 주파수대역들의 수에 따라 결정되는, 음성 신호의 잡음 억제 기기.
  43. 제41항에 있어서, 상기 기기는 음성 프레임이 발성된다고 간주되는 상한 주파수인 발성 차단주파수에 대해 상기 제1수의 주파수대역들을 결정하도록 구성되는, 음성 신호의 잡음 억제 기기.
  44. 제43항에 있어서, 상기 제1수의 주파수대역들은 발성 차단주파수를 초과하지 않는 상위주파수를 가지는 음성신호의 모든 주파수대역들을 포함하는, 음성 신호의 잡음 억제 기기.
  45. 제41항에 있어서, 상기 주파수대역들의 제1수는 기설정된 정수인, 음성 신호의 잡음 억제 기기.
  46. 제41항에 있어서, 상기 기기는 음성 프레임의 주파수대역들이 발성되지 않을 때 모든 주파수대역들에 대해 주파수대역마다 잡음 억제를 수행하도록 구성된, 음성 신호의 잡음 억제 기기.
  47. 제41항에 있어서, 상기 음성신호는 다수의 샘플을 포함하는 음성프레임들을 포함하고 상기 기기는 음성프레임의 잡음을 억제하도록 구성된, 음성 신호의 잡음 억제 기기.
  48. 제47항에 있어서, 상기 기기는 음성프레임의 제1샘플에 대해 m개 샘플만큼 오프셋된 분석윈도우를 이용하여 상기 주파수 분석을 수행하도록 구성된, 음성 신호의 잡음 억제 기기.
  49. 제47항에 있어서, 음성프레임의 제1샘플에 대해 m개 샘플만큼 오프셋된 제1분석윈도우와 음성프레임의 제1샘플에 대해 p개 샘플만큼 오프셋된 제2주파수분석윈도우를 이용하여 제1주파수분석을 수행하도록 구성된, 음성 신호의 잡음 억제 기기.
  50. 제49항에 있어서, m = 24이고 p = 128인, 음성 신호의 잡음 억제 기기.
  51. 제49항에 있어서, 상기 제2분석윈도우는 음성신호의 상기 음성프레임부터 후속하는 음성프레임까지 연장하는 예견능력부를 포함하는, 음성 신호의 잡음 억제 기기.
  52. 제41항에 있어서, 상기 기기는 상기 제1수의 주파수 대역들에 대한 크기조정이득을 주파수 빈들에 적용하고 그리고 상기 제2수의 주파수 대역들에 대해 주파수 대역들의 이득을 크기 조정하는 것에 의해 잡음 억제를 수행하도록 구성된, 음성 신호의 잡음 억제 기기.
  53. 제41항에 있어서, 상기 기기가 주파수빈마다 잡음 억제를 수행하도록 구성되고 주파수빈에 대해 주파수빈 특화 크기조정이득을 결정하도록 더 구성되는, 음성 신호의 잡음 억제 기기.
  54. 제41항에 있어서, 상기 기기가 주파수대역마다 잡음 억제를 수행하도록 구성되고 주파수대역에 대해 주파수대역 특화 크기조정이득을 결정하도록 추가로 구성되는, 음성 신호의 잡음 억제 기기.
  55. 제46항에 있어서, 상기 기기는 모든 주파수대역들에 대해 일정한 크기조정이득을 적용함으로써 잡음 억제를 수행하는, 음성 신호의 잡음 억제 기기.
  56. 제53항에 있어서, 상기 기기는 주파수빈에 대해 결정된 신호-대-노이즈비(SNR)에 관련한 주파수빈에 대해 주파수빈 특화 크기조정이득을 위한 값을 결정하도록 구성된, 음성 신호의 잡음 억제 기기.
  57. 제54항에 있어서, 상기 기기는 주파수대역에 대해 결정된 신호-대-노이즈비(SNR)에 관련한 주파수대역에 대해 주파수대역 특화 크기조정이득을 위한 값을 결정하도록 구성되는, 음성 신호의 잡음 억제 기기.
  58. 제56항에 있어서, 상기 기기는 제1 및 제2 주파수분석들의 각각에 대해 주파수빈 특화 크기조정이득을 위한 값을 결정하는 것을 수행하도록 구성되는, 음성 신호의 잡음 억제 기기.
  59. 제57항에 있어서, 상기 기기는 제1 및 제2 주파수분석들의 각각에 대해 주파수빈 특화 크기조정이득을 위한 값을 결정하는 것을 수행하도록 구성되는, 음성 신호의 잡음 억제 기기.
  60. 제52항 내지 제54항 중 어느 한 항에 있어서, 크기조정이득은 평활화된 크기조정이득인, 음성 신호의 잡음 억제 기기.
  61. 제52항 내지 제54항 중 어느 한 항에 있어서, 상기 기기는 특정 주파수빈 또는 특정 주파수대역에 대해 크기조정이득에 역 비례하는 값을 가지는 평활화계수를 이용하여 특정 주파수빈 또는 특정 주파수대역에 적용하려는 평활화된 크기조정이득을 계산하도록 구성되는, 음성 신호의 잡음 억제 기기.
  62. 제52항 내지 제54항 중 어느 한 항에 있어서, 상기 기기는 크기조정이득의 값들이 작을수록 평활화가 더 강해지도록 결정된 값을 가지는 평활화계수를 이용하여 특정 주파수빈 또는 특정 주파수대역에 적용하려는 평활화된 크기조정이득을 계산하도록 구성되는, 음성 신호의 잡음 억제 기기.
  63. 제53항 또는 제54항에 있어서, 상기 기기는 크기조정이득의 값을 음성프레임당 n번 결정하도록 구성되며 n은 1보다 큰, 음성 신호의 잡음 억제 기기.
  64. 제63항에 있어서, n = 2인, 음성 신호의 잡음 억제 기기.
  65. 제53항 또는 제54항에 있어서, 상기 기기는 크기조정이득의 값을 음성프레임당 n번 결정하도록 구성되며, n은 1보다 크고, 발성 차단주파수는 적어도 부분적으로는 이전 음성프레임의 음성신호의 함수인, 음성 신호의 잡음 억제 기기.
  66. 제53항에 있어서, 상기 기기는 17개 대역에 상응하는 최대 74개 빈들에 대해 주파수빈마다 잡음 억제를 수행하도록 구성되는, 음성 신호의 잡음 억제 기기.
  67. 제53항에 있어서, 상기 기기는 주파수 3700Hz에 상응하는 최대 수의 주파수빈들에 대해 주파수빈마다 잡음 억제를 수행하도록 구성되는, 음성 신호의 잡음 억제 기기.
  68. 제56항에 있어서, 상기 기기는 제1 SNR값에 대해, 크기조정이득의 값을 최소값으로 설정하도록, 그리고 제1 SNR값보다 큰 제2 SNR값에 대해 크기조정이득 값을 1로 설정하도록 구성되는, 음성 신호의 잡음 억제 기기.
  69. 제68항에 있어서, 상기 제1 SNR값은 1dB 이하이고, 상기 제2 SNR값은 45dB 이상인, 음성 신호의 잡음 억제 기기.
  70. 제60항에 있어서, 상기 기기는 활동적 음성을 담고 있지 않은 음성 프레임의 구역들을 검출하도록 구성되는, 음성 신호의 잡음 억제 기기.
  71. 제70항에 있어서, 상기 기기는 활동적 음성을 담고 있지 않은 음성 프레임의 구역을 검출하는 것에 응답하여 평활화된 크기조정이득을 최소값으로 재설정하도록 구성되는, 음성 신호의 잡음 억제 기기.
  72. 제47항에 있어서, 상기 기기는 복수의 주파수대역들에서 최대 잡음에너지가 문턱값 미만일 때에 잡음 억제를 수행하지 않도록 구성되는, 음성 신호의 잡음 억제 기기.
  73. 제47항에 있어서, 단기잔류 음성프레임의 발생에 응답하여, 제1 x개 주파수대역들에 대해 주파수대역마다 결정되는 크기조정이득을 적용함으로써 잡음 억제를 수행하도록 그리고 나머지 주파수대역들에 대해 크기조정이득의 단일 값을 적용함으로써 잡음 억제를 수행하도록 구성되는, 음성 신호의 잡음 억제 기기.
  74. 제73항에 있어서, 제1 x개 주파수대역들은 1700Hz까지의 주파수에 상응하는, 음성 신호의 잡음 억제 기기.
  75. 제60항에 있어서, 협대역 음성신호에 대해 상기 기기는 3700Hz까지의 주파수에 상응하는 제1 x개 주파수대역들에 대해 주파수대역마다 결정되는 평활화된 크기조정이득들을 적용함으로써 잡음 억제를 수행하도록, 3700Hz에 상응하는 주파수빈에서의 크기조정이득의 값을 3700Hz와 4000Hz 사이의 주파수빈들에 적용함으로써 잡음 억제를 수행하도록, 그리고 음성신호의 주파수 스펙트럼의 나머지 주파수대역들을 제로화하도록 구성되는, 음성 신호의 잡음 억제 기기.
  76. 제75항에 있어서, 협대역 음성신호는 12800Hz로 업샘플링된 것인, 음성 신호의 잡음 억제 기기.
  77. 제43항에 있어서, 상기 기기는 계산된 발성 계량값을 이용하여 발성 차단주파수를 결정하도록 구성되는, 음성 신호의 잡음 억제 기기.
  78. 제77항에 있어서, 상기 기기는 상기 발성 차단주파수를 초과하지 않는 상위주파수를 가지는 다수의 임계대역을 결정하도록 구성되며, 경계들은 주파수빈마다의 잡음 억제가 최소 x개 대역 및 최대 y개 대역들에 대해 수행되도록 설정되는, 음성 신호의 잡음 억제 기기.
  79. 제78항에 있어서, x = 3이고 y = 17인, 음성 신호의 잡음 억제 기기.
  80. 제77항에 있어서, 상기 발성 차단주파수는 325Hz 이상이고 3700Hz 이하가 되도록 경계가 정해지는, 음성 신호의 잡음 억제 기기.
  81. 잡음 억제를 위한 기기를 포함하는 음성 부호화기로서, 상기 기기는,
    주파수 분석을 수행하여 복수의 주파수빈들을 포함하는 음성신호의 스펙트럼영역 표현을 생성하도록; 그리고
    주파수빈들을 다수의 주파수대역들로 그룹화하도록 구성되며,
    상기 기기는 발성된 음성 활동도를 검출하도록 구성되며, 발성된 음성 활동도가 음성 프레임에서 검출될 때, 잡음 억제를 제1수의 주파수대역들에 대해 주파수빈마다 수행하고 잡음 억제를 제2수의 주파수대역들에 대해 주파수대역마다 수행하는 것을 특징으로 하는 음성 부호화기.
  82. 잡음 억제를 위한 기기를 포함하는 자동 음성인식 시스템으로서, 상기 기기는
    주파수 분석을 수행하여 복수의 주파수빈들을 포함하는 음성신호의 스펙트럼영역 표현을 생성하도록; 그리고
    주파수빈들을 다수의 주파수대역들로 그룹화하도록 구성되며,
    상기 기기는 발성된 음성 활동도를 검출하도록 구성되며, 발성된 음성 활동도가 음성 프레임에서 검출될 때, 잡음 억제를 제1수의 주파수대역들에 대해 주파수빈마다 수행하고 잡음 억제를 제2수의 주파수대역들에 대해 주파수대역마다 수행하는 것을 특징으로 하는 자동 음성인식 시스템.
  83. 잡음 억제를 위한 기기를 포함하는 이동전화기로서, 상기 기기는
    주파수 분석을 수행하여 복수의 주파수빈들을 포함하는 음성신호의 스펙트럼영역 표현을 생성하도록; 그리고
    주파수빈들을 다수의 주파수대역들로 그룹화하도록 구성되며,
    상기 기기는 발성된 음성 활동도를 검출하도록 구성되며, 발성된 음성 활동도가 음성 프레임에서 검출될 때, 제1수의 주파수대역들에 대해 잡음 억제를 주파수빈마다 수행하고 제2수의 주파수대역들에 대해 주파수대역마다 잡음 억제를 수행하도록 구성되는 이동전화기.
  84. 삭제
  85. 삭제
  86. 삭제
  87. 삭제
  88. 삭제
  89. 삭제
  90. 삭제
  91. 삭제
  92. 삭제
  93. 삭제
  94. 삭제
  95. 삭제
  96. 삭제
  97. 삭제
  98. 삭제
  99. 삭제
  100. 삭제
  101. 삭제
  102. 삭제
  103. 삭제
  104. 삭제
  105. 삭제
  106. 삭제
  107. 삭제
  108. 삭제
  109. 삭제
  110. 삭제
  111. 삭제
  112. 삭제
  113. 삭제
  114. 삭제
  115. 삭제
  116. 삭제
  117. 삭제
  118. 삭제
  119. 삭제
  120. 삭제
  121. 삭제
  122. 삭제
  123. 삭제
  124. 삭제
  125. 삭제
KR1020067015437A 2003-12-29 2004-12-29 배경잡음의 존재하에 음성 강화를 위한 방법 및 기기 KR100870502B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CA002454296A CA2454296A1 (en) 2003-12-29 2003-12-29 Method and device for speech enhancement in the presence of background noise
CA2454296 2003-12-29

Publications (2)

Publication Number Publication Date
KR20060128983A KR20060128983A (ko) 2006-12-14
KR100870502B1 true KR100870502B1 (ko) 2008-11-25

Family

ID=34683070

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067015437A KR100870502B1 (ko) 2003-12-29 2004-12-29 배경잡음의 존재하에 음성 강화를 위한 방법 및 기기

Country Status (19)

Country Link
US (1) US8577675B2 (ko)
EP (1) EP1700294B1 (ko)
JP (1) JP4440937B2 (ko)
KR (1) KR100870502B1 (ko)
CN (1) CN100510672C (ko)
AT (1) ATE441177T1 (ko)
AU (1) AU2004309431C1 (ko)
BR (1) BRPI0418449A (ko)
CA (2) CA2454296A1 (ko)
DE (1) DE602004022862D1 (ko)
ES (1) ES2329046T3 (ko)
HK (1) HK1099946A1 (ko)
MX (1) MXPA06007234A (ko)
MY (1) MY141447A (ko)
PT (1) PT1700294E (ko)
RU (1) RU2329550C2 (ko)
TW (1) TWI279776B (ko)
WO (1) WO2005064595A1 (ko)
ZA (1) ZA200606215B (ko)

Families Citing this family (92)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7113580B1 (en) * 2004-02-17 2006-09-26 Excel Switching Corporation Method and apparatus for performing conferencing services and echo suppression
JP5230103B2 (ja) * 2004-02-18 2013-07-10 ニュアンス コミュニケーションズ,インコーポレイテッド 自動音声認識器のためのトレーニングデータを生成する方法およびシステム
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
NZ562182A (en) * 2005-04-01 2010-03-26 Qualcomm Inc Method and apparatus for anti-sparseness filtering of a bandwidth extended speech prediction excitation signal
TWI324336B (en) 2005-04-22 2010-05-01 Qualcomm Inc Method of signal processing and apparatus for gain factor smoothing
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
US7366658B2 (en) * 2005-12-09 2008-04-29 Texas Instruments Incorporated Noise pre-processor for enhanced variable rate speech codec
US7930178B2 (en) * 2005-12-23 2011-04-19 Microsoft Corporation Speech modeling and enhancement based on magnitude-normalized spectra
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US7593535B2 (en) * 2006-08-01 2009-09-22 Dts, Inc. Neural network filtering techniques for compensating linear and non-linear distortion of an audio transducer
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
US8195454B2 (en) * 2007-02-26 2012-06-05 Dolby Laboratories Licensing Corporation Speech enhancement in entertainment audio
JP5186510B2 (ja) * 2007-03-19 2013-04-17 ドルビー ラボラトリーズ ライセンシング コーポレイション スピーチ明瞭度強化方法と装置
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
US8990073B2 (en) * 2007-06-22 2015-03-24 Voiceage Corporation Method and device for sound activity detection and sound signal classification
US8891778B2 (en) 2007-09-12 2014-11-18 Dolby Laboratories Licensing Corporation Speech enhancement
JPWO2009051132A1 (ja) * 2007-10-19 2011-03-03 日本電気株式会社 信号処理システムと、その装置、方法及びそのプログラム
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8560307B2 (en) 2008-01-28 2013-10-15 Qualcomm Incorporated Systems, methods, and apparatus for context suppression using receivers
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
RU2470385C2 (ru) * 2008-03-05 2012-12-20 Войсэйдж Корпорейшн Система и способ улучшения декодированного тонального звукового сигнала
CN101483042B (zh) * 2008-03-20 2011-03-30 华为技术有限公司 一种噪声生成方法以及噪声生成装置
US8606573B2 (en) * 2008-03-28 2013-12-10 Alon Konchitsky Voice recognition improved accuracy in mobile environments
KR101317813B1 (ko) * 2008-03-31 2013-10-15 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
US9142221B2 (en) * 2008-04-07 2015-09-22 Cambridge Silicon Radio Limited Noise reduction
US9253568B2 (en) * 2008-07-25 2016-02-02 Broadcom Corporation Single-microphone wind noise suppression
US8515097B2 (en) * 2008-07-25 2013-08-20 Broadcom Corporation Single microphone wind noise suppression
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
EP2416315B1 (en) * 2009-04-02 2015-05-20 Mitsubishi Electric Corporation Noise suppression device
JP5648052B2 (ja) * 2009-07-07 2015-01-07 コーニンクレッカ フィリップス エヌ ヴェ 呼吸信号のノイズ低減
CA2778343A1 (en) * 2009-10-19 2011-04-28 Martin Sehlstedt Method and voice activity detector for a speech encoder
EP2491559B1 (en) * 2009-10-19 2014-12-10 Telefonaktiebolaget LM Ericsson (publ) Method and background estimator for voice activity detection
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
CA3225485A1 (en) 2010-01-19 2011-07-28 Dolby International Ab Improved subband block based harmonic transposition
PL2532002T3 (pl) * 2010-03-09 2014-06-30 Fraunhofer Ges Forschung Urządzenie, sposób i program komputerowy do przetwarzania sygnału audio
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
KR101176207B1 (ko) * 2010-10-18 2012-08-28 (주)트란소노 음성통신 시스템 및 음성통신 방법
KR101173980B1 (ko) 2010-10-18 2012-08-16 (주)트란소노 음성통신 기반 잡음 제거 시스템 및 그 방법
US8831937B2 (en) * 2010-11-12 2014-09-09 Audience, Inc. Post-noise suppression processing to improve voice quality
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
HUE053127T2 (hu) 2010-12-24 2021-06-28 Huawei Tech Co Ltd Eljárás és berendezés hang aktivitás adaptív detektálására egy bemeneti audiójelben
KR20120080409A (ko) * 2011-01-07 2012-07-17 삼성전자주식회사 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
EP2663903A1 (de) * 2011-01-11 2013-11-20 Siemens Aktiengesellschaft Verfahren und vorrichtung zur filterung eines signals und regeleinrichtung für einen prozess
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
WO2012153165A1 (en) * 2011-05-06 2012-11-15 Nokia Corporation A pitch estimator
TWI459381B (zh) * 2011-09-14 2014-11-01 Ind Tech Res Inst 語音增強方法
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
EP3288033B1 (en) 2012-02-23 2019-04-10 Dolby International AB Methods and systems for efficient recovery of high frequency audio content
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
EP2786376A1 (en) 2012-11-20 2014-10-08 Unify GmbH & Co. KG Method, device, and system for audio data processing
JP6335190B2 (ja) 2012-12-21 2018-05-30 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低ビットレートで背景ノイズをモデル化するためのコンフォートノイズ付加
CN103886867B (zh) * 2012-12-21 2017-06-27 华为技术有限公司 一种噪声抑制装置及其方法
US9495951B2 (en) * 2013-01-17 2016-11-15 Nvidia Corporation Real time audio echo and background noise reduction for a mobile device
CN105264597B (zh) 2013-01-29 2019-12-10 弗劳恩霍夫应用研究促进协会 感知转换音频编码中的噪声填充
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
JP6303340B2 (ja) 2013-08-30 2018-04-04 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
KR20150032390A (ko) * 2013-09-16 2015-03-26 삼성전자주식회사 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
DE102013111784B4 (de) * 2013-10-25 2019-11-14 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
US9449609B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Accurate forward SNR estimation based on MMSE speech probability presence
US9449610B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Speech probability presence modifier improving log-MMSE based noise suppression performance
US9449615B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Externally estimated SNR based modifiers for internal MMSE calculators
CN104681034A (zh) 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
GB2523984B (en) * 2013-12-18 2017-07-26 Cirrus Logic Int Semiconductor Ltd Processing received speech data
CN107293287B (zh) 2014-03-12 2021-10-26 华为技术有限公司 检测音频信号的方法和装置
US10176823B2 (en) * 2014-05-09 2019-01-08 Apple Inc. System and method for audio noise processing and noise reduction
KR20160000680A (ko) * 2014-06-25 2016-01-05 주식회사 더바인코퍼레이션 광대역 보코더용 휴대폰 명료도 향상장치와 이를 이용한 음성출력장치
US9870780B2 (en) 2014-07-29 2018-01-16 Telefonaktiebolaget Lm Ericsson (Publ) Estimation of background noise in audio signals
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
DE112015004185T5 (de) 2014-09-12 2017-06-01 Knowles Electronics, Llc Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
US9947318B2 (en) * 2014-10-03 2018-04-17 2236008 Ontario Inc. System and method for processing an audio signal captured from a microphone
US9886966B2 (en) * 2014-11-07 2018-02-06 Apple Inc. System and method for improving noise suppression using logistic function and a suppression target value for automatic speech recognition
TWI569263B (zh) 2015-04-30 2017-02-01 智原科技股份有限公司 聲頻訊號的訊號擷取方法與裝置
JP6289774B2 (ja) * 2015-12-01 2018-03-07 三菱電機株式会社 音声認識装置、音声強調装置、音声認識方法、音声強調方法およびナビゲーションシステム
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
CN108022595A (zh) * 2016-10-28 2018-05-11 电信科学技术研究院 一种语音信号降噪方法和用户终端
CN106782504B (zh) * 2016-12-29 2019-01-22 百度在线网络技术(北京)有限公司 语音识别方法和装置
WO2019068915A1 (en) * 2017-10-06 2019-04-11 Sony Europe Limited AUDIO FILE ENVELOPE BASED ON RMS POWER IN SUB-WINDOW SEQUENCES
US10771621B2 (en) * 2017-10-31 2020-09-08 Cisco Technology, Inc. Acoustic echo cancellation based sub band domain active speaker detection for audio and video conferencing applications
RU2701120C1 (ru) * 2018-05-14 2019-09-24 Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" Устройство для обработки речевого сигнала
US10681458B2 (en) * 2018-06-11 2020-06-09 Cirrus Logic, Inc. Techniques for howling detection
KR102327441B1 (ko) * 2019-09-20 2021-11-17 엘지전자 주식회사 인공지능 장치
US11217262B2 (en) * 2019-11-18 2022-01-04 Google Llc Adaptive energy limiting for transient noise suppression
US11374663B2 (en) * 2019-11-21 2022-06-28 Bose Corporation Variable-frequency smoothing
US11264015B2 (en) 2019-11-21 2022-03-01 Bose Corporation Variable-time smoothing for steady state noise estimation
CN111429932A (zh) * 2020-06-10 2020-07-17 浙江远传信息技术股份有限公司 语音降噪方法、装置、设备及介质
CN112634929B (zh) * 2020-12-16 2024-07-23 普联国际有限公司 一种语音增强方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6317709B1 (en) * 1998-06-22 2001-11-13 D.S.P.C. Technologies Ltd. Noise suppressor having weighted gain smoothing
US20020002455A1 (en) * 1998-01-09 2002-01-03 At&T Corporation Core estimator and adaptive gains from signal to noise ratio in a hybrid speech enhancement system
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57161800A (en) * 1981-03-30 1982-10-05 Toshiyuki Sakai Voice information filter
AU633673B2 (en) * 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
US5432859A (en) * 1993-02-23 1995-07-11 Novatel Communications Ltd. Noise-reduction system
JP3297307B2 (ja) * 1996-06-14 2002-07-02 沖電気工業株式会社 背景雑音消去装置
US6098038A (en) * 1996-09-27 2000-08-01 Oregon Graduate Institute Of Science & Technology Method and system for adaptive speech enhancement using frequency specific signal-to-noise ratio estimates
US6097820A (en) * 1996-12-23 2000-08-01 Lucent Technologies Inc. System and method for suppressing noise in digitally represented voice signals
US6456965B1 (en) * 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US6044341A (en) * 1997-07-16 2000-03-28 Olympus Optical Co., Ltd. Noise suppression apparatus and recording medium recording processing program for performing noise removal from voice
US7209567B1 (en) * 1998-07-09 2007-04-24 Purdue Research Foundation Communication system with adaptive noise suppression
US6351731B1 (en) * 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6233549B1 (en) * 1998-11-23 2001-05-15 Qualcomm, Inc. Low frequency spectral enhancement system and method
US6363345B1 (en) * 1999-02-18 2002-03-26 Andrea Electronics Corporation System, method and apparatus for cancelling noise
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
JP4242516B2 (ja) 1999-07-26 2009-03-25 パナソニック株式会社 サブバンド符号化方式
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
US6366880B1 (en) * 1999-11-30 2002-04-02 Motorola, Inc. Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
US6862567B1 (en) * 2000-08-30 2005-03-01 Mindspeed Technologies, Inc. Noise suppression in the frequency domain by adjusting gain according to voicing parameters
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
US6925435B1 (en) 2000-11-27 2005-08-02 Mindspeed Technologies, Inc. Method and apparatus for improved noise reduction in a speech encoder
JP4282227B2 (ja) * 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
US7155385B2 (en) * 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
US7492889B2 (en) * 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020002455A1 (en) * 1998-01-09 2002-01-03 At&T Corporation Core estimator and adaptive gains from signal to noise ratio in a hybrid speech enhancement system
US6317709B1 (en) * 1998-06-22 2001-11-13 D.S.P.C. Technologies Ltd. Noise suppressor having weighted gain smoothing
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
US20030023430A1 (en) * 2000-08-31 2003-01-30 Youhua Wang Speech processing device and speech processing method

Also Published As

Publication number Publication date
WO2005064595A1 (en) 2005-07-14
JP2007517249A (ja) 2007-06-28
MY141447A (en) 2010-04-30
MXPA06007234A (es) 2006-08-18
AU2004309431B2 (en) 2008-10-02
RU2006126530A (ru) 2008-02-10
CA2454296A1 (en) 2005-06-29
EP1700294B1 (en) 2009-08-26
EP1700294A1 (en) 2006-09-13
BRPI0418449A (pt) 2007-05-22
RU2329550C2 (ru) 2008-07-20
TWI279776B (en) 2007-04-21
DE602004022862D1 (de) 2009-10-08
AU2004309431C1 (en) 2009-03-19
AU2004309431A1 (en) 2005-07-14
ATE441177T1 (de) 2009-09-15
CA2550905C (en) 2010-12-14
US20050143989A1 (en) 2005-06-30
HK1099946A1 (en) 2007-08-31
PT1700294E (pt) 2009-09-28
TW200531006A (en) 2005-09-16
US8577675B2 (en) 2013-11-05
KR20060128983A (ko) 2006-12-14
CN100510672C (zh) 2009-07-08
CN1918461A (zh) 2007-02-21
ZA200606215B (en) 2007-11-28
EP1700294A4 (en) 2007-02-28
CA2550905A1 (en) 2005-07-14
JP4440937B2 (ja) 2010-03-24
ES2329046T3 (es) 2009-11-20

Similar Documents

Publication Publication Date Title
KR100870502B1 (ko) 배경잡음의 존재하에 음성 강화를 위한 방법 및 기기
JP5395066B2 (ja) 音声区間検出および音声信号分類ための方法および装置
Ris et al. Assessing local noise level estimation methods: Application to noise robust ASR
JP5247826B2 (ja) 復号化音調音響信号を増強するためのシステムおよび方法
Ibrahim Preprocessing technique in automatic speech recognition for human computer interaction: an overview
US10783899B2 (en) Babble noise suppression
WO2002029782A1 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US6996524B2 (en) Speech enhancement device
Jelinek et al. Noise reduction method for wideband speech coding
Kim et al. Speech enhancement of noisy speech using log-spectral amplitude estimator and harmonic tunneling
KR20180010115A (ko) 스피치를 향상하는 장치
JPH1097288A (ja) 背景雑音除去装置及び音声認識装置
Hayashi et al. A subtractive-type speech enhancement using the perceptual frequency-weighting function
Kim et al. Speech enhancement in non-stationary noise environments.
Moharir et al. Spectral enhancement preprocessing for the HNM coding of noisy speech.
Kim et al. Enhancement of noisy speech for noise robust front-end and speech reconstruction at back-end of DSR system.
Hayashi et al. Single channel speech enhancement based on perceptual frequency-weighting
Shahnaz et al. An Approach for Pitch Estimation from Noisy Speech
Choi et al. Efficient Speech Reinforcement Based on Low-Bit-Rate Speech Coding Parameters

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121031

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20131101

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20141107

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20151016

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20161019

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20171018

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20181018

Year of fee payment: 11