KR20010075343A - 저비트율 스피치 코더용 노이즈 억제 방법 및 그 장치 - Google Patents

저비트율 스피치 코더용 노이즈 억제 방법 및 그 장치 Download PDF

Info

Publication number
KR20010075343A
KR20010075343A KR1020017003777A KR20017003777A KR20010075343A KR 20010075343 A KR20010075343 A KR 20010075343A KR 1020017003777 A KR1020017003777 A KR 1020017003777A KR 20017003777 A KR20017003777 A KR 20017003777A KR 20010075343 A KR20010075343 A KR 20010075343A
Authority
KR
South Korea
Prior art keywords
noise
input signal
spectrum
signal
speech
Prior art date
Application number
KR1020017003777A
Other languages
English (en)
Inventor
에이취. 이사벨 스티븐
Original Assignee
로버트 엘. 워렌
솔라나 테크놀로지 디벨롭먼트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 로버트 엘. 워렌, 솔라나 테크놀로지 디벨롭먼트 코포레이션 filed Critical 로버트 엘. 워렌
Publication of KR20010075343A publication Critical patent/KR20010075343A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

본 발명에 의하면, 노이즈는 노이즈와 스피치의 조합을 반송하는 입력신호에서 억제된다. 입력신호는 신호블록으로 분할(10)되는데, 이 신호블록은 처리되어(14) 입력신호의 짧은-시간 지각 대역 스펙트럼의 평가를 제공한다. 시간상의 다양한 지점에서, 입력신호가 노이즈만인지 또는 노이즈와 스피치의 조합인지의 결정이 만들어진다(16). 입력신호가 노이즈만일 때, 입력신호의 대응하는 평가된-짧은-시간 지각 대역 스펙트럼이 사용되어 노이즈의 장기간의 지각 대역 스펙트럼의 평가(18)를 갱신한다. 그 다음, 노이즈 억제 주파수 응답이, 입력신호의 장기간의 지각 대역 스펙트럼의 평가를 기초로 결정하고(20), 노이즈 억제 주파수 응답에 따라서 입력신호의 현재블록을 성형(24)하는데 사용된다.

Description

저비트율 스피치 코더용 노이즈 억제 방법 및 그 장치{NOISE SUPPRESSION FOR LOW BITRATE SPEECH CODER}
다음의 종래 기술의 문헌은 본 발명의 배경이 되는 기술을 제공한다:
"확장된 가변율 코덱, 광대역 스프레드 스펙트럼 디지털 시스템용 스피치 서비스 옵션3" TIA/EIA/IS-127 기준.
"스피치 개선방법을 위한 스피치/포우즈 검출기(speech/pause detector)의 연구" 피. 소바(P. Sova) 및 피. 폴락(P. Pollak), 유로스피치 95 마드리드, 1995년, p. 1575-1578.
"최소 제곱평균 에러 짧은-시간 스펙트럼의 진폭 평가자를 사용하는 스피치 개선" 와이. 엠프라임(Y. Ephraim), 디. 말라(D. Malah), IEEE 음향 스피치 및 신호처리 전송(Transactions on Acoustics Speech and Signal Procdssing), 볼륨. ASSP-32, 넘버. 6, 12월. 1984년, pp. 1109-1121.
"스펙트럼 삭감법을 사용하는 음향 노이즈의 억제" S. Boll, IEEE 음향 스피치 및 신호처리 전송(Transantions on Acoustics Speech and Signal Processing), 볼륨. ASSP-27, 넘버. 2, 4월, 1979년, pp. 113-120.
"스피치 개선 시스템에 기초한 통계 모델" IEEE, 볼륨. 80, 넘버. 10, 10월 1992년, pp. 1526-1544의 의사록.
노이즈 억제에 대한 낮은 복장성의 접근은 스펙트럼의 변형이다 (또한, 스펙트럼의 삭감법으로 공지된다). 스펙트럼의 변형을 사용하는 노이즈 억제 알고리즘은, 우선 노이즈 스피치신호를 다수의 주파수대역으로 분할한다. 전형적으로, 이 주파수대역에서 평가된 신호대노이즈비를 기초로 한 이득은 각 대역에 대해서 계산된다. 이들 이득이 적용되고, 신호는 복구된다. 이 타입의 계획은 관찰된 노이즈 스피치신호로부터 신호대노이즈 특성을 평가해야한다. 스피치 변형기술의 다수의 실행이 미국특허 제5,687,285호와, 제5,680,393호, 제5,668,927호, 제5,659,622호, 제5,651,071호, 제5,630,015호, 제5,625,684호, 제5,621,850호, 제5,617,505호, 제5,617,472호, 제5,602,962호, 제5,577,161호, 제5,555,287호, 제5,550,924호, 제5,544,250호, 제5,539,859호, 제5,533,133호, 제5,530,768호, 제5,479,560호, 제5,432,859호, 제5,406,635호, 제5,402,496호, 제5,388,182호, 제5,388,160호, 제5,353,376호, 제5,319,736호, 제5,278,780호, 제5,251,263호, 제5,168,526호, 제5,133,031호, 제5,081,681호, 제5,040,156호, 제5,012,519호, 제4,908,855호, 제4,897,878호, 제4,811,404호, 제4,747,143호, 제4,737,976호, 제4,630,305호, 제4,630,304호, 제4,628,529호 및, 제4,468,804호에서 발견된다.
스펙트럼의 변형은 다수의 바람직한 성질을 갖는다. 우선, 적응적으로 될수 있으므로, 변화하는 노이즈 환경을 조작할 수 있다. 둘째로, 많은 계산이 이산 퓨리에변환(DFT) 영역에서 수행될 수 있다. 따라서, 빠른 알고리즘(빠른 퓨리에변환(FFT)과 같은)이 사용될 수 있다.
그런데, 종래 기술의 현재 상태에서는 다수의 단점이 있다.
이러한 단점은,
(i) 높은 노이즈 레벨에 대해 적합한 바람직한 스피치신호의 부적합한 왜곡(이러한 왜곡은 다수의 원인을 갖는데, 이들 중 몇몇이 이하에 상세히 설명된다)과,
(ii) 과도한 계산상의 복잡성을 포함한다.
종래 기술의 단점을 극복하는 노이즈 억제기술을 제공하는 것이 바람직하다. 특히, 블록을 기초로한 노이즈 억제기술에서 전형적인 시간-영역의 불연속성을 설명하는 노이즈 억제기술을 제공하는 것이 바람직하다. 더욱이, 스펙트럼의 삭감법에서의 고유한 주파수-영역 불연속성에 기인하는 왜곡을 감소시키는 기술을 제공하는 것이 바람직하다. 더욱이, 노이즈 억제를 제공하는데 있어서 스펙트럼의 성형 오퍼레이션(shaping operation)의 복잡성을 감소시키고, 노이즈 억제기술에서 평가된 노이스 통계의 신뢰성을 증가시키는 것이 바람직하다.
본 발명은 다양한 장점을 갖는 노이즈 억제기술을 제공한다.
본 발명은 저-비트율 스피치 코더에 대해서 프론트 엔드(front end)로서 사용하는데 적합한 노이즈 억제기술을 제공하는 것이다. 본 발명의 기술은, 특히 셀룰러 전화기의 적용에 사용되기 적합하다.
도 1은 본 발명에 따른 노이즈 억제 알고리즘의 블록도,
도 2는 본 발명에 따른 입력신호의 블록 처리를 나타낸 도면,
도 3은 다양한 폭을 갖는 다양한 노이즈 스펙트럼 대역(NS대역)과 이산 퓨리에변환빈(DFTbin)의 상관관계를 나타낸 도면,
도 4는 스피치/포우즈 검출기의 하나의 가능한 실시예의 블록도,
도 5는 노이즈 스피치 발성의 에너지 측정의 예를 제공하는 파형도,
도 6은 노이즈 스피치 발성의 스팩트럼의 트랜지션(transition) 측정의 예를 제공하는 파형도,
도 7은 노이즈 스피치 발성의 스펙트럼의 유사성 측정의 예를 제공하는 파형도,
도 8은 노이즈 스피치 신호를 모델화하는 신호-상태 장치의 도면,
도 9는 조각적인(piecewise)-상수 주파수 응답을 나타낸 도면,
도 10은 도 9의 조각적인-상수 주파수 응답의 평활을 나타낸 도면이다.
본 발명에 따르면, 블록 기초된 노이즈 억제에서 전형적인 시간-영역의 불연속성에 기인하는 왜곡의 감소가 달성되는 노이즈 억제기술이 제공된다. 또한, 노이즈 억제 공정에서 사용되는 스펙트럼의 성형 오퍼레이션의 복잡성이 감소되면서 스펙트럼의 삭감법에서의 고유한 주파수-영역 불연속성에 기인하는 왜곡도 감소된다. 또한, 본 발명은 개선된 보이스 활동 검출기(voice activity detector)를 사용함으로써 평가된 노이즈 통계의 신뢰성을 증가시킨다.
본 발명에 다른 방법은, 노이즈와 스피치의 조합을 반송하는 입력신호에서 노이즈를 억제한다. 입력신호는 신호블록으로 분할되는데, 이 신호블록은 처리되어 입력신호의 짧은-시간 지각 대역 스펙트럼의 평가를 제공한다. 입력신호가 노이즈만을 반송했는지 또는 노이즈와 스피치의 조합인지가 다양한 시간상의 지점에서 결정된다. 입력신호가 노이즈만을 반송하면, 입력 신호의 대응하는 평가된 짧은-시간 지각 대역 스펙트럼이 노이즈의 장기간의 지각 대역 스펙트럼의 평가를 갱신하는데 사용된다. 그 다음, 노이즈의 장기간의 지각 대역 스펙트럼 및 입력신호의 짧은-시간 지각 대역 스펙트럼의 평가를 기초로 노이즈 억제 주파수 응답이 결정(determined)되고, 이 노이즈 억제 주파수 응답에 따라서 입력신호의 현재 블록을 성형하는데 사용된다.
이 방법은, 고주파수 성분을 엠퍼시스(emphasis)하기 위해서 입력신호를 미리 필터링하는 단계를 더 구비할 수 있다. 도시된 실시예에 있어서, 입력신호의 처리는 각 블록의 복소수 값의 주파수영역 표현을 제공하기 위해서, 이산(discrete) 퓨리에변환을 신호블록에 적용하는 것을 구비한다. 신호블록의 주파수영역 표현은 신호만의 크기로 전환되는데, 이는 장기간의 지각-대역 스펙트럼 평가를 제공하기 위해서 디스조인드(disjoint) 주파수대역을 가로질러 평균된다. 지각 대역 스펙트럼에서의 시간 분산은 짧은-시간 지각 대역 스펙트럼 평가를 제공하기 위해서 평활(smoothing)된다.
노이즈 억제 주파수 응답은 입력신호의 현재블록을 성형하는데 사용하기 위한 올-폴필터(all-pole filter)를 사용해서 모델화될 수 있다.
노이즈 및 스피치의 조합을 반송하는 입력신호에서 노이즈를 억제하기 위한 장치가 제공된다. 고주파수성분을 엠퍼시스하기 위해서 입력신호를 미리 필터링할 수 있는 신호 프로세서는 입력신호를 블록으로 분할한다. 그 다음, 빠른 퓨리에변환 프로세서는 입력신호의 복소수-값의 주파수영역 스펙트럼을 제공하기 위해서, 이 블록을 처리한다. 복소수-값의 주파수영역 스펙트럼을 동일하지 않은 폭의 주파수대역을 구비하는 장기간의 지각-대역 스펙트럼으로 누산하기 위해서 누산기(accumulator)가 제공한다. 장기간의 지각-대역 스펙트럼은 필터링되어, 이 장기간의 지각-대역 스펙트럼 플라스(plus) 노이즈의 현재 세그먼트를 구비하는 짧은-시간 지각-대역 스펙트럼의 평가를 생성한다. 스피치/포우즈 검출기는, 입력신호가 시간상의 소정 지점에서 노이즈만으로 되는지 또는 스피치와 노이즈의 조합으로 되는 지를 결정한다. 노이즈 스펙트럼 평가기는, 입력신호가 노이즈만으로 될 때 스피치/포우즈 검출회로에 대해 응답하는데, 짧은-시간 지각 대역 스펙트럼을 기초로 한 노이즈의 장기간의 지각 대역 스펙트럼의 평가를 갱신한다. 노이즈 스펙트럼 평가기에 대해 응답하는 스펙트럼의 이득 프로세서는 노이즈 억제 주파수 응답을 결정한다. 그 다음, 스펙트럼의 이득 프로세서에 응답하는 스펙트럼의 성형 프로세서는 노이즈를 억제하기 위해서 입력신호의 현재 블록을 성형한다. 스펙트럼의 성형 프로세서는, 예컨대 올-폴필터를 구비하여 구성된다.
또한, 노이즈와, 스피치와 같은 오디오 정보의 조합을 반송하는 입력신호에서 노이즈를 억제하기 위한 방법이 개시된다. 노이즈 억제 주파수 응답이 주파수영역에서 입력신호에 대해 계산된다. 그 다음, 입력신호 내의 노이즈를 억제하기 위해서, 계산된 노이즈 억제 주파수 응답이 시간 영역에서 입력신호에 적용된다. 이 방법은 노이즈 억제 주파수 응답을 계산하는 것에 앞서서 입력신호를 블록으로 분할하는 단계를 더 구비한다. 도시된 실시예에 있어서, 노이즈 억제 주파수 응답은, 노이즈 억제 주파수 응답의 자동 상관관계함수를 결정함으로써 생성된 올-폴필터를 매개로 입력신호에 적용된다.
본 발명에 따르면, 노이즈 억제 알고리즘은 시간변화 필터 응답을 계산하고, 이를 노이즈 스피치에 적용한다. 알고리즘의 블록도가 도 1에 도시되는데, 여기서 "AR파라미터 계산" 및 "AR스펙트럼의 성형"으로 표시된 블록은 시간변화 필터 응답의 적용과 관련되고, "AR"은 "자동-회귀(auto-regressive)"를 가리킨다. 도 1에서 모든 그 밖의 블록은 노이즈 스피치로부터 시간변화 필터 응답을 계산하는 것에 대응한다.
고주파를 약간 엠퍼시스하기 위해서, 노이즈 입력신호는 단순한 고역통과필터를 사용하여 신호프로세서(10)에서 처리된다. 그 다음, 프로세서는 필터된 신호를 블록들로 분할하는데, 이 블록들은 빠른 퓨리에변환모듈(12;FFT모듈)을 통과한다. FFT모듈(12)은 윈도우(window)를 신호블록에 적용하고, 이산 퓨리에변환을 신호에 적용한다. 결과적인 복소수-값의 주파수영역 표현이 처리되어 신호만의 크기를 생성한다. 이들 신호만의 크기 값은 "지각-대역 스펙트럼"을 산출하는 디스조인트 주파수대역에서 평균된다. 이러한 평균은 처리되야 할 데이터 량의 감소로 귀결된다.
지각-대역 스펙트럼에서의 시간-분산은 신호 및 노이즈 스펙트럼 평가모듈(14)에서 평활되어 입력신호의 짧은-시간 지각-대역 스펙트럼의 평가를 생성한다. 이 평가는 스피치/포우즈 검출기(16)와 노이즈 스펙트럼 평가기(18) 및스펙트럼 이득 계산모듈(20)을 통과한다.
스피치/포우즈 검출기(16)는 현재 입력신호가 단순히 노이즈인지 또는 스피치와 노이즈의 조합인지를 결정한다. 이러한 결정은, 입력신호의 모델을 갱신하기 위해서 이들 측정을 사용하고, 최종 스피치/포우즈 판정(decision)을 만들기 위해서 상기 모델의 상태를 사용해서 입력 스피치신호의 다수의 성질을 측정함으로써 만들어진다. 그 다음, 판정은 노이즈 스펙트럼 평가기를 통과한다.
스피치/포우즈 검출기(16)가 입력신호가 노이즈만으로 구성된 것을 결정할 때, 노이즈 스펙트럼 평가기(18)는 현재 지각-대역스펙트럼을 사용하여 노이즈의 지각-대역 스펙트럼의 평가를 갱신한다. 더욱이, 노이즈 스펙트럼 평가기의 소정 파라미터는 이 모듈에서 갱신되고, 스피치/포우즈 검출기(16)로 되돌려 통과된다. 그 다음, 노이즈의 지각 대역 스펙트럼 평가가 스펙트럼의 이득 계산모듈(20)로 넘어간다.
현재신호 및 노이즈의 지각-대역 스펙트럼의 평가를 사용해서, 스펙트럼의 이득 계산모듈(20)은 노이즈 억제 주파수 응답을 결정한다. 이 노이즈 억제 주파수 응답은 도 9에 나타낸 바와 같이 조각적인 상수이다. 각각의 조각적인 상수 세그먼트는 임계대역 스펙트럼 중 하나의 엘리먼트에 대응한다. 이 주파수 응답은 AR파라미터 계산모듈(22)을 통과한다.
AR파라미터 계산모듈은, 올-폴필터로 노이즈 억제 주파수 응답을 모델화한다. 노이즈 억제 주파수 응답이 조각적인 상수이기 때문에, 자신의 상관관계함수가 근사하는 형태로 쉽게 결정될 수 있다. 그 다음, 올-폴필터 파라미터가 자동-상관관계함수로부터 효과적으로 계산될 수 있다. 조각적인 상수 스펙트럼의 올폴 모델화(all-pole modeling)는 노이즈 억제 스펙트럼에서 불연속 부분을 평활하는 효과를 갖는다. 공지된 그 밖의 기술이나 이후에 개시될 모델화 기술은 올-폴필터의 사용에 적합할 수 있어야 하는데, 이러한 기술과 등가의 기술이 본 명세서에 기재된 본 발명의 범위에 속하는 것으로 사료된다.
AR스펙트럼의 성형모듈(24)은 AR파라미터를 사용하여 필터를 입력신호의 현재 블록에 적용한다. 시간영역에서 스펙트럼의 성형을 실행함으로써, 블록처리에 기인하는 시간 불연속성이 감소된다. 또한, 노이즈 억제 주파수 응답이 저순위 올-폴필터에 의해 모델화될 수 있기 때문에, 시간영역 성형은 소정 프로세서에서 보다 효과적인 실행으로 귀결될 수 있다.
신호처리모듈(10)에서, 우선 신호는 H(z)=1-0.18z-1형태의 고역통과필터에 의해 프리엠퍼시스(pre-emphasis)된다. 이 고역통과필터는 스피치(speech)에서 고유한 스펙트럼의 틸트(tilt)를 부분적으로 보상하도록 선택된다. 따라서, 미리 처리된 신호는 보다 정확한 노이즈 억제 주파수 응답을 생성한다.
도 2에 도시된 바와 같이, 입력신호(30)는 (8KHz의 샘플링율에서 10ms에 대응하는) 80개의 샘플 블록에서 처리된다. 이는 80개의 샘플 길이를 갖는 분석블록(34)으로 나타내진다. 특히, 도시된 실시예에 있어서, 입력신호는 128개의 샘플 블록으로 분할된다. 각각의 블록은 이전의 블록(32)으로부터의 최종의(last) 24개의 샘플과, 분석블록(34)의 80개의 새로운 샘플 및,0들(36;zeros)의 24개의 샘플로 이루어진다. 각각의 블록은 해밍윈도우(Hamming window)에 의해 윈도우되고, 퓨리에변환된다.
블록구조에서의 제로패딩(zero-padding)함축이 더욱 설명된다. 특히, 신호처리 대기 지점으로부터, 이산 퓨리에변환을 사용하여 스펙트럼의 성형(이하에 기재됨)이 실행되지 않기 때문에 제로패딩은 불필요하다. 그런데, 제로패딩을 포함하는 것은 본 발명의 양수인인 솔라나 테크놀로지 디벨롭먼트 코포레이션에 의해 수행되는 현존의 EVRC 보이스 코덱에 이 알고리즘을 통합하는 것을 쉽게한다. 이 블록구조는, 현존의 EVRC 코드의 전체 버퍼 관리전략에서 변화가 없는 것을 요구한다.
각각의 노이즈 억제 프레임은 128-지점 시퀀스로서 보여질 수 있다. 이 시퀀스를 g[n]으로 나타내면 신호블록의 주파수-영역표현은,
의 퓨리에변환으로서 정의된다. 여기서, C는 정규화상수이다.
그 다음, 신호 스펙트럼이 다음과 같이 동일하지 않은 폭의 대역으로 누산된다.
여기서, fl[k]={2,4,6,8,10,12,14,17,20,23,27,31,36,42,49,56}
fh[k]={3,5,7,9,11,13,16,19,22,26,30,35,41,48,55,63} 이다.
이것은 지각-대역 스펙트럼으로서 언급된다. 대역(50)은 도 3에 도시된다. 나타낸 바와 같이, 노이즈 스펙트럼 대역(NS대역)은 다양한 폭을 갖고, 이산 퓨리에변환빈과 상관된다.
이 신호 풀라스 노이즈의 지각 대역 스펙트럼의 평가는, 지각-대역 스펙트럼을, 예컨대 단일-폴 순환필터로 필터링함으로써, 모듈(14;도 1)에서 생성된다. 신호 펄스의 전력 스펙트럼의 평가는: Su[k]=β·Su[k]+(1-β)·S[k]이다. 스피치의 성질은 비교적 짧은 시간주기에 걸쳐서만 변화가 없으므로, 필터 파라미터(β)는 소수(예컨대, 2-3)의 노이즈 억제 블록에 걸쳐서만 평활이 수행되도록 선택된다. 이 평활은 "짧은-시간" 평활로 언급되는데, "짧은-시간 지각 대역 스펙트럼"의 평가를 제공한다.
노이즈 억제 시스템이 적합하게 기능하기 위해서는 노이즈 통계의 정확한 평가가 요구된다. 이 기능은 스피치/포우즈 검출모듈(16)에 의해 제공된다. 하나의 가능한 실시예에 있어서, 단일의 마이크로폰이 제공되는데, 이 마이크로폰은 스피치 및 노이즈 모두를 측정한다. 노이즈 억제 알고리즘이 노이즈 통계의 평가를 요구하기 때문에, 노이즈 스피치 신호와 노이즈만의 신호 사이의 구분을 위한 방법이 요구된다. 기본적으로, 이 방법은 노이즈 스피치에서 포우즈를 검출해야 한다. 이 태스크(task)는 다수의 인자에 의해 보다 어렵게 된다:
1. 포우즈 검출은 낮은 신호대노이즈비(0 내지 5dB 정도)에서 받아들일 수 있게 수행되어야 한다.
2. 포우즈 검출기는 배경 노이즈 통계에서 느린 분산에 대해 민감해야 한다.
3. 포우즈 검출기는 유사-노이즈 스피치 소리(예컨대, 마찰음)와 배경노이즈를 정확하게 구별해야 한다.
스피치/포우즈 검출기(16)의 하나의 가능한 실시예의 블록도가 도 4에 제공된다.
포우즈 검출기는, 노이즈 스피치신호가 유한 개수의 신호모델들 사이에서 스위칭함으로써 생성됨에 따라 노이즈 스피치 신호를 모델화한다. 유한-상태장치(64;FSM)는 모델들 사이의 트랜지션을 제어한다. 스피치/포우즈 판정은 현재신호 및 그 밖의 적정 상태 변수상에서 만들어진 측정을 따른 FSM의 현재 상태의 함수이다. 상태들 사이의 트랜지션은 현재 FSM상태 및 현재신호상에서 만들어진 측정의 함수이다.
이하에 기재된 측정된 양은 신호-상태 상태장치(64)를 구동하는 2진값 파라미터를 결정하는데 사용된다. 일반적으로, 이들 2진값 파라미터는 적합한 실수-값 측정을 적응성 문턱값과 비교함으로써 결정된다. 신호측정은 다음의 신호 성질을 정하는 측정모듈(60)에 의해 제공된다.
1. 에너지 측정은 신호가 고에너지인지 저에너지인지를 결정한다. 이 신호 에너지는 E[i]로 표시되고,로 정의 된다. 노이즈 스피치 발성의 에너지 측정이 도 5에 나타나는데, 여기서 개별 스피치 샘플의 진폭은 참조부호 70으로 가리켜지고, 대응하는 NS블록의 에너지 측정은 참조부호 72로 가리켜진다.
2. 스펙트럼의 트랜지션측정은 신호 스펙트럼이 정상상태인지 짧은 시간 윈도우에 걸쳐 트랜전트(transient)되는 지를 결정한다. 이 측정은, 지각 대역 스펙트럼의 각각의 대역의 경험적인 평균 및 분산을 결정함으로써 계산된다. 지각 대역 스펙트럼의 모든 대역의 분산의 합이 스펙트럼의 트랜지션의 측정으로서 사용된다. 특히, 트랜지션측정은 Ti로 가리켜지는데, 다음과 같이 계산된다: 지각 스펙트럼의 각각의 대역의 평균은 단일-폴 순환필터에 의해 계산된다..
지각 스펙트럼의 각 대역의 분산은 순환필터에 의해 계산된다..
필터파라미터()는 비교적 긴 시간주기, 예컨대 10 내지 12의 노이즈 억제 블록에 걸쳐 평활된다.
전체 분산은 각 대역의 분산의 합으로서 계산된다.
.
의 분산은 지각 대역 스펙트럼이 자신의 장기간의 평균으로부터 크게 변하지 않을 때, 가장 작게 된다. 스펙트럼 트랜지션의 합당한 측정은의 분산을 수반하는데, 이 분산은 다음과 같이 계산된다:
이다.
적응성 시간상수는 다음에 의해 주어진다:
시간상수를 적응시킴으로써, 스펙트럼의 트랜지션 측정이 변화가 없는 신호의 부분을 적절하게 트랙(track)한다. 노이즈 스피치 발성의 스펙트럼의 트랜지션측정의 예가 도 6에 나타나는데, 여기서 개별 스피치 샘플의 진폭이 참조부호 74로 가리켜지고, 대응하는 NS블록의 에너지 측정은 참조부호 75로 가리켜진다.
3. 스펙트럼의 유사성 측정은 SSi로 가리켜지는데, 현재신호 스펙트럼과 평가된 노이즈 스펙트럼과의 유사 정도를 측정한다. 스펙트럼의 유사성 측정을 정의하기 위해서, Ni[k]로 가리켜지는 노이즈의 지각 대역 스펙트럼의 대수 평가가 이용할 수 있다(Ni[k]의 정의는, 노이즈 스펙트럼 평가자에 대한 이하의 논의와 연관되어 제공된다). 그 다음, 스펙트럼의 유사성 측정은,로 정의된다. 노이즈 발성의 스펙트럼의 유사성의 측정예가 도 7에 나타나는데, 여기서 개별 스피치 샘플의 진폭은 참조부호 76으로 가리켜지고, 대응하는 NS블록의 에너지 측정은 참조부호 78로 가리켜진다. 보다높은 스펙트럼의 유사성 측정이 유사하지 않은 스펙트럼에 대응하는 한편, 스펙트럼의 유사성 측정의 낮은 값이 매우 유사한 스펙트럼에 대응하는 것을 주지하자.
4. 에너지 유사성 측정은 현재신호 에너지가가 평가된 노이즈 에너지와 유사한지를 결정한다. 이는, 신호에너지를 문턱값 적용 모듈(62)에 의해 적용된 문턱값과 비교함으로써 결정된다. 실제 문턱값은 문턱값 계산프로세서(66)에 의해 계산되는데, 이 계산프로세서는 마이크로프로세서를 구비하여 구성된다.
2진 파라미터는 S[k]로 신호스펙트럼의 현재평가를 가리키고, Ei로 신호 에너지의 현재의 평가를 가리키며, Ni[k]로 log 노이즈 스펙트럼의 현재평가를 가리키고,로 노이즈 에너지의 현재평가를 가리키며,로 노이즈 에너지 평가의 분산을 가리킴으로써 정의된다.
파라미터 high_low_energy는 신호가 고에너지 콘텐트(content)를 갖추는 지를 가리킨다. 고에너지는 배경 노이즈의 평가된 에너지에 대해서 정의된다. 이는, 현재의 신호 프레임에서 에너지를 평가하고 문턱값을 적용함으로써 계산된다. 이는, 다음과 같이 정의된다.
여기서, E는로 정의되고, Ei는 적응성 문턱값이다.
파라미터 transition은 신호 스펙트럼이 트랜지션을 격을 때를 가리킨다. 이는 스펙트럼의 평균값으로부터 현재의 짧은-시간 스펙트럼의 편차를 측정함으로써 관찰되어진다. 수학적으로,
으로 정의된다. 여기서, T는 이전의 섹션에서 정의된 스펙트럼의 트랜지션측정이고, Ti는 이하에 보다 상세히 설명되는 적응적으로 계산되는 문턱값이다.
파라미터 spectral_similarity는 현재신호와 평가된 노이즈 스펙트럼 사이의 유사성을 측정한다. 이는, 현재신호의 log 스펙트럼과 노이즈의 평가된 log 스펙트럼 사이의 거리를 계산함으로써 측정된다.
여기서, SSi는 상기되어 있고, SSt는 문턱값(예컨대, 상수)으로 이하에서 논의 된다. 파라미터 energy_similarity는 현재신호의 에너지와 평가된 노이즈에너지 사이의 유사성을 측정한다.
여기서, E는에 의해 정의되고, ESt는 이하 정의된 적응적으로 계산된 문턱값이다.
상기된 변수는 그 수(number)와 문턱값을 비교함으로써 모두 계산된다. 이들 3개의 문턱값은 평가된 평균의 합이고, 기준 편차의 배수를 합한다. 스펙트럼의 유사성 측정을 위한 문턱값은 노이즈의 특성에 의존하지 않고, 상수값으로 설정될 수 있다.
고/저에너지 문턱값은 문턱값 계산프로세서(66;도 4)에 의해로서 계산된다. 여기서,로서 정의되는 경험적인 분산이고,로 정의되는 경험적인 평균이다.
에너지 유사성 문턱값은,
로서 계산된다. 에너지 유사성 문턱값의 성장률은 본 실시예에서는 1.05팩터(factor)로 제한되는 것을 주지하자. 이는 높은 노이즈의 에너지가 문턱값에 대한 부적절한 영향을 갖지 않도록 보장한다.
스펙트럼의 트랜지션 문턱값은로서 계산된다. 스펙트럼의 유사성 문턱값은 SSi=10의 값으로 일정하다.
신호-상태 상태장치(64)는 도 8에 보다 상세히 도시된 노이즈 스피치신호를 모델화한다. 그 상태 트랜지션은 이전에 기재된 신호측정에 의해 제어된다. 신호상태는 엘리먼트 80으로 나타내는 정상상태 저에너지와, 엘리먼트 82로 나타내는트랜전트 및, 엘리먼트 84로 나타내는 정상상태 고에너지가 있다. 정상-상태, 저에너지동안, 스펙트럼 트랜지션의 발생은 없고, 신호에너지는 문턱값 이하로 된다. 트랜전트동안, 스펙트럼의 트랜지션이 발생한다. 정상-상태 고에너지동안, 스펙트럼의 트랜지션의 발생은 없고, 신호에너지는 문턱값 이상이 된다. 상태들 사이의 트랜지션은 상기된 신호측정에 의해 제어된다.
상태장치 트랜지션은 테이블 1에서 정의된다.
테이블1
이 테이블에서 "X"는 "소정 값"을 의미한다. 상태 트랜지션은 소정의 측정을 보장하는 것을 주지하자.
스피치/포우즈 판정은 신호-상태 상태장치의 현재상태에 의존하는 검출기(16;도 1)에 의해 제공되고, 도 4와 관련해서 기재된 신호측정에 의해 제공된다.
스피치/포우즈 판정은 다음의 의사코드에 의해 제어된다 (pause: dec=0; speech: dec=1).
dec = 1;
if spectral_similarity == 1
dec = 0;
else if current_state == 1
if energy_similarity == 1
dec = 0;
end
end
노이즈 스펙트럼은,의 식을 사용하는 포우즈로서 분류된 프레임동안 노이즈 파라미터 평가모듈(68;도 4)에 의해 평가된다. 여기서,는 0과 1 사이의 상수이다. 노이즈에너지의 현재평가와 노이즈에너지 평가의 분산은 다음과 같이 정의 된다.
,
.
여기서, 필터상수는 10-20 노이즈 억제 블록을 평균하기 위해서 선택된다. 스펙트럼의 이득은 다양한 공지의 방법에 의해 계산될 수 있다. 현재의 실행에 적합한 하나의 방법은, 신호를 SNR[k]=c*(log(Su[k])-Ni[k])로서의 노이즈비율로 정의하는 단계를 구비한다. 여기서, C는 상수이고, Su[k]와 Ni[k]는 위에서 정의된다. 이득의 노이즈 의존성분은로 정의된다. 순간이득은으로서 계산된다. 순간이득이 계산되면, 단일-폴 평활화필터를 사용하여 평활화된다. 여기서,는 시간 k에서의 평활화된 채널이득벡터이다.
목표 주파수 응답이 계산되면, 이는 노이즈 스피치에 적용되어야 한다. 이는, 노이즈 스피치신호의 짧은-시간 스펙트럼을 변경하는 (시간-변화) 필터링 오퍼레이션에 대응한다. 이 결과는 노이즈가 억제된 신호이다. 현재의 기술과 달리, 이 스펙트럼의 변경이 주파수영역에 적용될 필요가 없다. 실재로, 주파수영역 실행은 다음의 단점을 가질 수 있다:
1. 불필요하게 복잡할 수 있다.
2. 보다 낮은 품질의 노이즈 억제 스피치로 귀결될 수 있다.
스펙트럼의 성형의 시간영역 실행은, 성형 필터의 임펄스 응답(impulse response)이 선형의 위상일 필요가 없는 부가된 장점을 갖는다. 또한, 시간-영역 실행은 순환콘볼루션(circular convolution)에 기인하는 아티팩츠(artifacts)의 가능성을 제거한다.
본 명세서에 개시된 스펙트럼의 성형 기술은, 필터의 적용에 따라서 노이즈억제 주파수 응답을 수행하는 덜 복잡한 필터를 설계하기 위한 방법으로 이루어진다. 이 필터는 AR파라미터 계산프로세서(22)에 의해 제공된 파라미터를 기초로한 AR스펙트럼의 성형모듈(24;도 1)에 의해 제공된다.
도 9에 나타낸 바와 같이, 바람직한 주파수응답은 비교적 소수의 세그먼트를 갖는 조각적인-상수이기 때문에, 자신의 자동-상관관계함수가 효과적으로 밀접하게 결정될 수 있다. 자동-상관관계계수가 주어지면, 조각적인 상수 주파수를 근사시키는 올-폴필터가 결정될 수 있다. 이 접근은 다수의 장점을 갖는다. 첫째로, 조각적인 상수 주파수응답과 연관되는 스펙트럼의 불연속성이 평활화된다. 둘째로, FFT블록처리와 연관된 시간 불연속성이 제거된다. 세째로, 성형이 시간-영역에 적용되기 때문에, 역DFT가 요구되지 않는다. 낮은 차수의 올-폴필터가 주어지면, 이는 고정된 지점 실행에서 계산상의 장점을 제공한다.
이러한 주파수 응답은 수학적으로로 표현될 수 있다. 여기서, Gs[k]는 평활화된 채널이득으로, i번째로 조각적인-상수 세그먼트의 진폭을 설정하는데,는 주파수에 의해 묶여진 간격을 위한 지시자 함수로, 예컨대일 때 1과 등가이고, 그 밖에는 0이 된다. 자동-상관관계함수는의 역퓨리에변환으로, 예컨대이다. 여기서,이고,이다. 이는,의 값에 대해서 테이블 록업을 사용하여 쉽게 실행될 수 있다.
자동-상관관계함수가 위에서 설명됨에 따라서, 스펙트럼의 올-폴모델이 정규방정식을 해결함으로써 결정될 수 있다. 요구되는 매트릭스 인버젼(matrix inversion)은, 예컨대 레빈슨/듀어빈순환(Levinson/Durbin recursion)을 사용하여 효과적으로 계산될 수 있다.
차수 16필터(order sixteen filter)로 올-폴모델화하는 효과의 예가 도 10에 도시된다. 스펙트럼의 불연속성이 평활되는 것을 주지하자. 명백히, 모델은 올-폴필터 차수를 증가시킴으로써 보다 정확하게 만들어질 수 있다. 그런데, 16 필터 차수는 적정한 계산상의 비용으로 양호한 성능을 제공한다.
AR파라미터 계산프로세서(22)에 의해 계산된 파라미터에 의해 제공된 올-폴필터는, 스펙트럼의 성형된 출력신호를 제공하기 위해서 AR스펙트럼의 성형모듈(24)에서 노이즈 입력신호의 현재블록에 적용된다.
본 발명은 다양하고 독특한 형태를 갖는 노이즈 억제용의 방법 및 장치를 제공하는 것으로 사료된다. 특히, 입력신호를 위한 상태-장치모델로 이루어지는 보이스 활동 검출기가 제공된다. 이 상태-장치는 입력신호로부터 만들어진 다양한 측정에 의해 제어된다. 이 구조는 높은 정확성의 스피치/포우즈 판정을 유지하면서 낮은 복잡성을 갖게 된다. 더욱이, 노이즈 억제 주파수 응답이 주파수-영역에서 계산되지만, 시간-영역에서는 적용되지 않는다. 이는, 주파수영역에서 노이즈억제 주파수 응답을 적용하는 "블록-기초된"방법에서 일어나는 시간-영역 불연속성을 제거하는 효과를 갖는다. 더욱이, 노이즈 억제 필터는, 노이즈 억제 주파수 응답의 자동-상관관계함수를 결정하는 신규한 접근을 사용하는 것으로 의도된다. 그 다음, 이 자동-상관관계 시퀀스는 올폴필터를 생성하기 위해 사용된다. 몇몇 경우에 있어서, 올-폴필터는 주파수영역 방법의 수행 보다 덜 복잡하게 된다.
본 발명을 특정한 실시예와 연관하여 설명하였지만, 다수의 변형 및 적응이 본 발명의 정신 및 범위를 벗어남이 없이 행해질 수 있는 것으로 받아들여질 수 있다.

Claims (14)

  1. 노이즈와 스피치의 조합을 반송하는 입력신호에서 노이즈를 억제하기 위한 방법으로서, 이 방법이,
    상기 입력신호를 신호블록으로 분할하는 단계와,
    상기 입력신호의 짧은-시간 지각 대역 스펙트럼의 평가를 제공하기 위해서 상기 신호블록을 처리하는 단계,
    다양한 지점에서 상기 입력신호가 노이즈만을 반송하는지 또는 노이즈와 스피치의 조합을 반송하는 지를 결정하고, 입력신호가 노이즈만을 반송할 때, 입력신호의 대응하는 평가된 짧은-시간 지각 대역 스펙트럼을 사용해서 노이즈의 장기간의 지각 대역 스펙트럼의 평가를 갱신하는 단계,
    노이즈의 장기간의 지각 대역 스펙트럼의 상기 평가와 입력신호의 평가된 짧은-시간 지각 대역 스펙트럼을 기초로 노이즈 억제 주파수 응답을 결정하는 단계 및,
    상기 노이즈 억제 주파수 응답에 따라서 입력신호의 현재블록을 성형하는 단계를 구비하여 구성된 것을 특징으로 하는 노이즈와 스피치의 조합을 반송하는 입력신호에서 노이즈를 억제하기 위한 방법.
  2. 제1항에 있어서, 고주파성분을 엠퍼시스하기 위해서 상기 처리단계에 앞서서 상기 입력신호를 미리-필터링하는 단계를 더 구비하여 구성된 것을 특징으로 하는노이즈와 스피치의 조합을 반송하는 입력신호에서 노이즈를 억제하기 위한 방법.
  3. 제2항에 있어서, 상기 처리단계는, 각 블록의 복소수-값의 주파수영역을 제공하기 위해서 이산 퓨리에변환을 신호블록에 적용하는 단계와,
    신호블록의 주파수영역 표현을 신호만의 크기로 전환시키는 단계,
    상기 장기간의 지각-대역 스펙트럼 평가를 제공하기 위해서 디스조인트 주파수대역에 걸쳐서 신호만의 크기를 평균하는 단계 및,
    상기 짧은-시간 지각 대역 스펙트럼 평가를 제공하기 위해서 지각 대역 스펙트럼에서 시간 분산을 평활하는 단계를 구비하여 구성된 것을 특징으로 하는 노이즈와 스피치의 조합을 반송하는 입력신호에서 노이즈를 억제하기 위한 방법.
  4. 제3항에 있어서, 상기 노이즈 억제 주파수 응답은, 상기 성형단계동안 올-폴필터를 사용해서 모델화되는 것을 특징으로 하는 노이즈와 스피치의 조합을 반송하는 입력신호에서 노이즈를 억제하기 위한 방법.
  5. 제1항에 있어서, 상기 노이즈 억제 주파수 응답은, 상기 성형단계동안 올-폴필터를 사용해서 모델화되는 것을 특징으로 하는 노이즈와 스피치의 조합을 반송하는 입력신호에서 노이즈를 억제하기 위한 방법.
  6. 제1항에 있어서, 상기 처리단계는, 각 블록의 복소수-값의 주파수영역 표현을 제공하기 위해서 이산퓨리에변환을 신호블록에 적용하는 단계와,
    신호블록의 주파수영역 표현을 신호만의 크기로 전환하는 단계,
    장기간의 지각-대역 스펙트럼 평가를 제공하기 위해서 디스조인트 주파수를 가로질러 신호만의 크기를 평균하는 단계 및,
    상기 짧은-시간 지각 대역 스펙트럼 평가를 제공하기 위해서 지각 대역 스펙트럼의 시간 분산을 평활하는 단계를 구비하여 구성되는 것을 특징으로 하는 노이즈와 스피치의 조합을 반송하는 입력신호에서 노이즈를 억제하기 위한 방법.
  7. 노이즈와 스피치의 조합을 반송하는 입력신호에서 노이즈를 억제하기 위한 장치로서, 이 장치가,
    상기 입력신호를 신호블록으로 분할하는 신호 프로세서와,
    상기 입력신호의 복소수-값의 주파수영역 스펙트럼을 제공하기 위해서, 상기 블록을 처리하기 위한 빠른 퓨리에변환 프로세서,
    상기 복소수-값의 주파수영역 스펙트럼을 동일하지 않은 폭을 갖는 주파수대역을 구비하여 구성되는 장기간의 지각-대역 스펙트럼으로 누산하는 누산기,
    상기 장기간의 지각-대역 스펙트럼 플라스 노이즈의 현재세그먼트를 구비하여 구성되는 짧은-시간 지각-대역 스펙트럼의 평가를 생성하기 위해서, 장기간의 지각-대역 스펙트럼을 필터링하는 필터,
    상기 입력신호가 노이즈만인지 또는 스피치와 노이즈의 조합인지를 결정하기 위한 스피치/포우즈 검출기,
    입력신호가 노이즈만일 때, 입력신호의 짧은-시간 지각 대역 스펙트럼에 기초한 노이즈의 장기간의 지각 대역 스펙트럼의 평가를 갱신하기 위해서 상기 스피치/포우즈 검출회로에 응답하는 노이즈 스펙트럼 평가기,
    노이즈 억제 주파수 응답을 결정하기 위해서 상기 노이즈 스펙트럼 평가기에 응답하는 스펙트럼의 이득 프로세서 및,
    입력신호의 현재블록을 생성하여 노이즈를 억제하기 위해 상기 스펙트럼의 이득 프로세서에 응답하는 스펙트럼의 성형 프로세서를 구비하여 구성되는 것을 특징으로 하는 노이즈와 스피치의 조합을 반송하는 입력신호에서 노이즈를 억제하기 위한 장치.
  8. 제7항에 있어서, 상기 상기 스펙트럼의 성형 프로세서는 올-폴필터를 구비하여 구성되는 것을 특징으로 하는 노이즈와 스피치의 조합을 반송하는 입력신호에서 노이즈를 억제하기 위한 장치.
  9. 제8항에 있어서, 상기 신호 프리프로세서는, 고주파 성분을 엄퍼시스하기 위해서 상기 입력신호를 미리 필터링하는 것을 특징으로 하는 노이즈와 스피치의 조합을 반송하는 입력신호에서 노이즈를 억제하기 위한 장치.
  10. 제7항에 있어서, 상기 신호프로세서는, 고주파 성분을 엠퍼시스하기 위해서 상기 입력신호를 미리 필터링하는 것을 특징으로 하는 노이즈와 스피치의 조합을반송하는 입력신호에서 노이즈를 억제하기 위한 장치.
  11. 노이즈와 오디오정보의 조합을 반송하는 입력신호에서 노이즈를 억제하기 위한 방법으로, 이 방법이,
    주파수영역에서 상기 입력신호를 위해서 노이즈 억제 주파수 응답을 계산하는 단계와,
    입력신호의 노이즈를 억제하기 위해서 상기 노이즈 억제 주파수가 시간영역내의 상기 입력신호에 응답하는 단계를 구비하여 구성되는 것을 특징으로 하는 노이즈와 오디오정보의 조합을 반송하는 입력신호에서 노이즈를 억제하기 위한 방법.
  12. 제11항에 있어서, 노이즈 억제 주파수 응답을 계산하는 것에 앞서서, 입력신호를 블록으로 분할하는 단계를 더 구비하여 구성된 것을 특징으로 하는 노이즈와 오디오정보의 조합을 반송하는 입력신호에서 노이즈를 억제하기 위한 방법.
  13. 제12항에 있어서, 상기 노이즈 억제 주파수 응답이, 노이즈 억제 주파수 응답의 자동상관관계 함수를 결정함으로써 생성된 올-폴필터를 매개로 상기 입력신호에 적용되는 것을 특징으로 하는 노이즈와 오디오정보의 조합을 반송하는 입력신호에서 노이즈를 억제하기 위한 방법.
  14. 제11항에 있어서, 상기 노이즈 억제 주파수 응답이, 노이즈 억제 주파수 응답의 자동상관관계 함수를 결정함으로써 생성되는 올-폴필터를 매개로 상기 입력신호에 적용되는 것을 특징으로 하는 노이즈와 오디오정보의 조합을 반송하는 입력신호에서 노이즈를 억제하기 위한 방법.
KR1020017003777A 1998-09-23 1999-09-15 저비트율 스피치 코더용 노이즈 억제 방법 및 그 장치 KR20010075343A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/159,358 1998-09-23
US09/159,358 US6122610A (en) 1998-09-23 1998-09-23 Noise suppression for low bitrate speech coder
PCT/US1999/021033 WO2000017859A1 (en) 1998-09-23 1999-09-15 Noise suppression for low bitrate speech coder

Publications (1)

Publication Number Publication Date
KR20010075343A true KR20010075343A (ko) 2001-08-09

Family

ID=22572262

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020017003777A KR20010075343A (ko) 1998-09-23 1999-09-15 저비트율 스피치 코더용 노이즈 억제 방법 및 그 장치
KR1020007005629A KR100330230B1 (ko) 1998-09-23 1999-09-22 잡음 억제 방법 및 장치

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020007005629A KR100330230B1 (ko) 1998-09-23 1999-09-22 잡음 억제 방법 및 장치

Country Status (10)

Country Link
US (1) US6122610A (ko)
EP (1) EP1116224A4 (ko)
JP (1) JP2003517624A (ko)
KR (2) KR20010075343A (ko)
CN (2) CN1326584A (ko)
AU (2) AU6037899A (ko)
BR (1) BR9913011A (ko)
CA (2) CA2344695A1 (ko)
IL (1) IL136090A0 (ko)
WO (2) WO2000017859A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100434723B1 (ko) * 2001-12-24 2004-06-07 주식회사 케이티 음성 신호특성을 이용한 돌발잡음 제거장치 및 그 방법

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6351731B1 (en) 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
KR100281181B1 (ko) * 1998-10-16 2001-02-01 윤종용 약전계에서 코드 분할 다중 접속 시스템의 코덱 잡음 제거 방법
US7177805B1 (en) * 1999-02-01 2007-02-13 Texas Instruments Incorporated Simplified noise suppression circuit
US6397177B1 (en) * 1999-03-10 2002-05-28 Samsung Electronics, Co., Ltd. Speech-encoding rate decision apparatus and method in a variable rate
US6507623B1 (en) * 1999-04-12 2003-01-14 Telefonaktiebolaget Lm Ericsson (Publ) Signal noise reduction by time-domain spectral subtraction
US6351729B1 (en) * 1999-07-12 2002-02-26 Lucent Technologies Inc. Multiple-window method for obtaining improved spectrograms of signals
US6980950B1 (en) * 1999-10-22 2005-12-27 Texas Instruments Incorporated Automatic utterance detector with high noise immunity
WO2001039175A1 (fr) * 1999-11-24 2001-05-31 Fujitsu Limited Procede et appareil de detection vocale
US6473733B1 (en) * 1999-12-01 2002-10-29 Research In Motion Limited Signal enhancement for voice coding
JP2001166782A (ja) * 1999-12-07 2001-06-22 Nec Corp 報知信号発生方法及び装置
US6317456B1 (en) * 2000-01-10 2001-11-13 The Lucent Technologies Inc. Methods of estimating signal-to-noise ratios
US9609278B2 (en) 2000-04-07 2017-03-28 Koplar Interactive Systems International, Llc Method and system for auxiliary data detection and delivery
DE10017646A1 (de) * 2000-04-08 2001-10-11 Alcatel Sa Geräuschunterdrückung im Zeitbereich
US6463408B1 (en) 2000-11-22 2002-10-08 Ericsson, Inc. Systems and methods for improving power spectral estimation of speech signals
US7617099B2 (en) * 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
EP1244094A1 (de) * 2001-03-20 2002-09-25 Swissqual AG Verfahren und Vorrichtung zur Bestimmung eines Qualitätsmasses eines Audiosignals
KR20020082643A (ko) * 2001-04-25 2002-10-31 주식회사 호서텔넷 고속 푸우리에 변환(fft) 및 역고속 푸우리에변환(ifft)을 이용한 송,수신기의 동기검출장치
WO2003001173A1 (en) * 2001-06-22 2003-01-03 Rti Tech Pte Ltd A noise-stripping device
US6952482B2 (en) * 2001-10-02 2005-10-04 Siemens Corporation Research, Inc. Method and apparatus for noise filtering
US8718687B2 (en) * 2002-03-26 2014-05-06 Zoove Corp. System and method for mediating service invocation from a communication device
US8326621B2 (en) * 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US7885420B2 (en) * 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7593851B2 (en) * 2003-03-21 2009-09-22 Intel Corporation Precision piecewise polynomial approximation for Ephraim-Malah filter
US7330511B2 (en) 2003-08-18 2008-02-12 Koplar Interactive Systems International, L.L.C. Method and system for embedding device positional data in video signals
US7224810B2 (en) * 2003-09-12 2007-05-29 Spatializer Audio Laboratories, Inc. Noise reduction system
US9055239B2 (en) 2003-10-08 2015-06-09 Verance Corporation Signal continuity assessment using embedded watermarks
US7454332B2 (en) * 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
KR100657912B1 (ko) * 2004-11-18 2006-12-14 삼성전자주식회사 잡음 제거 방법 및 장치
US20060133621A1 (en) * 2004-12-22 2006-06-22 Broadcom Corporation Wireless telephone having multiple microphones
US20070116300A1 (en) * 2004-12-22 2007-05-24 Broadcom Corporation Channel decoding for wireless telephones with multiple microphones and multiple description transmission
US20060147063A1 (en) * 2004-12-22 2006-07-06 Broadcom Corporation Echo cancellation in telephones with multiple microphones
US8509703B2 (en) * 2004-12-22 2013-08-13 Broadcom Corporation Wireless telephone with multiple microphones and multiple description transmission
US7983720B2 (en) * 2004-12-22 2011-07-19 Broadcom Corporation Wireless telephone with adaptive microphone array
KR100738341B1 (ko) * 2005-12-08 2007-07-12 한국전자통신연구원 성대신호를 이용한 음성인식 장치 및 그 방법
KR100784456B1 (ko) * 2005-12-08 2007-12-11 한국전자통신연구원 Gmm을 이용한 음질향상 시스템
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US9185487B2 (en) * 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8744844B2 (en) 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US8934641B2 (en) 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
US8428661B2 (en) * 2007-10-30 2013-04-23 Broadcom Corporation Speech intelligibility in telephones with multiple microphones
US20090111584A1 (en) 2007-10-31 2009-04-30 Koplar Interactive Systems International, L.L.C. Method and system for encoded information processing
US8296136B2 (en) * 2007-11-15 2012-10-23 Qnx Software Systems Limited Dynamic controller for improving speech intelligibility
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
US9142221B2 (en) * 2008-04-07 2015-09-22 Cambridge Silicon Radio Limited Noise reduction
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
CN101770776B (zh) 2008-12-29 2011-06-08 华为技术有限公司 瞬态信号的编码方法和装置、解码方法和装置及处理系统
US8582781B2 (en) 2009-01-20 2013-11-12 Koplar Interactive Systems International, L.L.C. Echo modulation methods and systems
US8715083B2 (en) 2009-06-18 2014-05-06 Koplar Interactive Systems International, L.L.C. Methods and systems for processing gaming data
USRE48462E1 (en) * 2009-07-29 2021-03-09 Northwestern University Systems, methods, and apparatus for equalization preference learning
CN102044241B (zh) 2009-10-15 2012-04-04 华为技术有限公司 一种实现通信系统中背景噪声的跟踪的方法和装置
US20110125497A1 (en) * 2009-11-20 2011-05-26 Takahiro Unno Method and System for Voice Activity Detection
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US8745403B2 (en) 2011-11-23 2014-06-03 Verance Corporation Enhanced content management based on watermark extraction records
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US8726304B2 (en) 2012-09-13 2014-05-13 Verance Corporation Time varying evaluation of multimedia content
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
JP6059003B2 (ja) * 2012-12-26 2017-01-11 パナソニック株式会社 歪み補償装置及び歪み補償方法
US9262794B2 (en) 2013-03-14 2016-02-16 Verance Corporation Transactional video marking system
US9485089B2 (en) 2013-06-20 2016-11-01 Verance Corporation Stego key management
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US10504200B2 (en) 2014-03-13 2019-12-10 Verance Corporation Metadata acquisition using embedded watermarks
CN106170988A (zh) 2014-03-13 2016-11-30 凡瑞斯公司 使用嵌入式代码的交互式内容获取
CN106068535B (zh) * 2014-03-17 2019-11-05 皇家飞利浦有限公司 噪声抑制
EP3183882A4 (en) 2014-08-20 2018-07-04 Verance Corporation Content management based on dither-like watermark embedding
US9799330B2 (en) 2014-08-28 2017-10-24 Knowles Electronics, Llc Multi-sourced noise suppression
US9942602B2 (en) 2014-11-25 2018-04-10 Verance Corporation Watermark detection and metadata delivery associated with a primary content
US9769543B2 (en) 2014-11-25 2017-09-19 Verance Corporation Enhanced metadata and content delivery using watermarks
US9602891B2 (en) 2014-12-18 2017-03-21 Verance Corporation Service signaling recovery for multimedia content using embedded watermarks
WO2016176056A1 (en) 2015-04-30 2016-11-03 Verance Corporation Watermark based content recognition improvements
US10477285B2 (en) 2015-07-20 2019-11-12 Verance Corporation Watermark-based data recovery for content with multiple alternative components
WO2017184648A1 (en) 2016-04-18 2017-10-26 Verance Corporation System and method for signaling security and database population
US11297398B2 (en) 2017-06-21 2022-04-05 Verance Corporation Watermark-based metadata acquisition and processing
US11468149B2 (en) 2018-04-17 2022-10-11 Verance Corporation Device authentication in collaborative content screening
CN112562701B (zh) * 2020-11-16 2023-03-28 华南理工大学 心音信号双通道自适应降噪算法、装置、介质及设备
US11722741B2 (en) 2021-02-08 2023-08-08 Verance Corporation System and method for tracking content timeline in the presence of playback rate changes
CN115173971B (zh) * 2022-07-08 2023-10-03 电信科学技术第五研究所有限公司 一种基于频谱数据的宽带信号实时检测方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US4658426A (en) * 1985-10-10 1987-04-14 Harold Antin Adaptive noise suppressor
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
US5040217A (en) * 1989-10-18 1991-08-13 At&T Bell Laboratories Perceptual coding of audio signals
US5450522A (en) * 1991-08-19 1995-09-12 U S West Advanced Technologies, Inc. Auditory model for parametrization of speech
FI92535C (fi) * 1992-02-14 1994-11-25 Nokia Mobile Phones Ltd Kohinan vaimennusjärjestelmä puhesignaaleille
US5432859A (en) * 1993-02-23 1995-07-11 Novatel Communications Ltd. Noise-reduction system
WO1995002288A1 (en) * 1993-07-07 1995-01-19 Picturetel Corporation Reduction of background noise for speech enhancement
IT1272653B (it) * 1993-09-20 1997-06-26 Alcatel Italia Metodo di riduzione del rumore, in particolare per riconoscimento automatico del parlato, e filtro atto ad implementare lo stesso
CA2153170C (en) * 1993-11-30 2000-12-19 At&T Corp. Transmitted noise reduction in communications systems
JP3484757B2 (ja) * 1994-05-13 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び雑音区間検出方法
US5544250A (en) * 1994-07-18 1996-08-06 Motorola Noise suppression system and method therefor
FR2726392B1 (fr) * 1994-10-28 1997-01-10 Alcatel Mobile Comm France Procede et dispositif de suppression de bruit dans un signal de parole, et systeme avec annulation d'echo correspondant
SE505156C2 (sv) * 1995-01-30 1997-07-07 Ericsson Telefon Ab L M Förfarande för bullerundertryckning genom spektral subtraktion
US5682463A (en) * 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
US5659622A (en) * 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100434723B1 (ko) * 2001-12-24 2004-06-07 주식회사 케이티 음성 신호특성을 이용한 돌발잡음 제거장치 및 그 방법

Also Published As

Publication number Publication date
KR100330230B1 (ko) 2002-05-09
AU6007999A (en) 2000-04-10
WO2000017859A8 (en) 2000-07-20
AU6037899A (en) 2000-04-10
CN1286788A (zh) 2001-03-07
EP1116224A1 (en) 2001-07-18
CN1326584A (zh) 2001-12-12
CA2310491A1 (en) 2000-03-30
WO2000017859A1 (en) 2000-03-30
CA2344695A1 (en) 2000-03-30
JP2003517624A (ja) 2003-05-27
IL136090A0 (en) 2001-05-20
EP1116224A4 (en) 2003-06-25
US6122610A (en) 2000-09-19
KR20010032390A (ko) 2001-04-16
WO2000017855A1 (en) 2000-03-30
BR9913011A (pt) 2001-03-27

Similar Documents

Publication Publication Date Title
KR20010075343A (ko) 저비트율 스피치 코더용 노이즈 억제 방법 및 그 장치
US6415253B1 (en) Method and apparatus for enhancing noise-corrupted speech
US8073689B2 (en) Repetitive transient noise removal
US9064498B2 (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
US6529868B1 (en) Communication system noise cancellation power signal calculation techniques
WO2000036592A1 (en) Improved noise spectrum tracking for speech enhancement
WO2001073761A9 (en) Relative noise ratio weighting techniques for adaptive noise cancellation
KR102012325B1 (ko) 오디오 신호의 배경 잡음 추정
US8326621B2 (en) Repetitive transient noise removal
Upadhyay et al. An improved multi-band spectral subtraction algorithm for enhancing speech in various noise environments
WO2001073751A1 (en) Speech presence measurement detection techniques
Zhang et al. Fast nonstationary noise tracking based on log-spectral power mmse estimator and temporal recursive averaging
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
KR20200095370A (ko) 음성 신호에서의 마찰음의 검출
KR100798056B1 (ko) 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법
KR20000056371A (ko) 가능성비 검사에 근거한 음성 유무 검출 장치
KR101993003B1 (ko) 잡음 제거 장치 및 방법
Eaton et al. A comparison of non-intrusive SNR estimation algorithms and the use of mapping functions
Upadhyay An improved multi-band speech enhancement utilizing masking properties of human hearing system
Udrea et al. Reduction of background noise from affected speech using a spectral subtraction algorithm based on masking properties of the human ear
Upadhyay et al. An auditory perception based improved multi-band spectral subtraction algorithm for enhancement of speech degraded by non-stationary noises
Ma et al. A perceptual kalman filtering-based approach for speech enhancement
Singh et al. Sigmoid based Adaptive Noise Estimation Method for Speech Intelligibility Improvement
Hannon et al. Advanced speech enhancement with partial speech reconstruction
Lin et al. Speech enhancement based on a perceptual modification of Wiener filtering

Legal Events

Date Code Title Description
N231 Notification of change of applicant
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid