KR101120679B1 - 이득-제한된 잡음 억제 - Google Patents

이득-제한된 잡음 억제 Download PDF

Info

Publication number
KR101120679B1
KR101120679B1 KR1020050051309A KR20050051309A KR101120679B1 KR 101120679 B1 KR101120679 B1 KR 101120679B1 KR 1020050051309 A KR1020050051309 A KR 1020050051309A KR 20050051309 A KR20050051309 A KR 20050051309A KR 101120679 B1 KR101120679 B1 KR 101120679B1
Authority
KR
South Korea
Prior art keywords
noise
gain factors
frequency
gain
smoothing
Prior art date
Application number
KR1020050051309A
Other languages
English (en)
Other versions
KR20060046450A (ko
Inventor
가즈히또 고이시다
펭 주게
호삼 에이. 칼릴
티안 왕
웨이-게 첸
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20060046450A publication Critical patent/KR20060046450A/ko
Application granted granted Critical
Publication of KR101120679B1 publication Critical patent/KR101120679B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/24Signal processing not specific to the method of recording or reproducing; Circuits therefor for reducing noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

스피치를 위한 이득-제한된 잡음 억제는, 잡음 억제로부터 도입되는 음악적 잡음 아티팩트들(musical noise artifacts)을 줄이기 위해, 스피치 동안을 포함하여, 보다 정확하게 잡음을 추정한다. 잡음 억제는 스펙트럼 이득 G(m,k)을 스피치 신호의 각각의 단시간 스펙트럼 값 S(m,k)에 적용함으로써 동작하는데, 여기서, m은 프레임 개수이고, k는 스펙트럼 지수이다. 스펙트럼 값들은 주파수 빈들(frequency bins)로 그룹화되고, 각각의 빈에 대하여 추정된 잡음 특성은 "잡음있는 빈"으로 분류된다. 빈(bin)당 잡음 추정을 향상시키기 위해 시간 영역과 주파수 영역 둘다에서 에너지 파라미터가 평활화된다. 이득 인수들 G(m,k)은 현재의 신호 스펙트럼 및 잡음 추정에 근거하여 계산되고, 그 다음, 신호 스펙트럼 값들 S(m,k)에 적용되기 전에 평활화된다. 먼저, 현재의 프레임에 대한 전체 빈들의 개수에 대한 잡음있는 빈들의 개수의 비에 근거하여 잡음 인수가 계산되는데, 여기서, 0의 값을 갖는 잡음 인수는 단지 모든 스펙트럼 값들에 대하여 고정 이득을 이용하는 것을 의미하고, 1의 값을 갖는 잡음 인수는 전혀 평활화되지 않음을 의미한다. 그 다음, 이 잡음 인수는, 주파수 영역에서 이득 인수들의 고주파수 성분들을 컷오프하는 것에 의해서와 같이, 이득 인수들을 변경하기 위해 이용된다.
주파수, 잡음, 이득, 프레임, 스펙트럼

Description

이득-제한된 잡음 억제{GAIN-CONSTRAINED NOISE SUPPRESSION}
도 1은 본 명세서에 기재된 이득-제한된 잡음 억제 기술을 구현하는 스피치 잡음 억제기의 블록도.
도 2는 도 1의 스피치 잡음 억제기에서 수행되는 이득-제한된 잡음 억제 처리를 예시한 흐름도.
도 3은 도 2의 이득-제한된 잡음 억제 처리에서의 입력 스피치 신호에 적용된 오버랩된 윈도우잉 함수(overlapped windowing function)를 예시한 그래프.
도 4는 도 2의 이득-제한된 잡음 억제 처리에서 수행되는 갱신 판정 검사를 도시한 흐름도.
도 5 및 도 6은 도 2의 이득-제한된 잡음 억제 처리에서 수행되는 갱신 판정 검사에 근거한 잡음 통계(평균 및 분산, 각각)의 갱신을 도시한 흐름도.
도 7은 도 1의 스피치 잡음 억제기를 구현하기 위한 적절한 컴퓨팅 환경의 블록도.
<도면의 주요 부분에 대한 부호의 설명>
100: 이득-제한된 잡음 억제 시스템 115: 스피치 신호
120: 잡음 억제기 125: 잡음-억제된 스피치 신호
130: 오디오 신호 처리기 135: 처리된 신호/파라미터들 출력
본 발명은 일반적으로 디지털 오디오 신호 처리에 관한 것으로, 특히, 음성(voice) 또는 스피치(speech) 신호들에서의 잡음 억제에 관한 것이다.
스피치 신호들의 잡음 억제(noise suppression: NS)는 많은 애플리케이션들에 대하여 유용할 수 있다. 예를 들어, 셀룰러 전화기에 있어서, 잡음 억제는 잡음 환경들에서 이루어진 호출들로부터 보다 쉽게 이해할 수 있는 스피치를 제공하기 위해 배경 잡음을 제거하는데에 이용될 수 있다. 이와 마찬가지로, 잡음 억제는 원격회의, 온라인 게임들에서의 음성 채팅, 인터넷-기반의 음성 메시징 및 음성 채팅, 및 다른 이와 같은 통신 애플리케이션들에 있어서 지각 품질(perceptual quality) 및 스피치 이해도(speech intelligibility)를 향상시킬 수 있다. 입력 오디오 신호는, 레코딩 환경이 이상적인 것보다 못하기 때문에, 전형적으로 이들 애플리케이션들에 대해 잡음을 가진다. 또한, 잡음 억제는 (예를 들어, 윈도우즈 미디어 보이스 코덱(Windows Media Voice codec) 및 다른 이와 같은 코덱들을 통한) 음성 신호들의 코딩 또는 압축 이전에 이용되었을 때 압축 성능을 향상시킬 수 있다. 잡음 억제는 또한 스피치 인식(speech recognition) 이전에 적용되면, 인식 정확도를 향상시킬 수 있다.
스펙트럼 감산(spectral subtraction) 및 최소 평균 제곱 에러(Minimum Mean Square Error: MMSE)와 같은, 스피치 신호들에서의 잡음 억제를 위한 몇가지 공지 된 기술들이 존재한다. 이들 공지 기술들 중 거의 모든 기술들은 스피치 신호의 각각의 단시간(short-time) 스펙트럼 값 S(m,k)에, 스피치 신호 내의 잡음의 추정에 근거한 스펙트럼 이득 G(m,k)을 적용함으로써 잡음을 억제하는데, 여기서, m은 프레임 개수이고, k는 스펙트럼 지수이다. (예를 들어, S.F. Boll, A. V. Oppenheim, "Suppression of acoustic noise in speech using spectral subtraction", IEEE Trans. Acoustics, Sppech and Signal Processing, ASSP-27(2), April 1979; 및 Rainer Martin, "Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics", IEEE Transactions on Speech and Audio Processing, Vol.9, No. pp.504-512, July 2001을 참조한다.) 신호 내의 잡음을 억제하기 위하여, 잡음을 포함하는 것으로 추정되는 스펙트럼 값들에 매우 낮은 스펙트럼 이득이 적용된다.
불행하게도, 잡음 억제의 이용은 스피치 신호 내에 인공 왜곡들(artificial distortions)(가청 "아티팩트들(artifacts)")을 삽입할 수 있는데, 이것은 예를 들어, 잡음 억제에 의해 적용된 스펙트럼 이득이 너무 크거나(잡음보다 많이 제거함), 너무 작기(잡음을 완전히 제거하지 못함) 때문이다. 많은 NS 기술들이 겪는 하나의 아티팩트는 음악적 잡음(musical noise)이라고 불리며, 여기서, NS 기술은 입력에 존재하지 않았던 멜로디 오디오 신호 패턴(melodic audio signal pattern)으로서 인지되는 아티팩트를 삽입한다. 어떤 경우들에 있어서, 이 음악적 잡음은 입력 신호에 존재하는 스피치의 부정확한 표현이 되는 것 이외에, 두드러지게 나타나게 되고 혼란스럽게 할 수 있다.
본 명세서에 기재된 스피치 잡음 억제기 구현에 있어서, 잡음 억제 정확도를 향상시키고 이것에 의해 음악적 잡음 아티팩트들의 발생을 줄이기 위하여, 독창적인 이득-제한된 기술이 도입된다. 이 기술은 스피치 중의 중단들(pauses) 동안만이 아니라, 스피치 동안의 잡음 스펙트럼을 추정함으로써, 이러한 잡음 추정은 긴 스피치 주기 동안 보다 정확하게 유지될 수 있다. 또한, 보다 나은 잡음 추정을 달성하기 위하여 잡음 추정 평활화(noise estimation smoothing)가 이용된다. 듣기 테스트는 이러한 이득-제한된 잡음 억제를 나타내며, 잡음 추정 평활화 기술들은 스피치 신호들의 음성 품질을 현저하게 향상시킨다.
이득-제한된 잡음 억제 및 평활화된 잡음 추정 기술들은 각각의 단시간 스펙트럼 값 S(m,k)에 스펙트럼 이득 G(m,k)을 적용함으로써 동작하는 잡음 억제기 구현들에 있어 이용될 수 있다. 여기서, m은 프레임 개수이고, k는 스펙트럼 지수이다.
하나의 예시적인 잡음 억제기 구현에 있어 보다 구체적으로, 입력 음성 신호가 프레임들로 분할된다. 각각의 프레임에 분석 윈도우(analysis window)가 적용되고, 그 다음에 신호는 고속 푸리에 변환(Fast Fourier Transform: FFT)을 이용하여 주파수 영역 신호 S(m,k)로 변환된다. 스펙트럼 값들은 추가적인 처리를 위해 N개의 빈들로 그룹화된다. 잡음있는 빈으로 분류된 경우 각각의 빈에 대하여 잡음 특성이 추정된다. 빈당 보다 나은 잡음 추정을 얻기 위하여 시간 영역과 주파수 영역 둘다에서 에너지 파라미터가 평활화된다. 이득 인수들 G(m,k)은 현재의 신호 스펙트럼 및 잡음 추정에 근거하여 계산된다. 신호 스펙트럼 값들 S(m,k)에 대해 적용되기 전에 이득 인수들을 평활화하기 위하여 이득 평활화 필터가 적용된다. 이 수정된 신호 스펙트럼은 출력을 위해 시간 영역으로 변환된다.
이득 평활화 필터는 스펙트럼 값들에 적용되기 전에 이득 인수들을 평활화하기 위해 2개의 단계를 수행한다. 먼저, 현재의 프레임에 대하여 잡음 인수
Figure 112005031543858-pat00001
가 계산된다. 이것은 전체 빈들의 개수에 대한 잡음있는 빈들의 개수의 비에 근거하여 결정된다. 0의 값을 갖는 잡음 인수
Figure 112005031543858-pat00002
는 단지 모든 스펙트럼 값들에 대하여 고정 이득을 이용하는 것을 의미하고, 반면에 잡음 인수
Figure 112005031543858-pat00003
는 전혀 평활화되지 않음을 의미한다. 그 다음, 이 잡음 인수를 이용해서 이득 인수들 G(m,k)을 변경하여, 평활화된 이득 인수들 Gs(m,k)을 생성한다. 이 예시적인 잡음 억제기 구현에 있어서, 이것은, G(m,k)에 대하여 FFT를 적용하고, 그 다음에 고주파수 성분들을 컷오프함으로써 행해진다.
본 발명의 추가적인 특징들 및 이점들은 첨부 도면들을 참조하여 진행되는 실시예들의 다음의 상세한 설명으로부터 명백해질 것이다.
다음의 설명은 오디오 또는 스피치 처리 시스템들에서 사용하기 위한 이득-제한된 잡음 억제 기술들에 관한 것이다. 도 1에 도시된 바와 같이, 이 이득-제한된 잡음 억제 기술은, 결과로 생긴 잡음-억제된 스피치 신호(125)를 (코딩 또는 압축, 음성 채팅 또는 원격회의, 스피치 인식 등과 같은) 다양한 종류의 오디오 신호 처리기들(130)에 의해 처리하기 전에, 이득-제한된 잡음 억제 시스템(100)에서의 (잡음 억제기(120)에 의한) 사전-처리로서 스피치 신호(115)에 적용될 수 있다. 오디오 신호 처리기는 (스피치 또는 오디오 신호, 스피치 인식 또는 다른 분석 파라미터들 등과 같은) 처리된 신호 출력(135)을 생성하고, 처리된 신호 출력(135)은 이득-제한된 잡음 억제에 의해 (예를 들어, 지각 품질, 인식 또는 분석 정확도 등에 있어서) 향상될 수 있다.
1. 실시예
도 2는 잡음 억제기(120)(도 1)에서 수행되는 이득-제한된 잡음 억제 처리(200)를 도시한다. 이득-제한된 잡음 억제 처리(200)는 마이크로폰 또는 스피치 신호 레코딩으로부터와 같이, 스피치 신호의 입력(210)으로 시작한다. 스피치 신호는 전형적으로 8000, 11025, 16000, 22050Hz 또는 애플리케이션에 적절한 다른 속도일 수 있는 샘플링 속도 Fs로 디지털화되거나 시간-샘플링된다. 그 다음, 입력 스피치 신호는 x(i)로 표시되는, 스피치 신호 샘플들의 시퀀스 또는 스트림의 형태를 갖는다.
프리엠퍼시스(pre-amphasis) 단계(220)에서, 이 입력 스피치 신호 x(i)는 (다른 형태의 엠퍼시스가 대안적으로 이용될 수도 있지만) 예를 들어, 고역 필터링(high-pass filtering)을 통하여, 스피치를 강조하도록 처리된다. 먼저, 160개 샘플들일 수 있는, 사전 설정된 길이 N의 프레임들로 스피치 신호 샘플들을 그룹화하기 위해 프레임화(framing)가 수행된다. 프레임화된 스피치 신호는 x(m,n)으로 표시되고, 여기서, m은 프레임 개수이고, n은 프레임 내의 샘플의 개수이다. 엠퍼시 스를 위한 적절한 고역 필터링은 다음의 공식으로 표시될 수 있다.
Figure 112005031543858-pat00004
여기서, β의 적절한 값은 -0.8이다. 이 고역 필터는 다음의 식에서와 같이, 자신의 바로 이전 샘플을 갖는 입력 스피치 신호의 대응하는 샘플의 가중 이동 평균(weighted moving average)으로서, 강조된 스피치 신호 xh(m,n)를 계산함으로써 실현될 수 있다.
Figure 112005031543858-pat00005
그 다음, 오버랩(overlap) 단계(230) 및 윈도우 단계(231)에서, 스피치-강조된 신호의 오버랩 프레임 함수에 대하여 (도 3에 도시된) 윈도우잉 함수(windowing function)(300)가 적용된다. 하나의 예시적인 구현에 있어서, 윈도우 길이(L=256) 및 프레임 오버랩(Lw=48)을 갖는 윈도우잉 함수 w(n)가 아래에 주어진다.
Figure 112005031543858-pat00006
이 윈도우잉 함수는 아래에 주어진, 강조된(고역 필터링된) 신호 xh(m,n-Lw)의 오버랩된 프레임(xw)에 의해 곱해진다.
Figure 112005031543858-pat00007
이 곱셈은 다음의 식에서와 같이, 윈도우잉된 신호 sw(m,n)를 생성한다.
Figure 112005031543858-pat00008
윈도우잉 후에, 스피치 신호는 (예를 들어, 고속 푸리에 변환(FFT)(240) 또는 다른 이와 같은 변환을 이용한) 주파수 분석을 통하여 주파수 영역으로 변환된다. 이것은, 다음의 식에 나타낸 바와 같이, 신호의 각각의 프레임에 대한 스펙트럼 계수들 또는 주파수 스펙트럼의 세트를 산출한다.
Figure 112005031543858-pat00009
스펙트럼 계수들은 복소값들(complex values)이고, 이에 따라, 스피치 신호의 스펙트럼 진폭(SA)과 위상(SP) 둘다를 다음의 관계식들에 따라 표현한다.
Figure 112005031543858-pat00010
Figure 112005031543858-pat00011
스펙트럼 진폭은 잡음 억제에 사용될 이득의 보다 정확한 추정을 제공하기 위해 다음의 처리에서 분석되고, 반면에 위상은 역 FFT에서 사용하기 위해 보존된다.
단계들(250-251)에서, 각각의 프레임에 대한 스펙트럼의 에너지 대역들에 대 하여 주파수 및 시간 영역 평활화가 수행된다. 먼저, 주파수 영역에서의 슬라이딩 윈도우 평활화(sliding window smoothing)가 다음의 식에서와 같이 수행된다.
Figure 112005031543858-pat00012
이것에 후속하여, 다음의 식에 의해 주어지는 시간 영역 평활화가 뒤따른다.
Figure 112005031543858-pat00013
여기서,
Figure 112005031543858-pat00014
이다. 여기서, γ의 값은 평활화의 양을 제어하기 위해 가변적으로 선택될 수 있는 파라미터이다. 특히, γ의 값이 비율(N/Fs)에 근접함에 따라, α는 0으로 감으로써, 결과적으로 상기 시간 영역 평활화가 적용될 때에 평활화가 적어진다. 한편, 값이 더 커짐에 따라(γ→∞), α는 단일 값(unity value)에 근접함으로써, 보다 큰 평활화를 생성한다.
단계들(260 및 261)은 프레임 에너지 및 이력상의 최저 에너지(historical lowest energy)를 각각 계산한다. 프레임 에너지는 다음의 식으로부터 계산된다.
Figure 112005031543858-pat00015
이력상의 최저 에너지는 다음의 식에 의해 주어진다.
Figure 112005031543858-pat00016
여기서, M은 전형적으로 1 또는 2초를 표시하는 일정한 파라미터이다.
갱신 검사 단계(262)에서, 잡음 억제기(120)는 주파수 빈 기초로(on frequency bin basis) 추적되는 스피치 신호의 잡음 통계를 갱신할지를 판정한다. 잡음 억제기(120)는 스피치 신호 프레임들의 스펙트럼 값들을 소정 개수의 주파수 빈들로 그룹화한다. 예시된 구현에 있어서, 스펙트럼 값들(k)은 주파수 빈당 하나의 스펙트럼 값으로 그룹화된다. 그러나, 대안적인 구현들에 있어서, 주파수 빈당 1 이상의 스펙트럼 값 또는 스펙트럼 값들의 주파수 빈들로의 비-균일 그룹화들과 같은, 프레임들의 스펙트럼 값들의 주파수 빈들로의 다양한 다른 그룹화들이 이루어질 수 있다.
도 4는 스피치 신호에 대한 잡음 통계가 갱신되는지와 어떻게 갱신되는지를 결정하기 위해 잡음 억제기(120)(도 1)에 의해 갱신 검사 단계(270)(도 2)에서 이용되는 절차(400)를 도시한다. 이 절차(400)에서, 잡음 억제기는 현재의 스피치 신호 프레임에서 잡음 통계를 재설정할지를 결정하고, 개별 주파수 빈들의 잡음 통계를 갱신할지를 또한 결정한다. 잡음 억제기는 스피치 신호의 각각의 프레임에 대하여 이 절차를 실행한다.
먼저, 잡음 통계를 재설정할지를 결정함에 있어서, 잡음 억제기는, 프레임 에너지가 다음의 식에 나타낸 바와 같이, (일반적으로 스피치 중의 중단을 나타내는) 스피치 신호에 대한 이력상의 최저 에너지의 제1 임계값 배수(threshold multiple)(λ1) 미만인지를 검사한다(결정(410)).
Figure 112005031543858-pat00017
만약 그러한 경우(블록(415)에서), 잡음 억제기는 프레임에 대한 재설정 플래그를, 현재의 프레임에서 잡음 통계가 재설정될 것임을 나타내는, 1로 설정한다(R(m)=1).
그렇지 않은 경우, 잡음 억제기는 주파수 빈들을 갱신할지를 검사하도록 진행한다. 이 검사를 위해(결정(420)), 잡음 억제기는 프레임 에너지가 다음의 식에서와 같이, (일반적으로 계속되는 스피치 중단을 나타내는) 이력상의 최저 에너지의 제2(보다 높은) 임계값 배수(λ2) 미만인지를 검사한다.
Figure 112005031543858-pat00018
만약 그러한 경우, 잡음 억제기는 프레임의 주파수 빈들에 대한 갱신 플래그들을 1로 설정한다(즉, U(m,k)=1).
그렇지 않은 경우("for" 루프 블록들(430, 460)의 내부), 잡음 억제기는 각각의 주파수 빈을 갱신할지를 주파수 빈당 기초로 결정한다. 각각의 주파수 빈에 대하여, 잡음 억제기는 프레임 에너지가 다음의 식에서와 같이, 선행 프레임에서의 각각의 주파수 빈의 잡음 평균 및 잡음 분산의 함수보다 낮은지를 검사한다.
Figure 112005031543858-pat00019
주파수 빈의 대수(logarithmic) 에너지가 선행 프레임에서의 주파수 빈의 잡음 평균 및 분산의 이 임계 함수보다 낮다면, 잡음 억제기는 블록(445)에서 주파수 빈에 대한 갱신 플래그를 1로 설정한다(U(m,k)=1). 그렇지 않다면, 현재의 주파수 빈에 대한 갱신 플래그는 블록(450)에서, 갱신이 없음을 나타내는 0으로 설정된다(U(m,k)=0).
도 2를 다시 참조하면, 블록(263)에서, 잡음 억제기는 블록(262)에서 이루어진 갱신 결정에 따라 주파수 빈당 잡음 스펙트럼 통계를 갱신한다. 주파수 빈당 추적된 잡음 통계는 잡음 평균 및 잡음 분산을 포함한다.
도 5는 스피치 신호 프레임에 대한 잡음 평균을 갱신하기 위한 절차(500)를 도시한다. 잡음 평균 갱신 절차(500)의 최초 결정(510)에서, 잡음 억제기는 재설정 플래그가 프레임에 대한 잡음 통계가 재설정될 것임(즉, R(m)=1인 경우)을 나타내는지를 검사한다. 그러한 경우, 잡음 억제기는 다음의 식에서와 같이, 주파수 빈들(0≤k<K)에 대한 잡음 평균 계산을 재설정한다.
Figure 112005031543858-pat00020
한편, 프레임에 대한 재설정 플래그가 설정되지 않은 경우(R(m)≠1), 잡음 억제기는 갱신 플래그들에 따라 주파수 빈들에 대한 잡음 평균을 갱신한다. "for" 루프(520, 550)에서, 잡음 억제기는 각각의 주파수 빈의 갱신 플래그를 검사한다(결정(530)). 갱신 플래그가 설정된 경우(U(m,k)=1), 주파수 빈에 대한 잡음 평균은 선행 프레임에서의 주파수 빈의 잡음 평균과 현재의 프레임에서의 주파수 빈의 스피치 신호의 잡음 평균의 가중치 합계(weighted sum)로서 갱신된다.
Figure 112005031543858-pat00021
그렇지 않은 경우, 다음의 식에서와 같이, 주파수 빈의 잡음 평균은 갱신되지 않고, 이에 따라 선행 프레임으로부터 진행된다.
Figure 112005031543858-pat00022
도 6은 스피치 신호 프레임에 대한 잡음 분산을 갱신하기 위한 절차(600)를 도시한다. 잡음 분산 갱신 절차(600)의 최초 결정(610)에서, 잡음 억제기는 재설정 플래그가 프레임에 대한 잡음 통계가 재설정될 것임(즉, R(m)=1인 경우)을 나타내는지를 검사한다. 그렇지 않은 경우, 잡음 억제기는 다음의 식에서와 같이, 주파수 빈들(0≤k<K)에 대한 잡음 분산 계산을 재설정한다.
Figure 112005031543858-pat00023
한편, 프레임에 대한 재설정 플래그가 설정되지 않은 경우(R(m)≠1), 잡음 억제기는 갱신 플래그들에 따라 주파수 빈들에 대한 잡음 분산을 갱신한다. "for" 루프(620, 650)에서, 잡음 억제기는 각각의 주파수 빈의 갱신 플래그를 검사한다(결정(630)). 갱신 플래그가 설정된 경우(U(m,k)=1), 주파수 빈에 대한 잡음 분산은 선행 프레임에서의 주파수 빈의 잡음 분산과 현재의 프레임에서의 주파수 빈의 스피치 신호의 잡음 분산의 가중치 함수(weighted function)로서 갱신된다.
Figure 112005031543858-pat00024
그렇지 않은 경우, 다음의 식에서와 같이, 주파수 빈의 잡음 분산은 갱신되지 않고, 이에 따라 선행 프레임으로부터 진행된다.
Figure 112005031543858-pat00025
도 2를 다시 참조하면, 이득 제한된 잡음 억제 처리(200)의 후속 단계들(270-271)에서 잡음 억제기는, 단계(272)에서 스피치 신호 스펙트럼을 수정하기 위해 이득 필터로서 적용될 단계(263)로부터의 현재의 신호 스펙트럼 및 잡음 추정에 근거하여 이득 인수들(G(m,k))을 계산하고 평활화한다.
신호대 잡음비(SNR) 이득 필터 단계(270)에서, 잡음 억제기는 먼저, 다음의 식에서와 같이 주파수 빈들의 SNR을 계산한다.
Figure 112005031543858-pat00026
그 다음, 잡음 억제기는 SNR을 이용하여, 다음과 같이, 이득 필터에 대한 이득 인수들을 계산한다.
Figure 112005031543858-pat00027
그 다음, 이득 평활화 단계(271)에서, 잡음 억제기는 프레임의 "잡음있는" 정도(본 명세서에서 "잡음 인수"라 함)의 계산에 따라 이득 인수들을 평활화하고, 여기서, 보다 많은 잡음이 있는 프레임들에는 스피치 프레임들에 적용되는 것보다 강한 평활화가 적용된다. 잡음 억제기는 다음과 같이, 전체 빈들의 개수에 대한 잡음있는 주파수 빈들(즉, 갱신을 위해 플래그된 빈들)의 개수의 비로서 프레임에 대한 잡음비를 계산한다.
Figure 112005031543858-pat00028
그 다음, 잡음 억제기는 다음과 같이, (0 내지 1의 범위로 클램핑(clamping)되는) 프레임에 대한 평활화 인수를 계산한다.
Figure 112005031543858-pat00029
이 구현에서, 잡음 억제기는 이득 필터를 주파수 영역으로 변환하기 위해 FFT를 이용하여, 주파수 영역에서 평활화를 적용한다. 주파수 영역 변환에 대하여, 잡음 억제기는 다음과 같이, 이득 인수들(G(m,k))로부터 확장된 이득 인수들(G'(m,k))의 세트를 계산한다.
Figure 112005031543858-pat00030
여기서, K는 주파수 빈들의 개수이다. L은 전형적으로 2K이다. 따라서, 확장된 이득 인수들은 효과적으로 이득 인수들을 0으로부터 K-1로 복사하고, 이득 인수들의 미러 이미지(mirror image)를 K로부터 L-1로 복사한다.
그 다음, 잡음 억제기는 다음과 같이, 확장된 이득 인수들의 FFT를 통하여 이득 스펙트럼 (g(Λ))을 계산한다.
Figure 112005031543858-pat00031
FFT는 이득 스펙트럼의 진폭 및 위상이 다음과 같이 계산되는 복소값들을 갖는 스펙트럼 계수들을 생성한다.
Figure 112005031543858-pat00032
그 다음, 잡음 억제기는 이득 스펙트럼의 고주파수 성분들을 0이 되게 함으로써 이득 필터를 평활화한다. 잡음 억제기는 다음의 식에 따라, 이득 스펙트럼 계수들의 수를 평활화 인수(M(m))에 근거한 수까지 보유하고, 이 수 위의 성분들을 0이 되게 한다.
Figure 112005031543858-pat00033
이 되는,
Figure 112005031543858-pat00034
그 다음, 평활화된 이득 필터를 생성하기 위해 이 감소된 이득 스펙트럼에 다음과 같이 역 FFT가 적용된다.
Figure 112005031543858-pat00035
평활화에 근거한 이러한 FFT는, 0에 근접한 평활화 인수(예를 들어, 프레임에 갱신 플래그에 의해 표시된 "잡음있는" 주파수 빈들이 없거나 거의 없는 것)에 대해 효과적으로 평활화를 거의 또는 완전히 생성하지 않고, 평활화 인수가 1에 근접함(예를 들어, "잡음있는" 빈들을 전부 또는 거의 전부 갖는 것)에 따라 이득 필터를 고정값으로 평활화한다. 이에 따라, 0의 값을 갖는 평활화 인수(M(m)=0)에 대하여, 평활화된 이득 필터는 다음과 같다.
Figure 112005031543858-pat00036
반면에, 1의 값을 갖는 평활화 인수(M(m)=1)에 대하여, 평활화된 이득 필터는 다음과 같다.
Figure 112005031543858-pat00037
후속 단계(272)에서, 잡음 억제기는 다음과 같이, 스피치 신호 프레임의 스펙트럼 진폭에 결과로 생긴 평활화된 이득 필터를 적용한다.
Figure 112005031543858-pat00038
잡음 통계 추정 및 평활화 처리들의 결과로서, 잡음있는 빈들에 적용된 이득 인수들은 스피치 신호 내의 잡음이 억제되도록, 잡음없는 주파수 빈들에 비해 훨씬 더 낮아야 한다.
단계(280)에서, 잡음 억제기는 다음과 같이, 이득 필터에 의해 수정된 바와 같은 스피치 신호의 스펙트럼에 역 변환을 적용한다.
Figure 112005031543858-pat00039
그 다음, 다음의 공식대로, 잡음 억제기의 최종적인 출력(290)을 생성하기 위해 단계들(281, 282)에서, 오버랩 및 프리엠퍼시스(고역 필터링)의 역이 적용된다.
Figure 112005031543858-pat00040
2. 컴퓨팅 환경
상기에 설명된 잡음 억제 시스템(100)(도 1) 및 이득-제한된 잡음 억제 처리(200)는 다른 예들 중에서, 컴퓨터들; 오디오 재생, 송신 및 수신 장비; 휴대용 오디오 플레이어들; 오디오 원격회의; 웹 오디오 스트리밍 애플리케이션들 등을 포함 하여, 오디오 신호 처리가 수행되는 다양한 장치들 중 임의의 것에 대해서 구현될 수 있다. 이득-제한된 잡음 억제는 하드웨어 회로에서(예를 들어, ASIC, FPGA 등의 회로에서) 구현될 수 있을 뿐만 아니라, 도 7에 도시된 바와 같은, (중앙처리장치(CPU) 또는 디지털 신호 처리기, 오디오 카드 등에서 실행되었든지 간에) 컴퓨터 또는 다른 컴퓨팅 환경 내에서 실행하는 오디오 처리 소프트웨어에서도 구현될 수 있다.
도 7은 설명된 이득-제한된 잡음 억제가 구현될 수 있는 적절한 컴퓨팅 환경(700)의 일반화된 예를 도시한다. 컴퓨팅 환경(700)은 본 발명이 다양한 범용 또는 특수 목적 컴퓨팅 환경들에서 구현될 수 있기 때문에, 본 발명의 이용 또는 기능의 범위에 대하여 임의의 한정을 제안하는 것으로 의도되지 않는다.
도 7을 참조하면, 컴퓨팅 환경(700)은 적어도 하나의 처리 장치(710) 및 메모리(720)를 포함한다. 도 7에서, 이러한 가장 기본적인 구성(730)은 단선 내에 포함된다. 처리 장치(710)는 컴퓨터-실행가능한 명령들을 실행하고, 실제 또는 가상 처리기일 수 있다. 다중-처리 시스템에서, 다중처리장치들은 처리 전력을 증가시키도록 컴퓨터-실행가능한 명령들을 실행한다. 메모리(720)는 휘발성 메모리(예를 들면, 레지스터들, 캐시, RAM), 비-휘발성 메모리(예를 들면, ROM, EEPROM, 플래시 메모리 등) 또는 이 둘의 어떠한 조합일 수 있다. 메모리(720)는 설명된 이득-제한된 잡음 억제 기술들을 구현하는 소프트웨어(780)를 저장한다.
컴퓨팅 환경은 추가적인 특징들을 가질 수 있다. 예를 들어, 컴퓨팅 환경(700)은 저장장치(740), 하나 또는 그 이상의 입력 장치들(750), 하나 또는 그 이 상의 출력 장치들(760), 및 하나 또는 그 이상의 통신 접속들(770)을 포함한다. 버스, 제어기 또는 네트워크와 같은 상호접속 메커니즘(도시되지 않음)이 컴퓨팅 환경(700)의 컴포넌트들을 상호접속한다. 전형적으로, 운영체계 소프트웨어(도시되지 않음)는 컴퓨팅 환경(700)에서 실행하는 다른 소프트웨어에 운영 환경을 제공하고, 컴퓨팅 환경(700)의 컴포넌트들의 활동(activity)들을 조화시킨다.
저장장치(740)는 착탈식 또는 비-착탈식일 수 있고, 자기 디스크들, 자기 테이프들 또는 카세트들, CD-ROM들, CD-RW들, DVD들, 또는 정보를 저장하는데 이용될 수 있고 컴퓨팅 환경(700) 내에 접속될 수 있는 임의의 다른 매체를 포함한다. 저장장치(740)는 이득-제한된 잡음 억제 처리(200)(도 2)를 구현하는 소프트웨어(780)를 위한 명령들을 저장한다.
입력 장치(들)(750)은 키보드, 마우스, 펜 또는 트랙볼(trackball)과 같은 접촉식 입력 장치, 음성 입력 장치, 스캐닝 장치, 또는 컴퓨팅 환경(700)에 입력을 제공하는 다른 장치일 수 있다. 오디오에 대하여, 입력 장치(들)(750)는 오디오 입력을 아날로그 또는 디지털 형태로 수락하는 사운드 카드 또는 이와 유사한 장치일 수 있거나, 오디오 샘플들을 컴퓨팅 환경에 제공하는 CD-ROM 판독기일 수 있다. 출력 장치(들)(760)는 디스플레이, 프린터, 스피커, CD-라이터, 또는 컴퓨팅 환경(700)으로부터 출력을 제공하는 다른 장치일 수 있다.
통신 접속(들)(770)은 다른 컴퓨팅 엔티티와 통신 매체를 통한 통신을 가능하게 한다. 통신 매체는 컴퓨터-실행가능한 명령들, 압축된 오디오 또는 비디오 정보, 또는 다른 데이터와 같은 정보를 변조된 데이터 신호로 전달한다. 변조된 데이터 신호는 신호 내의 정보를 인코딩하는 방식으로 설정 또는 변경된 특성들 중 하나 또는 그 이상을 갖는 신호이다. 예시적으로, 통신 매체는 전기, 광학, RF, 적외선, 음향, 또는 다른 캐리어(carrier)로 구현되는 유선 또는 무선 기술들을 포함하며, 이것으로 한정되지는 않는다.
고속 헤드폰 가상화(fast headphone virtualization) 기술들은 본 명세서에서, 컴퓨터-판독가능한 매체의 일반적인 문맥으로 기술될 수 있다. 컴퓨터-판독가능한 매체는 컴퓨팅 환경 내에 접속될 수 있는 임의의 이용가능한 매체이다. 예시적으로, 컴퓨팅 환경(700)에 대하여, 컴퓨터-판독가능한 매체는 메모리(720), 저장장치(740), 통신 매체, 및 전술한 것들 중 임의의 것의 조합들을 포함하며, 이것으로 한정되지는 않는다.
고속 헤드폰 가상화 기술들은 본 명세서에서, 컴퓨팅 환경에서 타겟이 된 실제 또는 가상 처리기 상에서 실행되는, 프로그램 모듈들에 포함되는 것들과 같은, 컴퓨터-실행가능한 명령들의 일반적인 문맥으로 기술될 수 있다. 일반적으로, 프로그램 모듈들은 특정 태스크들을 수행하거나 특정 추상 데이터 유형들을 구현하는 루틴들, 프로그램들, 라이브러리들, 객체들, 클래스들, 컴포넌트들, 데이터 구조들 등을 포함한다. 프로그램 모듈들의 기능은 다양한 실시예들에서 원하는 대로 프로그램 모듈들 사이에서 조합 또는 분산될 수 있다. 프로그램 모듈들을 위한 컴퓨터-실행가능한 명령들은 국부 또는 분산 컴퓨팅 환경 내에서 실행될 수 있다.
표현을 위하여, 상세한 설명은 컴퓨팅 환경에서의 컴퓨터 동작들을 설명하기 위해 "결정하다(determine)", "발생하다(generate)", "조정하다(adjust)", "적용하 다(apply)"와 같은 용어들을 사용한다. 이러한 용어들은 컴퓨터에 의해 수행되는 동작들에 대한 고레벨 추상화들이고, 인간에 의해 수행되는 행위들과 혼동되어서는 안된다. 이 용어들에 대응하는 실제 컴퓨터 동작들은 구현에 따라 변한다.
본 발명의 원리들이 적용될 수 있는 많은 가능한 실시예들을 감안하여, 다음의 청구항들 및 등가들의 범위 및 기술 사상 내에 있을 수 있는 모든 이러한 실시예들을 본 발명으로서 청구한다.
본 발명은 잡음 억제 정확도를 향상시키고, 이것에 의해 음악적 잡음 아티팩트들의 발생을 줄일 수 있으며, 스피치 신호들의 음성 품질을 현저하게 향상시킬 수 있다.

Claims (14)

  1. 입력 스피치 신호의 프레임을, 다수의 스펙트럼 값들을 갖는 주파수 영역 표현으로 변환하는 단계;
    다수의 주파수 빈들(bins)을, 잡음있는 것(noisy) 또는 잡음없는 것(non-noisy)으로 분류하는 단계;
    상기 주파수 빈들에 대한 다수의 이득 인수(gain factor)들을 계산하는 단계;
    전체 주파수 빈들의 개수에 대한 잡음있는 주파수 빈들의 개수의 비에 근거하여 잡음 인수를 계산하는 단계 - 상기 잡음 인수는 평활화하지 않은 것을 표시하는 값으로부터 상기 이득 인수들을 고정 이득으로 평활화하는 것을 표시하는 값까지 변함 - ;
    상기 잡음 인수에 따라 상기 이득 인수들을 평활화(smoothing)하는 단계;
    상기 이득 인수들을 대응하는 스펙트럼 값들에 적용함으로써 상기 스펙트럼 값들을 수정하는 단계; 및
    상기 수정된 스펙트럼 값들을 시간 영역으로 역변환하여 출력 스피치 신호를 생성하는 단계
    를 포함하는 스피치 잡음 억제 방법.
  2. 제1항에 있어서,
    상기 이득 인수들을 평활화하는 단계는,
    상기 이득 인수들을 주파수 영역 표현으로 변환하는 단계;
    상기 잡음 인수에 따라 상기 이득 인수들의 상기 주파수 영역 표현의 고주파수 성분들을 컷오프(cut off)하는 단계; 및
    상기 이득 인수들의 상기 주파수 영역 표현을 역변환하는 단계를 포함하는 스피치 잡음 억제 방법.
  3. 제1항에 있어서,
    상기 주파수 빈들을 분류하는 단계는,
    프레임 에너지를 계산하는 단계;
    상기 주파수 빈들에 대한 잡음 평균 및 분산의 추정(estimate)을 추적하는 단계;
    상기 프레임 에너지가 바로 이전의 선행 프레임에 대한 상기 각각의 주파수 빈의 잡음 평균 및 분산의 상기 추정의 함수보다 낮은 경우, 주파수 빈을 잡음있는 것으로 분류하는 단계; 및
    잡음있는 것으로 분류된 주파수 빈들에 대한 잡음 평균 및 분산의 상기 추정을 갱신하는 단계를 포함하는 스피치 잡음 억제 방법.
  4. 제3항에 있어서,
    상기 스펙트럼 값들을 평활화하는 단계; 및
    상기 프레임 에너지와, 잡음 평균 및 분산의 상기 추정을 계산하는 데에 상기 평활화된 스펙트럼 값들을 이용하는 단계를 더 포함하는 스피치 잡음 억제 방법.
  5. 제3항에 있어서,
    상기 스펙트럼 값들을 평활화하는 단계는, 상기 스펙트럼 값들의 시간 및 주파수 영역 평활화 둘다를 수행하는 단계를 포함하는 스피치 잡음 억제 방법.
  6. 제3항에 있어서,
    이력상의 최저 프레임 에너지 측정치(historical lowest frame energy measure)를 계산하는 단계;
    상기 프레임 에너지 측정치가 상기 이력상의 최저 프레임 에너지 측정치의 제1 임계값 배수(threshold multiple)보다 낮은 경우, 잡음 평균 및 분산의 상기 추정을 재설정하는 것으로 결정하는 단계;
    상기 프레임 에너지 측정치가 상기 이력상의 최저 프레임 에너지 측정치의 제2 임계값 배수보다 낮은 경우, 상기 주파수 빈들에 대한 잡음 평균 및 분산의 상기 추정을 갱신하는 것으로 결정하는 단계를 더 포함하는 스피치 잡음 억제 방법.
  7. 제3항에 있어서,
    상기 이득 인수들을 계산하는 단계는,
    상기 각각의 주파수 빈에 대한 스펙트럼 값 및 잡음 평균의 상기 추정의 함수로서 상기 이득 인수들을 계산하는 단계를 포함하는 스피치 잡음 억제 방법.
  8. 입력 스피치 신호의 프레임을, 다수의 스펙트럼 값들을 갖는 주파수 영역 표현으로 변환하기 위한 수단;
    다수의 주파수 빈들을, 잡음있는 것 또는 잡음없는 것으로 분류하기 위한 수단;
    상기 주파수 빈들에 대한 다수의 이득 인수들을 계산하기 위한 수단;
    전체 주파수 빈들의 개수에 대한 잡음있는 주파수 빈들의 개수의 비에 근거하여 잡음 인수를 계산하기 위한 수단 - 상기 잡음 인수는 평활화하지 않은 것을 표시하는 값으로부터 상기 이득 인수들을 고정 이득으로 평활화하는 것을 표시하는 값까지 변함 - ;
    상기 잡음 인수에 따라 상기 이득 인수들을 평활화하기 위한 수단;
    상기 이득 인수들을 대응하는 스펙트럼 값들에 적용함으로써 상기 스펙트럼 값들을 수정하기 위한 수단; 및
    상기 수정된 스펙트럼 값들을 시간 영역으로 역변환하여 출력 스피치 신호를 생성하기 위한 수단
    을 포함하는 스피치 잡음 억제기.
  9. 제8항에 있어서,
    상기 이득 인수들을 평활화하기 위한 수단은,
    상기 이득 인수들을 주파수 영역 표현으로 변환하기 위한 수단;
    상기 잡음 인수에 따라 상기 이득 인수들의 상기 주파수 영역 표현의 고주파수 성분들을 컷오프하기 위한 수단; 및
    상기 이득 인수들의 상기 주파수 영역 표현을 역변환하기 위한 수단을 포함하는 스피치 잡음 억제기.
  10. 제8항에 있어서,
    상기 주파수 빈들을 분류하기 위한 수단은,
    프레임 에너지를 계산하기 위한 수단;
    상기 주파수 빈들에 대한 잡음 평균 및 분산의 추정을 추적하기 위한 수단;
    상기 프레임 에너지가 바로 이전의 선행 프레임에 대한 상기 각각의 주파수 빈의 잡음 평균 및 분산의 상기 추정의 함수보다 낮은 경우, 주파수 빈을 잡음있는 것으로 분류하기 위한 수단; 및
    잡음있는 것으로 분류된 주파수 빈들에 대한 잡음 평균 및 분산의 상기 추정을 갱신하기 위한 수단을 포함하는 스피치 잡음 억제기.
  11. 제10항에 있어서,
    상기 스펙트럼 값들을 평활화하기 위한 수단; 및
    상기 프레임 에너지와, 잡음 평균 및 분산의 상기 추정을 계산하는 데에 상기 평활화된 스펙트럼 값들을 이용하기 위한 수단을 더 포함하는 스피치 잡음 억제기.
  12. 제10항에 있어서,
    상기 스펙트럼 값들을 평활화하기 위한 수단은, 상기 스펙트럼 값들의 시간 및 주파수 영역 평활화 둘다를 수행하기 위한 수단을 포함하는 스피치 잡음 억제기.
  13. 제10항에 있어서,
    이력상의 최저 프레임 에너지 측정치를 계산하기 위한 수단;
    상기 프레임 에너지 측정치가 상기 이력상의 최저 프레임 에너지 측정치의 제1 임계값 배수보다 낮은 경우, 잡음 평균 및 분산의 상기 추정을 재설정하는 것으로 결정하기 위한 수단;
    상기 프레임 에너지 측정치가 상기 이력상의 최저 프레임 에너지 측정치의 제2 임계값 배수보다 낮은 경우, 상기 주파수 빈들에 대한 잡음 평균 및 분산의 상기 추정을 갱신하는 것으로 결정하기 위한 수단을 더 포함하는 스피치 잡음 억제기.
  14. 제10항에 있어서,
    상기 이득 인수들을 계산하기 위한 수단은,
    상기 각각의 주파수 빈에 대한 스펙트럼 값과 잡음 평균의 상기 추정의 함수로서 상기 이득 인수들을 계산하기 위한 수단을 포함하는 스피치 잡음 억제기.
KR1020050051309A 2004-06-15 2005-06-15 이득-제한된 잡음 억제 KR101120679B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/869,467 2004-06-15
US10/869,467 US7454332B2 (en) 2004-06-15 2004-06-15 Gain constrained noise suppression

Publications (2)

Publication Number Publication Date
KR20060046450A KR20060046450A (ko) 2006-05-17
KR101120679B1 true KR101120679B1 (ko) 2012-03-23

Family

ID=34940130

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050051309A KR101120679B1 (ko) 2004-06-15 2005-06-15 이득-제한된 잡음 억제

Country Status (7)

Country Link
US (1) US7454332B2 (ko)
EP (1) EP1607938B1 (ko)
JP (1) JP4861645B2 (ko)
KR (1) KR101120679B1 (ko)
CN (1) CN1727860B (ko)
AT (1) ATE353466T1 (ko)
DE (1) DE602005000539T2 (ko)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE476733T1 (de) * 2004-09-16 2010-08-15 France Telecom Verfahren zum verarbeiten eines rauschbehafteten tonsignals und einrichtung zur implementierung des verfahrens
BRPI0518278B1 (pt) * 2004-10-26 2018-04-24 Dolby Laboratories Licensing Corporation Método e aparelho para controlar uma característica de sonoridade particular de um sinal de áudio
JP4423300B2 (ja) * 2004-10-28 2010-03-03 富士通株式会社 雑音抑圧装置
JP5203933B2 (ja) * 2005-04-21 2013-06-05 ディーティーエス・エルエルシー オーディオ雑音を減少させるシステムおよび方法
US8520861B2 (en) * 2005-05-17 2013-08-27 Qnx Software Systems Limited Signal processing system for tonal noise robustness
US7555075B2 (en) * 2006-04-07 2009-06-30 Freescale Semiconductor, Inc. Adjustable noise suppression system
JP4912036B2 (ja) * 2006-05-26 2012-04-04 富士通株式会社 指向性集音装置、指向性集音方法、及びコンピュータプログラム
US20090308229A1 (en) * 2006-06-29 2009-12-17 Nxp B.V. Decoding sound parameters
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
JP4836720B2 (ja) * 2006-09-07 2011-12-14 株式会社東芝 ノイズサプレス装置
FR2906071B1 (fr) * 2006-09-15 2009-02-06 Imra Europ Sas Soc Par Actions Reduction de bruit multibande avec une reference de bruit non acoustique
US9058819B2 (en) * 2006-11-24 2015-06-16 Blackberry Limited System and method for reducing uplink noise
GB0703275D0 (en) * 2007-02-20 2007-03-28 Skype Ltd Method of estimating noise levels in a communication system
ES2570961T3 (es) * 2007-03-19 2016-05-23 Dolby Laboratories Licensing Corp Estimación de varianza de ruido para mejorar la calidad de voz
EP2031583B1 (en) * 2007-08-31 2010-01-06 Harman Becker Automotive Systems GmbH Fast estimation of spectral noise power density for speech signal enhancement
CA2715432C (en) * 2008-03-05 2016-08-16 Voiceage Corporation System and method for enhancing a decoded tonal sound signal
KR101597752B1 (ko) * 2008-10-10 2016-02-24 삼성전자주식회사 잡음 추정 장치 및 방법과, 이를 이용한 잡음 감소 장치
CN102150206B (zh) * 2008-10-24 2013-06-05 三菱电机株式会社 噪音抑制装置以及声音解码装置
JP5245714B2 (ja) * 2008-10-24 2013-07-24 ヤマハ株式会社 雑音抑圧装置及び雑音抑圧方法
JP5415739B2 (ja) * 2008-10-31 2014-02-12 宮本工業株式会社 鍛造用マグネシウム合金
EP2226794B1 (en) * 2009-03-06 2017-11-08 Harman Becker Automotive Systems GmbH Background noise estimation
JP2012058358A (ja) * 2010-09-07 2012-03-22 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
KR101176207B1 (ko) 2010-10-18 2012-08-28 (주)트란소노 음성통신 시스템 및 음성통신 방법
KR101173980B1 (ko) * 2010-10-18 2012-08-16 (주)트란소노 음성통신 기반 잡음 제거 시스템 및 그 방법
EP2463856B1 (en) 2010-12-09 2014-06-11 Oticon A/s Method to reduce artifacts in algorithms with fast-varying gain
KR20120080409A (ko) * 2011-01-07 2012-07-17 삼성전자주식회사 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
JP5757104B2 (ja) 2011-02-24 2015-07-29 住友電気工業株式会社 マグネシウム合金材及びその製造方法
JP2013148724A (ja) * 2012-01-19 2013-08-01 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
CN103325386B (zh) 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和系统
US9159336B1 (en) * 2013-01-21 2015-10-13 Rawles Llc Cross-domain filtering for audio noise reduction
US20140270249A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression
US20140278393A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System
CA2916150C (en) * 2013-06-21 2019-06-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method realizing improved concepts for tcx ltp
GB201401689D0 (en) 2014-01-31 2014-03-19 Microsoft Corp Audio signal processing
US9721580B2 (en) * 2014-03-31 2017-08-01 Google Inc. Situation dependent transient suppression
JP6446893B2 (ja) * 2014-07-31 2019-01-09 富士通株式会社 エコー抑圧装置、エコー抑圧方法及びエコー抑圧用コンピュータプログラム
US10181329B2 (en) * 2014-09-05 2019-01-15 Intel IP Corporation Audio processing circuit and method for reducing noise in an audio signal
CN104242850A (zh) * 2014-09-09 2014-12-24 联想(北京)有限公司 一种音频信号处理方法及电子设备
JP6596236B2 (ja) * 2015-05-27 2019-10-23 本田技研工業株式会社 耐熱性マグネシウム合金及びその製造方法
CN105280195B (zh) * 2015-11-04 2018-12-28 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
US9881630B2 (en) * 2015-12-30 2018-01-30 Google Llc Acoustic keystroke transient canceler for speech communication terminals using a semi-blind adaptive filter model
JP7447796B2 (ja) * 2018-10-15 2024-03-12 ソニーグループ株式会社 音声信号処理装置、雑音抑圧方法
CN113470674B (zh) * 2020-03-31 2023-06-16 珠海格力电器股份有限公司 语音降噪方法、装置、存储介质及计算机设备
CN113707170A (zh) * 2021-08-30 2021-11-26 展讯通信(上海)有限公司 风噪声抑制方法、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004012884A (ja) 2002-06-07 2004-01-15 Sharp Corp 音声認識装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
EP0226613B1 (en) 1985-07-01 1993-09-15 Motorola, Inc. Noise supression system
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
FI92535C (fi) * 1992-02-14 1994-11-25 Nokia Mobile Phones Ltd Kohinan vaimennusjärjestelmä puhesignaaleille
FI100154B (fi) 1992-09-17 1997-09-30 Nokia Mobile Phones Ltd Menetelmä ja järjestelmä kohinan vaimentamiseksi
EP0707763B1 (en) * 1993-07-07 2001-08-29 Picturetel Corporation Reduction of background noise for speech enhancement
US5768473A (en) * 1995-01-30 1998-06-16 Noise Cancellation Technologies, Inc. Adaptive speech filter
SE505156C2 (sv) * 1995-01-30 1997-07-07 Ericsson Telefon Ab L M Förfarande för bullerundertryckning genom spektral subtraktion
US5706395A (en) * 1995-04-19 1998-01-06 Texas Instruments Incorporated Adaptive weiner filtering using a dynamic suppression factor
JP3454403B2 (ja) * 1997-03-14 2003-10-06 日本電信電話株式会社 帯域分割型雑音低減方法及び装置
US6144937A (en) * 1997-07-23 2000-11-07 Texas Instruments Incorporated Noise suppression of speech by signal processing including applying a transform to time domain input sequences of digital signals representing audio information
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6088668A (en) 1998-06-22 2000-07-11 D.S.P.C. Technologies Ltd. Noise suppressor having weighted gain smoothing
US6122610A (en) * 1998-09-23 2000-09-19 Verance Corporation Noise suppression for low bitrate speech coder
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6507623B1 (en) 1999-04-12 2003-01-14 Telefonaktiebolaget Lm Ericsson (Publ) Signal noise reduction by time-domain spectral subtraction
US6766292B1 (en) * 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
US6523003B1 (en) * 2000-03-28 2003-02-18 Tellabs Operations, Inc. Spectrally interdependent gain adjustment techniques
JP4282227B2 (ja) * 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
US6775337B2 (en) 2001-08-01 2004-08-10 M/A-Com Private Radio Systems, Inc. Digital automatic gain control with feedback induced noise suppression

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004012884A (ja) 2002-06-07 2004-01-15 Sharp Corp 音声認識装置

Also Published As

Publication number Publication date
CN1727860A (zh) 2006-02-01
DE602005000539D1 (de) 2007-03-22
EP1607938A1 (en) 2005-12-21
US7454332B2 (en) 2008-11-18
KR20060046450A (ko) 2006-05-17
JP2006003899A (ja) 2006-01-05
ATE353466T1 (de) 2007-02-15
JP4861645B2 (ja) 2012-01-25
DE602005000539T2 (de) 2007-06-06
EP1607938B1 (en) 2007-02-07
CN1727860B (zh) 2010-05-05
US20050278172A1 (en) 2005-12-15

Similar Documents

Publication Publication Date Title
KR101120679B1 (ko) 이득-제한된 잡음 억제
US7359838B2 (en) Method of processing a noisy sound signal and device for implementing said method
US9142221B2 (en) Noise reduction
CA2732723C (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
JP5186510B2 (ja) スピーチ明瞭度強化方法と装置
US7313518B2 (en) Noise reduction method and device using two pass filtering
JP2003517624A (ja) 低ビットレート・スピーチ・コーダのためのノイズ抑圧
JP6361156B2 (ja) 雑音推定装置、方法及びプログラム
WO2006123721A1 (ja) 雑音抑圧方法およびその装置
JPWO2010046954A1 (ja) 雑音抑圧装置および音声復号化装置
Selvi et al. Hybridization of spectral filtering with particle swarm optimization for speech signal enhancement
Hendriks et al. MAP estimators for speech enhancement under normal and Rayleigh inverse Gaussian distributions
Elshamy et al. Two-stage speech enhancement with manipulation of the cepstral excitation
Gui et al. Adaptive subband Wiener filtering for speech enhancement using critical-band gammatone filterbank
Puder Kalman‐filters in subbands for noise reduction with enhanced pitch‐adaptive speech model estimation
Dionelis On single-channel speech enhancement and on non-linear modulation-domain Kalman filtering
JP2015141335A (ja) 雑音推定装置、方法及びプログラム
CN115527550A (zh) 一种单麦克风子带域降噪方法及系统
Rustrana et al. Spectral Methods for Single Channel Speech Enhancement in Multi-Source Environment
Krishnamoorthy et al. Processing noisy speech for enhancement
Kamaraju et al. Speech Enhancement Technique Using Eigen Values
Anderson et al. NOISE SUPPRESSION IN SPEECH USING MULTI {RESOLUTION SINUSOIDAL MODELING
Thanhikam Single Channel Speech Enhancement Based on Speech and Noise Spectral Models

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150121

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160119

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170119

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180118

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190116

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20200115

Year of fee payment: 9