KR101141033B1 - 스피치 개선을 위한 노이즈 분산 추정기 - Google Patents

스피치 개선을 위한 노이즈 분산 추정기 Download PDF

Info

Publication number
KR101141033B1
KR101141033B1 KR1020097019499A KR20097019499A KR101141033B1 KR 101141033 B1 KR101141033 B1 KR 101141033B1 KR 1020097019499 A KR1020097019499 A KR 1020097019499A KR 20097019499 A KR20097019499 A KR 20097019499A KR 101141033 B1 KR101141033 B1 KR 101141033B1
Authority
KR
South Korea
Prior art keywords
noise
speech
variance
amplitude
components
Prior art date
Application number
KR1020097019499A
Other languages
English (en)
Other versions
KR20090122251A (ko
Inventor
롱샨 유
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20090122251A publication Critical patent/KR20090122251A/ko
Application granted granted Critical
Publication of KR101141033B1 publication Critical patent/KR101141033B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Noise Elimination (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)

Abstract

제한된 이용 가능 메모리를 가진 장치들에 대해 동작하는 스피치 개선 방법이 기술된다. 상기 방법은 매우 시끄러운 환경에 적당하고 스피치의 존재 및 부재 동안 스피치 및 노이즈 성분들의 상대적 세기를 추정할 수 있다.
노이즈 분산 추정기, 추정 바이어스, 스피치 성분, 노이즈 성분, 분산 추정

Description

스피치 개선을 위한 노이즈 분산 추정기{NOISE VARIANCE ESTIMATOR FOR SPEECH ENHANCEMENT}
본 발명은 오디오 신호 처리에 관한 것이다. 특히, 본 발명은 노이즈 환경에서의 스피치 개선 및 명료화에 관한 것이다.
다음 공개물들은 각각 온전히 참조로서 본 명세서에 포함된다.
[1] 와이. 에프라임과 디. 말라 "최소 평균 제곱 에러 최소 시공간 진폭 추정기를 이용한 스피치 개선", IEEE Trans. Acoust., Speech, Signal Processing, vol.32, pp. 1109-1121, 1984년 12월.
[2] 엔. 비락, "인간 청취 시스템의 특성들의 마스킹에 기초하는 단일 채널 스피치 개선", IEEE Trans., Speech and Audio Processing, vol.7, pp. 126-137, 1900년 3월.
[3] 알. 마틴, "최소 통계에 기초한 스펙트럼 감산", Proc. EUSIPCO, 1994, pp.1182-1185.
[4] 피. 제이. 울프와 에스. 제이. 갓실, "오디오 신호 개선을 위한 에프라임 및 말라 억제 규칙에 대한 효과적인 대체물들", EURASIP Journal on Applied Signal Processing, vol. 2003, Issue 10, Pages 1043-1051, 2003.
[5] 와이. 에프라임, 에이치. 레브-아리 및 더블유.제이.제이.로버츠, "스피치 개선의 간결한 개괄", The Electronic Handbook, CRC Press, 2005년 4월.
우리는 소음 세계에 살고 있다. 환경 노이즈는 어디에나 존재하고, 자연적인 소스들 및 인간 활동들로부터 발생한다. 음성 통신 동안, 환경 노이즈들은 의도된 스피치 신호와 동시에 전송되어, 수신된 신호의 품질에 악영향을 미친다. 이런 문제는 원하지 않는 노이즈 성분들을 제거하는 스피치 개선 기술들에 의해 완화되어, 보다 깨끗하고 보다 명료한 신호를 형성한다.
대부분의 스피치 개선 시스템들은 다양한 형태의 적응성 필터링 동작에 의존한다. 상기 시스템들은 높은 SNR(Sinal-to-Noise-Ratio)을 보존하면서 낮은 신호-대-노이즈-비율들(SNR)을 가진 소음 스피치 신호의 시간/주파수(T/F) 영역들을 감소시킨다. 스피치의 필수 성분들은 따라서 보존되고 노이즈 성분은 크게 감소된다. 일반적으로, 상기 필터링 동작은 디지털 신호 처리(Digital Signal Processing; DSP) 칩 같은 계산 장치에 의해 디지털 도메인에서 수행된다.
서브대역 도메인 처리는 상기 적응성 필터링 동작이 구현되는 바람직한 방식들 중 하나이다. 요약하여, 시간 도메인에서 변경되지 않은 스피치 신호는 이산 퓨리에 변환(Discrete Fourier Transform; DFT) 같은 필터뱅크를 사용함으로써 다양한 서브대역들로 변환된다. 각각의 서브대역 내의 신호들은 스피치 및 노이즈의 공지된 통계적 특성들에 따라 원하는 양으로 추후 억제된다. 최종적으로, 서브대역 도메인에서 노이즈 억제 신호들은 개선된 스피치 신호를 형성하기 위하여 인버스 필터뱅크를 사용함으로써 시간 도메인으로 변환되고, 상기 스피치 신호의 품질 은 억제 과정의 항목들에 크게 의존한다.
종래 기술 스피치 개선기의 예는 도 1에 도시된다. 입력은 깨끗한 스피치 및 노이즈 둘다를 포함하는 아날로그 스피치 신호를 디지털화함으로써 생성된다. 이 변경되지 않은 오디오 신호 y(n)(여기서 n=0,1,...,∞는 시간 인덱스임)는 그 다음 분석 필터뱅크 장치 또는 기능부("분석 필터뱅크")(2)에 전송되어, 다중 서브대역 신호들 Yk(m), k=1,...,K, m=0,1,...,∞(여기서 k는 서브대역 수이고, m은 각각의 서브대역 신호의 시간 인덱스임)을 형성한다. 서브대역 신호들은 분석 필터뱅크(2)의 다운-샘플링 동작으로 인해 y(n)과 비교하여 더 낮은 샘플링 레이트들을 가질 수 있다. 그 다음 각각의 서브대역의 노이즈 레벨은 입력으로서 서브대역 신호를 가진 노이즈 분산 추정기 장치 또는 기능부("노이즈 분산 추정기")(4)를 사용함으로써 추정된다. 본 발명의 노이즈 분산 추정기(4)는 종래 기술에서 공지된 것과 다르고 특히 도 2a 및 도 2b와 관련하여 하기에 기술된다. 추정된 노이즈 레벨에 기초하여, 적당한 억제 이득들 gk은 억제 규칙 장치 또는 기능부("억제 규칙")(6)에서 결정되고 다음과 같이 서브대역 신호들에 적용된다:
Figure 112009057432981-pct00001
(1)
서브대역 신호에 억제 이득의 상기 적용은 곱셈기 심볼(8)에 의해 심볼로 도시된다. 최종적으로,
Figure 112009057432981-pct00002
은 개선된 스피치 신호
Figure 112009057432981-pct00003
를 형성하기 위하여 합성 필터뱅크 장치 또는 기능부("합성 필터 뱅크")(10)에 전송된다. 표현을 간략화하기 위해, 도 1은 다중 서브대역 신호들(k) 중 단지 하나에 억제 이득을 생성 및 적 용하는 항목들을 도시한다.
각각의 서브대역의 적당한 억제 양은 그의 노이즈 레벨과 강하게 상관된다. 이것은 차례로 제로-평균 가우스 확률 분포에 관련하여 노이즈 신호의 평균 제곱값으로서 정의된 노이즈 신호의 분산에 의해 결정된다. 명백히, 정확한 노이즈 분산 추정은 시스템의 성능에 중요하다.
일반적으로, 노이즈 분산은 이전에 이용할 수 없고, 변경되지 않은 오디오 신호로부터 추정되어야 한다. "명확한(clean)" 노이즈 신호의 분산이 큰 시간 블록에 걸쳐 노이즈 진폭들의 제곱값에서 시간-평균 동작을 수행함으로써 추정될 수 있다는 것은 잘 공지되었다. 그러나, 변경되지 않은 오디오 신호가 명확한 스피치 및 노이즈 둘다를 포함하기 때문에, 상기 방법은 직접 응용할 수 없다.
많은 노이즈 분산 추정 전략들은 이런 문제를 해결하기 위하여 이전에 제안되었다. 가장 간단한 해결책은 스피치 신호가 제공되지 않을 때(참조 문헌 [1]), 스피치 개선 시스템의 초기화 스테이지에서 노이즈 분산을 추정하는 것이다. 그러나, 이 방법은 노이즈 신호와 노이즈 분산이 상대적으로 고정될 때만 잘 작동한다.
비고정 노이즈의 정확한 처리를 위해, 보다 정교한 방법들은 제안되었다. 예를 들어, 음성 작동 검출(Voice Activity Detection; VAD) 추정기들은 스피치 신호의 존재를 결정하기 위하여 독립형 검출기를 이용한다. 노이즈 분산은 존재하지 않는(참조 문헌 [2]) 시간 동안에만 업데이트된다. 이 방법은 두 개의 단점들을 가진다. 첫째, 오디오 신호가 시끄러워서 노이즈 분산 추정 결과의 신뢰성에 영향을 미칠 때, 신뢰성 있는 VAD 결과들을 가지기 매우 어렵다. 둘째, 이 방법은 스피치 신호가 존재할 때 노이즈 분산 추정을 업데이트하는 확률을 배제한다. 후자는 노이즈 분산 추정이 스피치 레벨이 약한 시간들 동안 여전히 신뢰성 있게 업데이트될 수 있기 때문에 비효율성을 유도한다.
이런 문제에 대한 다른 넓게 예시된 해결책은 최소 통계 방법(참조 문헌[3])이다. 본래, 상기 방법은 각각의 서브대역에 대한 히스토리적인 샘플들의 단일 레벨 기록을 유지하고, 최소 기록된 값에 기초하여 노이즈 분산을 추정한다. 이 방식에 숨겨진 원리는 스피치 신호가 자연적으로 일시중지하는 온/오프 처리된다는 것이다. 게다가, 신호 레벨은 일반적으로 스피치 신호가 존재할 때 매우 높다. 그러므로, 상기 알고리즘으로부터 최소 신호 레벨은 아마도 기록이 시간적으로 충분히 길면 스피치 일시중단 섹션으로부터 형성되어, 신뢰성 있는 추정된 노이즈 레벨을 산출한다. 그럼에도 불구하고, 최소 통계 방법은 높은 메모리 수용을 가지며 제한된 이용 가능한 메모리를 가진 장치들에 적용할 수 없다.
본 발명의 제 1 양태에 따라, 스피치 및 노이즈 성분들로 이루어진 오디오 신호의 스피치 성분들은 개선된다. 오디오 신호는 시간 도메인으로부터 주파수 도메인의 다수의 서브대역들로 변환된다. 오디오 신호의 서브대역들은 추후 처리된다. 처리는 제어에 응답하여 서브대역들 중 하나의 이득을 적응적으로 감소시키는 것을 포함한다. 제어는 오디오 신호의 노이즈 성분들의 분산 추정으로부터 적어도 부분적으로 유도된다. 상기 추정은 차례로 오디오 신호의 노이즈 성분들의 진폭의 이전 추정값들의 평균으로부터 유도된다. 미리 결정된 추정 바이어스의 최대 양보다 큰 추정 바이어스를 가진 오디오 신호에서 노이즈 성분들의 진폭 추정들은 오디오 신호에서 노이즈 성분들의 진폭의 이전 추정값들의 평균으로부터 배제되거나 언더웨이팅된다. 마지막으로, 처리된 오디오 신호는 스피치 성분들이 개선된 오디오 신호를 제공하기 위하여 주파수 도메인에서 시간 도메인으로 변환된다. 본 발명의 이런 양태는 오디오 신호의 노이즈 성분들에서 분산 추정, 오디오 신호의 스피치 성분들의 분산 추정, 및 오디오 신호의 진폭의 함수로서 오디오 신호에서 노이즈 성분들의 진폭의 추정을 더 포함할 수 있다.
본 발명의 다른 양태에 따라, 스피치 및 노이즈 성분들로 이루어진 오디오 신호의 노이즈 성분들에서 분산 추정이 유도된다. 오디오 신호의 노이즈 성분들에서 분산 추정은 오디오 신호에서 노이즈 성분들 진폭의 이전 추정값들의 평균으로부터 유도된다. 미리 결정된 추정 바이어스의 최대량보다 큰 추정 바이어스를 가진 오디오 신호에서 노이즈 성분들 진폭의 추정값들은 오디오 신호에서 노이즈 성분들 진폭의 이전 추정값들의 평균에서 배제되거나 언더웨이팅된다. 본 발명의 이런 양태는 오디오 신호의 노이즈 성분들에서 분산 추정, 오디오 신호의 스피치 성분들에서 분산 추정, 및 오디오 신호의 진폭의 추정의 함수로서 오디오 신호에서 노이즈 성분들 진폭의 추정을 더 포함할 수 있다.
본 발명의 상기 양태들 중 어느 하나에 따라, 오디오 신호에서 노이즈 성분들 진폭의 이전 추정값들의 평균의 임계값보다 큰 값들을 가진 오디오 신호에서 노이즈 성분들 진폭의 추정값들은 배제되거나 언더웨이팅될 수 있다.
상기된 임계값은
Figure 112011028600529-pct00004
의 함수이고, 여기서
Figure 112011028600529-pct00005
는 추정된 선험적 신호-대-노이즈 비율(priori signal-to-noise ratio)이고,
Figure 112011028600529-pct00006
는 오디오 신호의 노이즈 성분들에서 추정된 분산이고,
Figure 112011028600529-pct00007
는 미리 결정된 추정 바이어스의 최대 양에 의해 결정된 상수이다.
상기된 본 발명의 양태들은 상기 방법들을 수행하기 위하여 적응된 방법들 또는 장치들로서 구현될 수 있다. 컴퓨터-판독 가능 매체 상에 저장된 컴퓨터 프로그램은 컴퓨터가 상기 방법들 중 임의의 방법을 수행하게 한다.
본 발명의 목적은 스피치의 존재 및 부재 둘다 동안 동작하는 스피치 및 노이즈 성분들의 상대적 세기들을 추정할 수 있는 스피치 개선을 제공하는 것이다.
본 발명의 다른 목적은 많은 노이즈 성분의 존재에도 불구하고 스피치 및 노이즈 성분들의 상대적 세기들을 추정할 수 있는 스피치 개선을 제공하는 것이다.
본 발명의 또 다른 목적은 제한된 이용 가능한 메모리를 가진 장치들에 대해 동작하는 스피치 개선을 제공하는 것이다.
본 발명의 이들 및 다른 특징들 및 장점들은 다음 상세한 설명 및 첨부된 청구항들에 나타나거나 보다 명백할 것이다. 특징들 및 장점들은 첨부된 청구항들에서 특히 지적된 수단들 및 결합들에 의해 구현되고 얻어진다. 게다가, 본 발명의 특징들 및 장점들은 이후에 제시되는 본 발명의 실제에 의해 습득될 수 있거나 명백할 것이다.
도 1은 종래 기술 스피치 개선기를 나타내는 기능 블록도.
도 2a는 본 발명의 양태들에 따른 예시적인 노이즈 분산 추정기의 기능 블록도. 상기 노이즈 분산 추정기들은 도 1 예 같은 종래 기술 스피치 개선기들을 개선하기 위하여 사용되거나, 다른 목적들에 사용될 수 있다.
도 2b는 도 2a의 노이즈 분산 추정기의 동작을 이해하는데 유용한 흐름도.
도 3은 실제 SNR의 4개의 값들에 대한 추정된 선험적 SNR의 함수로서 노이즈 진폭의 바이어스 추정의 이상적인 도면.
여기에 사용된 바와 같은 두문자어 및 용어들의 어휘는 부록 A에 제공된다. 각각의 정의들과 함께 심볼들의 리스트는 부록 B에 제공된다. 부록 A 및 부록 B는 본 출원의 통합 부분이고 그 일부들을 형성한다.
본 발명의 양태들에 따른 노이즈 분산 추정기의 예시적인 실시예의 블록도는 도 2a에 도시된다. 각각의 서브대역에 대한 노이즈 레벨을 추정하기 위하여 도 1과 같은 스피치 개선기가 통합될 수 있다. 예를 들어, 본 발명의 양태들에 따른 노이즈 분산 추정기는 도 1의 노이즈 분산 추정기(4)로서 구현될 수 있어서, 개선된 스피치 개선기를 제공한다. 노이즈 분산 추정기에 대한 입력은 변경되지 않은 서브대역 신호 Y(m)이고 그 출력은 노이즈 분산 추정의 업데이트된 값이다.
설명을 위해, 노이즈 분산 추정기는 3개의 메인 성분들을 가지는 것을 특징으로 할 수 있다: 노이즈 진폭 추정기 장치 또는 함수부("노이즈 진폭의 추정부")(12), 노이즈 진폭 추정("노이즈 분산 추정부")(14)에 응답하여 동작하는 노이즈 분산 추정 장치 또는 함수부, 및 스피치 분산 추정 장치 또는 함수부("스피치 분산 추정부")(16). 도 2a의 노이즈 분산 추정기 예는 또한 z-도메인 표시법("Z-1")을 사용하여 도시된 지연부(18)를 포함한다.
도 2a의 노이즈 분산 추정기 예의 동작은 도 2b의 흐름도를 참조하여 가장 잘 이해될 수 있다. 여기에서 다양한 실시예들에서 도시 및 기술된 다양한 장치들, 기능들 및 처리들이 여기 도면들에 도시된 것과 다른 방식으로 결합 또는 분리될 수 있다는 것이 인식될 것이다. 예를 들어, 컴퓨터 소프트웨어 명령 시퀀스들에 의해 실행될 때, 도 2a 및 도 2b의 모든 함수부들은 적당한 디지털 신호 처리 하드웨어에서 운용하는 멀티스레드(multithreaded) 소프트웨어 명령 시퀀스들에 의해 구현될 수 있고, 이 경우 도면들에 도시된 실시예들의 다양한 장치들 및 기능들은 소프트웨어 명령들의 부분들에 대응할 수 있다.
노이즈 성분의 진폭이 추정된다(도 2a의 노이즈 진폭의 추정부 12; 도 2b의 추정부 N(m) 24). 오디오 입력 신호가 스피치 및 노이즈 둘다를 포함하기 때문에, 상기 추정은 다른 성분으로부터 하나의 성분을 구별하는 통계적 차이들을 이용함으로써만 행해질 수 있다. 게다가, 노이즈 성분의 진폭은 스피치 성분 진폭의 추정에 현재 사용된 기존 통계적 모델들의 적당한 변형을 통해 추정될 수 있다(참조 문헌 [4] 및 [5]).
상기 스피치 및 노이즈 모델들은 통상적으로 스피치 및 노이즈 성분들이 상관되지 않은, 제로-평균 가우스 분포들이라는 것을 가정한다. 핵심 모델 파라미터들, 특히 스피치 성분 분산 및 노이즈 성분 분산은 변경되지 않은 입력 오디오 신호로부터 추정되어야 한다. 상기 주지된 바와 같이, 스피치 및 노이즈 성분들의 통계적 특성들은 명백히 다르다. 대부분의 경우들에서, 노이즈 성분의 분산은 비교적 안정하다. 대조하여, 스피치 성분은 "온/오프" 처리이고 그 분산은 몇몇 밀리초들 내에서도 심하게 변화할 수 있다. 결과적으로, 노이즈 성분 분산의 추정은 비교적 장시간 윈도우를 수반하지만, 스피치 성분에 대한 유사한 동작은 현재 및 이전 입력 샘플들을 수반할 수 있다. 후자의 예는 참조 문헌 [1]에서 제안된 "결정-지향 방법"이다.
일단 스피치 및 노이즈 성분들에 대한 통계적 모델들 및 분포 파라미터들이 결정되었다면, 오디오 신호로부터 양쪽 성분들의 진폭들을 추정하는 것은 가능하다. 예시적인 실시예에서, 스피치 성분 진폭을 추정하기 위한 참조 문헌 [4]에서 이전에 도입된 최소 평균 제곱 에러(MMSE) 전력 추정기는 노이즈 성분 진폭을 추정하도록 구성된다. 추정기 모델의 선택은 본 발명에 중요하지 않다.
요약하여, MMSE 전력 추정기는 우선 통계적 모델들 및 변경되지 않은 오디오 신호 각각에 기초하여 스피치 및 노이즈 성분들의 확률 분포를 결정한다. 이후 노이즈 진폭은 추정 에러의 평균 제곱을 최소화하는 값이도록 결정된다.
마지막으로 연속적인 계산들을 위한 준비시, 노이즈 성분의 분산은 전체 노이즈 분산에서 추정된 노이즈 진폭의 제곱된 현재 절대값의 도입에 의해 업데이트된다. 이런 부가적인 값은 현재 및 이전 노이즈 성분 진폭들을 포함하는 합리적으로 긴 버퍼 상 누적 동작의 일부가 된다. 노이즈 분산 추정 정확도를 추가로 개선하기 위하여, 바이어스된 추정 회피 방법은 통합될 수 있다.
노이즈 진폭의 추정
(도 2a에서 노이즈 진폭의 추정부 12; 도 2b에서 N(m) 추정부 24)
도 1, 도 2a 및 도 2b(20)에서 도시된 바와 같이, 입력 대 노이즈 분산 추정기(이런 환경에서, "노이즈 분산 추정기"는 도 1의 블록(4)이고 도 2a의 엘리먼트들(12, 14, 16, 18)의 결합이다)는 서브대역:
Y(m) = X(m) + D(m) (2)
이다. 여기서 X(m)은 스피치 성분이고, D(m)은 노이즈 성분이다. 여기서 m은 시간-인덱스이고, 서브대역 수 인덱스 k는 동일한 노이즈 분산 추정기가 각각의 서브대역에 사용되기 때문에 생략된다. 분석 필터뱅크가 DFT가 행하는 바와 같이 복소수 양들을 생성한다는 것을 가정할 수 있다. 여기서, 서브대역 성분이 또한 복소수이고, 다음과 같이 표현될 수 있다.
Figure 112009057432981-pct00008
(3)
Figure 112009057432981-pct00009
(4)
Figure 112009057432981-pct00010
(5)
여기서 R(m), A(m) 및 N(m)은 각각 변경되지 않은 오디오 신호, 스피치 및 노이즈 성분들의 진폭들이고,
Figure 112011028600529-pct00011
Figure 112011028600529-pct00012
는 그들의 각각의 위상들이다.
스피치 및 노이즈 성분들이 상관되지 않은 제로-평균 가우시안 분포들인 것을 가정함으로써, X(m)의 진폭은 다음과 같이 참조 문헌 [4]에서 유도된 MMSE 전력 추정기를 사용하여 추정될 수 있다:
Figure 112009057432981-pct00013
(6)
여기서 이득 함수는 다음에 의해 제공된다
Figure 112009057432981-pct00014
(7)
여기서
Figure 112009057432981-pct00015
(8)
Figure 112009057432981-pct00016
(9)
Figure 112009057432981-pct00017
(10)
여기서
Figure 112011028600529-pct00018
Figure 112011028600529-pct00019
는 각각 스피치 성분 및 노이즈 성분들의 분산들이다.
Figure 112011028600529-pct00020
Figure 112011028600529-pct00021
는 종종 선험적 및 후천적(posteriori) 성분-대-노이즈 비율들로서 해석되고, 표시법은 여기에 사용된다. 다른 말로, "선험적" SNR은 가정된(실제로 알려지지 않았지만) 스피치 분산(따라서 이름 "선험적") 대 노이즈 분산의 비율이다. "후천적" SNR은 관찰된 신호 진폭 대 노이즈 분산의 제곱의 비율이다.
MMSE 전력 추정기 모델에서, 스피치 및 노이즈 성분들의 각각의 분산들은 노이즈 성분 진폭을 추정하기 위하여 상호 교환될 수 있다:
Figure 112009057432981-pct00022
(11)
여기서
Figure 112009057432981-pct00023
(12)
Figure 112009057432981-pct00024
(13)
스피치 분산의 추정
(도 2a의 스피치 분산의 추정 16; 도 2b에서
Figure 112009057432981-pct00025
추정 22)
스피치 성분 분산
Figure 112009057432981-pct00026
의 추정은 참조 문헌 [1]에 제안된 결정-지향 방법을 사용하여 계산될 수 있다:
Figure 112009057432981-pct00027
(14)
여기서
Figure 112009057432981-pct00028
(15)
는 미리 선택된 상수이고,
Figure 112011028600529-pct00029
는 스피치 성분 진폭의 추정값이다. 노이즈 성분 분산의 추정값
Figure 112011028600529-pct00030
계산은 다음과 같다.
노이즈 진폭의 추정(상기로부터 연속됨)
노이즈 성분 진폭의 추정값은 최종적으로 하기에 의해 제공된다;
Figure 112009057432981-pct00031
(16)
여기서
Figure 112009057432981-pct00032
(17)
Figure 112009057432981-pct00033
(18)
비록 복합 필터뱅크가 이 실시예에 사용되지만, 단지 실제값들만을 가진 필터뱅크에 대한 방정식들을 변형하는 것은 바람직하다.
상기된 방법은 단지 실시예로서만 제공된다. 보다 정교하거나 간단한 모델들은 애플리케이션에 따라 채용될 수 있다. 다중 마이크로폰 입력들은 노이즈 진폭들의 보다 우수한 추정값을 얻기 위해 사용될 수 있다.
노이즈 분산의 추정
(도 2a의 노이즈 분산 추정 14; 도 2b의
Figure 112009057432981-pct00034
추정 26)
주어진 시간 인덱스 m에서 서브대역 입력의 노이즈 성분은 부분적으로 분산
Figure 112011028600529-pct00035
에 의해 결정된다. 제로-평균 가우시안에 대해, 이것은 노이즈 성분 진폭의 제곱의 평균값으로서 정의된다:
Figure 112009057432981-pct00036
(19)
여기서 기대값
Figure 112009057432981-pct00037
은 시간 인덱스 m에서 노이즈 성분의 확률 분포에 관련하여 얻어진다.
노이즈 성분이 고정되고 에르고드적(ergodic)이면,
Figure 112011028600529-pct00038
은 이전 추정된 노이즈 진폭들 상에서 시간-평균 동작을 수행함으로써 얻어질 수 있다. 특히, 시간 인덱스 m+1의 노이즈 분산
Figure 112011028600529-pct00039
은 이전에 추정된 노이즈 진폭들의 제곱의 웨이팅 평균을 수행함으로써 추정될 수 있다:
Figure 112009057432981-pct00040
(20)
여기서
Figure 112009057432981-pct00041
는 웨이팅 함수이다. 실제로 w(i)는 길이 L의 윈도우로서 선택될 수 있다:
Figure 112009057432981-pct00042
. 직사각형 윈도우 방법(RWM)에서, 추정된 노이즈 분산은 다음에 의해 제공된다:
Figure 112009057432981-pct00043
(21)
또한 지수 윈도우를 사용하는 것은 가능하다:
Figure 112009057432981-pct00044
(22)
여기서
Figure 112009057432981-pct00045
(23)
이동 평균 방법(MAM)에서, 추정된 노이즈 분산은 노이즈 진폭들의 제곱의 이동 평균이다:
Figure 112009057432981-pct00046
(24)
여기서 초기값
Figure 112009057432981-pct00047
은 합리적으로 선택된 미리 결정된 값으로 설정될 수 있다.
바이어스 추정 회피
때때로, 모델은 스피치 및 노이즈 성분들의 정확한 표현을 제공할 수 없다. 이들 상황들에서, 노이즈 변화 추정은 부정확하게 되어, 매우 큰 바이어스(bias)된 결과를 형성한다. 바이어스 추정 회피(BEA) 방법은 이런 문제를 경감하기 위하여 개발되었다.
필수적으로, BEA는 감소된 웨이팅 대 노이즈 진폭 추정값들
Figure 112011028600529-pct00048
을 할당하여
Figure 112009057432981-pct00049
(25)
이고, 여기서 바이어스 bias(m)는 미리 결정된 최대값 Bmax보다 크다: 즉,
Figure 112009057432981-pct00050
(26)
노이즈 진폭 추정
Figure 112011028600529-pct00051
의 정확도는 모델 정확도, 특히 이전 섹션들에서 기술된 바와 같이 스피치 및 노이즈 성분들 분산들의 정확도에 영향을 받는다. 노이즈 성분이 비교적 고정되기 때문에, 그 분산은 시간에 따라 느리게 전개한다. 이런 이유로, 분석은 다음을 가정한다:
Figure 112009057432981-pct00052
(27)
대조하여, 스피치 성분은 자연히 전이하고 큰 에러들이기 쉽다. 실제 선험적 SNR은,
Figure 112009057432981-pct00053
(28)
이고, 추정된 선험적 SNR은,
Figure 112009057432981-pct00054
(29)
이다.
Figure 112009057432981-pct00055
의 추정 바이어스는 실제로 하기에 의해 제공된다.
Figure 112009057432981-pct00056
(30)
명확하게, 만약
Figure 112009057432981-pct00057
(31)
이면, 바이어스되지 않은 추정기 및
Figure 112009057432981-pct00058
(32)
를 가진다.
도 3에 도시된 바와 같이, 추정 바이어스는 도면에서 점선, 즉 제로 바이어 스 라인에 대해 비대칭이다. 도면의 하부 부분은
Figure 112009057432981-pct00059
의 가변 값들에 대한 추정 바이어스의 폭넓게 가변하는 값들을 가리키고 상부 부분은
Figure 112009057432981-pct00060
또는
Figure 112009057432981-pct00061
에 거의 의존하지 않는다.
관심있는 SNR 범위에 대해, 노이즈 진폭의 과소 추정(under-estimation), 즉
Figure 112009057432981-pct00062
(33)
은 양의 바이어스를 유발하고, 도면의 상부 부분에 대응한다. 도시된 바와 같이, 그 효과는 비교적 작고 그러므로 문제되지 않는다.
그러나, 도면의 하부 부분은 스피치 성분의 분산이 과소 추정되는 경우들에 대응하여, 방정식 (30)에 의해 제공된 바와 같이 큰 음의 추정 바이어스를 유발하고, 즉:
Figure 112009057432981-pct00063
(34)
Figure 112009057432981-pct00064
(35),
또는, 선택적으로
Figure 112009057432981-pct00065
(36)
Figure 112009057432981-pct00066
(37)
그리고
Figure 112011028600529-pct00067
의 다른 값들에 크게 좌우된다. 이들은 노이즈 진폭의 추정값이 너무 큰 상황들이다. 결과적으로, 상기 진폭들은 함께 감소된 웨이팅이거나 회피된다.
실제로, 경험은 상기 의심스러운 진폭들 R(m)이 만족하도록 지시된다:
Figure 112009057432981-pct00068
(38)
여기서
Figure 112009057432981-pct00069
는 미리 정의된 양의 상수이다. 이런 규칙은 바이어스에 대한 하부 경계를 제공한다:
Figure 112009057432981-pct00070
(39)
여기서
Figure 112009057432981-pct00071
(40)
이다.
요약하여, 양의 바이어스는 무시할 수 있다. 음의 바이어스는 만약 방정식 (16)에서 정의되고 방정식 (38)과 일치하는 추정된 노이즈 진폭들
Figure 112011028600529-pct00072
이 감소된 웨이팅으로 제공되면 유지할 수 있다. 실제 애플리케이션에서,
Figure 112011028600529-pct00073
의 값이 알려지지 않았기 때문에, 방정식 (38)의 규칙은 하기에 의해 근사화될 수 있다:
Figure 112009057432981-pct00074
(41)
여기서
Figure 112009057432981-pct00075
(42)
이다.
BEA방법의 두 개의 상기 예들은 BEA를 가진 직사각형 윈도우 방법(RWM) 및 BEA를 가진 이동 평균 방법(MAM)이다. 이전 구현에서, 방정식 (38)에 일치하는 샘플들에 제공된 웨이트는 제로이다:
Figure 112009057432981-pct00076
(43)
여기서
Figure 112009057432981-pct00077
은 하기 방정식을 만족시키는 시간 인덱스 m에 L 가장 흡사(nearest)
Figure 112009057432981-pct00078
를 포함하는 세트이다:
Figure 112009057432981-pct00079
(44)
후자 구현에서, 상기 샘플들은 감소된 웨이트가 포함될 수 있다:
Figure 112009057432981-pct00080
(45)
여기서
Figure 112009057432981-pct00081
(46)
그리고
Figure 112009057432981-pct00082
(47)
이다.
도 2b 흐름도의 설명을 종료하여, 시간 인덱스 m은 1씩("m←m+1" 56) 증가되고 도 2b의 처리는 반복된다.
구현
본 발명은 하드웨어 또는 소프트웨어, 또는 이들의 결합(예를 들어, 프로그램 가능한 논리 어레이들)로 구현될 수 있다. 반대로 지정되지 않으면, 본 발명의 일부로서 포함된 처리들은 임의의 특정 컴퓨터 또는 다른 장치에 본래 관련되지 않는다. 특히, 다양한 범용 머신들은 여기에서의 지침들에 따라 쓰여진 프로그램들이 사용되거나, 요구된 방법 단계들을 수행하기 위하여 보다 특정화된 장치(예를 들어, 집적된 회로들)를 구성하기에 보다 편리할 수 있다. 따라서, 본 발명은 각각 적어도 하나의 처리기, 적어도 하나의 데이터 저장 시스템(휘발성 및 비휘발성 메모리 및/또는 저장 소자들 포함), 적어도 하나의 입력 장치 또는 포트, 및 적어도 하나의 출력 장치 또는 포트를 포함하는 하나 또는 그 이상의 프로그램 가능 컴퓨터 시스템들을 실행하는 하나 또는 그 이상의 컴퓨터 프로그램들로 구현될 수 있다. 프로그램 코드는 여기에 기술된 기능들을 수행하고 출력 정보를 생성하기 위하여 입력 데이터에 인가된다. 출력 정보는 공지된 방식으로 하나 또는 그 이상의 출력 장치들에 인가된다.
각각의 상기 프로그램은 컴퓨터 시스템과 통신하기 위하여 임의의 목표된 컴퓨터 언어(머신, 어셈블리, 또는 하이 레벨 절차, 논리, 또는 객체 지향 프로그래밍 언어들)로 구현될 수 있다. 임의의 경우, 언어는 컴파일드되거나 해석된 언어 일 수 있다.
각각의 상기 컴퓨터 프로그램은 바람직하게 저장 미디어 또는 장치가 여기에 기술된 절차들을 수행하기 위해 컴퓨터 시스템에 의해 판독될 때 컴퓨터를 구성 및 동작시키기 위해 범용 또는 특수 목적 프로그램 가능 컴퓨터에 의해 판독할 수 있는 저장 미디어 또는 장치(예를 들어, 고형 상태 메모리 또는 미디어, 또는 자기 또는 광학 미디어)에 저장되거나 다운로드될 수 있다. 본 발명의 시스템은 또한 컴퓨터 프로그램으로 구성된 컴퓨터-판독 가능 저장 매체로서 구현되는 것으로 고려될 수 있고, 여기서 이렇게 구성된 저장 매체는 여기에 기술된 기능들을 수행하기 위하여 특정 및 바람직한 방식으로 컴퓨터 시스템이 동작하게 한다.
본 발명의 다수의 실시예들은 기술되었다. 그럼에도 불구하고, 본 발명의 사상 및 범위에서 벗어나지 않고 다양한 변형들이 이루어질 수 있다는 것이 이해될 것이다. 예를 들어, 여기에 기술된 단계들 중 몇몇은 순서에 무관하고, 따라서 기술된 것과 다른 순서로 수행될 수 있다.
부록 A
두문자어들 및 용어들의 용어풀이
BEA 바이어스된 추정 회피
DFT 이산 퓨리에 변환
DSP 디지털 신호 처리
MAM 이동 평균 방법
RWM 직사각형 윈도우 방법
SNR 신호 대 노이즈 비율
T/F 시간/주파수
VAD 음성 동작 검출
부록 B
심볼들의 리스트
Figure 112009057432981-pct00083
디지털화된 시간 신호
Figure 112009057432981-pct00084
개선된 스피치 신호
Figure 112009057432981-pct00085
서브대역 신호 k
Figure 112009057432981-pct00086
개선된 서브대역 신호 k
Figure 112009057432981-pct00087
서브대역 k의스피치 성분
Figure 112009057432981-pct00088
서브대역 k의 노이즈 성분
Figure 112009057432981-pct00089
서브대역 k에 대한 억제 이득
Figure 112011028600529-pct00090
노이즈 스피치 진폭
Figure 112009057432981-pct00091
노이즈 스피치 위상
Figure 112011028600529-pct00092
스피치 성분 진폭
Figure 112011028600529-pct00093
추정된 스피치 성분 진폭
Figure 112009057432981-pct00094
스피치 성분 위상
Figure 112011028600529-pct00095
노이즈 성분 진폭
Figure 112011028600529-pct00096
추정된 노이즈 성분 진폭
Figure 112009057432981-pct00097
노이즈 성분 위상
Figure 112009057432981-pct00098
이득 함수
Figure 112009057432981-pct00099
스피치 성분 분산
Figure 112009057432981-pct00100
추정된 스피치 성분 분산
Figure 112009057432981-pct00101
노이즈 성분 분산
Figure 112009057432981-pct00102
추정된 노이즈 성분 분산
Figure 112011028600529-pct00103
선험적 스피치 성분-대-노이즈 비율
Figure 112011028600529-pct00104
후천적 스피치 성분-대-노이즈 비율
Figure 112011028600529-pct00105
선험적 노이즈 성분-대-스피치 비율
Figure 112011028600529-pct00106
후천적 노이즈 성분-대-스피치 비율
Figure 112009057432981-pct00107
미리 선택된 상수
Figure 112009057432981-pct00108
바이어스 추정을 위해 미리 선택

Claims (9)

  1. 스피치 및 노이즈 성분들로 이루어진 오디오 신호의 스피치 성분들을 개선하기 위한 방법에 있어서,
    상기 오디오 신호를 시간 도메인으로부터 주파수 도메인의 다수의 서브대역들로 변환하는 단계로서,
    상기 다수의 서브대역들 각각은 스피치 성분 및 노이즈 성분을 가지는 것으로 가정되고, 상기 노이즈 성분은 시간 인덱스 m에서 노이즈 진폭 및 노이즈 분산을 가지며, 상기 노이즈 진폭은 스피치 성분 및 노이즈 성분 사이를 구별짓는 통계적 모델을 사용하여 결정되는, 상기 변환 단계,
    상기 다수의 서브대역들 각각을 처리하는 단계로서, 상기 처리 단계는 이득 계수를 적용하는 단계를 포함하고, 상기 이득 계수는 상기 노이즈 분산 추정으로부터 적어도 부분적으로 유도되고, 상기 노이즈 분산은 상기 노이즈 진폭들의 과거(past) 추정들의 가중된 평균으로부터 각각의 시간 인덱스 m에서 업데이트되고,
    임계값보다 큰 추정 바이어스를 가진 상기 노이즈 진폭들의 상기 과거 추정들은 상기 가중된 평균에서 배제되거나 언더웨이팅되고(underweighted),
    상기 임계값은
    Figure 712011005204227-pct00123
    의 함수이고, 여기서
    Figure 712011005204227-pct00124
    는 추정된 선험적 신호-대-노이즈 비율(the estimated a priori signal-to-noise ratio)이고,
    Figure 712011005204227-pct00125
    는 상기 서브대역 신호의 노이즈 성분들에서 추정된 분산이고,
    Figure 712011005204227-pct00126
    는 상기 추정 바이어스의 미리 결정된 최대 양에 의해 결정된 상수인, 상기 처리 단계, 및
    스피치 성분들이 개선된 오디오 신호를 제공하기 위하여 상기 처리된 서브대역 신호를 주파수 도메인에서 시간 도메인으로 변환하는 단계를 포함하는, 오디오 신호의 스피치 성분들을 개선하기 위한 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제 1 항에 있어서,
    상기 서브대역 신호에서 노이즈 성분들의 진폭의 각각의 추정은 상기 서브대역 신호의 노이즈 성분들에서 분산 추정, 상기 서브대역 신호의 스피치 성분들에서 분산 추정, 및 상기 서브대역 신호의 진폭의 함수인, 방법.
  6. 삭제
  7. 제 1 항에 따른 방법들을 수행하도록 구성된, 장치.
  8. 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 기록 매체로서, 상기 컴퓨터 프로그램은 컴퓨터로 하여금 제 1 항에 따른 방법들을 수행하게 하는, 컴퓨터 판독 가능한 기록 매체.
  9. 삭제
KR1020097019499A 2007-03-19 2008-03-14 스피치 개선을 위한 노이즈 분산 추정기 KR101141033B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US91896407P 2007-03-19 2007-03-19
US60/918,964 2007-03-19
PCT/US2008/003436 WO2008115435A1 (en) 2007-03-19 2008-03-14 Noise variance estimator for speech enhancement

Publications (2)

Publication Number Publication Date
KR20090122251A KR20090122251A (ko) 2009-11-26
KR101141033B1 true KR101141033B1 (ko) 2012-05-03

Family

ID=39468801

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097019499A KR101141033B1 (ko) 2007-03-19 2008-03-14 스피치 개선을 위한 노이즈 분산 추정기

Country Status (8)

Country Link
US (1) US8280731B2 (ko)
EP (2) EP3070714B1 (ko)
JP (1) JP5186510B2 (ko)
KR (1) KR101141033B1 (ko)
CN (1) CN101647061B (ko)
ES (1) ES2570961T3 (ko)
TW (1) TWI420509B (ko)
WO (1) WO2008115435A1 (ko)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8521530B1 (en) * 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
KR101581885B1 (ko) * 2009-08-26 2016-01-04 삼성전자주식회사 복소 스펙트럼 잡음 제거 장치 및 방법
US20110178800A1 (en) * 2010-01-19 2011-07-21 Lloyd Watts Distortion Measurement for Noise Suppression System
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
MY156027A (en) * 2010-08-12 2015-12-31 Fraunhofer Ges Forschung Resampling output signals of qmf based audio codecs
JP5643686B2 (ja) * 2011-03-11 2014-12-17 株式会社東芝 音声判別装置、音声判別方法および音声判別プログラム
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US9064503B2 (en) 2012-03-23 2015-06-23 Dolby Laboratories Licensing Corporation Hierarchical active voice detection
EP2828853B1 (en) 2012-03-23 2018-09-12 Dolby Laboratories Licensing Corporation Method and system for bias corrected speech level determination
JP6182895B2 (ja) * 2012-05-01 2017-08-23 株式会社リコー 処理装置、処理方法、プログラム及び処理システム
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US10306389B2 (en) 2013-03-13 2019-05-28 Kopin Corporation Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods
US9312826B2 (en) 2013-03-13 2016-04-12 Kopin Corporation Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
CN103559887B (zh) * 2013-11-04 2016-08-17 深港产学研基地 用于语音增强系统的背景噪声估计方法
JP6361156B2 (ja) * 2014-02-10 2018-07-25 沖電気工業株式会社 雑音推定装置、方法及びプログラム
CN103824563A (zh) * 2014-02-21 2014-05-28 深圳市微纳集成电路与系统应用研究院 一种基于模块复用的助听器去噪装置和方法
CN103854662B (zh) * 2014-03-04 2017-03-15 中央军委装备发展部第六十三研究所 基于多域联合估计的自适应语音检测方法
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
CN107004427B (zh) * 2014-12-12 2020-04-14 华为技术有限公司 增强多声道音频信号内语音分量的信号处理装置
CN105810214B (zh) * 2014-12-31 2019-11-05 展讯通信(上海)有限公司 语音激活检测方法及装置
DK3118851T3 (da) * 2015-07-01 2021-02-22 Oticon As Forbedring af støjende tale baseret på statistiske tale- og støjmodeller
US11631421B2 (en) * 2015-10-18 2023-04-18 Solos Technology Limited Apparatuses and methods for enhanced speech recognition in variable environments
US20190137549A1 (en) * 2017-11-03 2019-05-09 Velodyne Lidar, Inc. Systems and methods for multi-tier centroid calculation
EP3573058B1 (en) * 2018-05-23 2021-02-24 Harman Becker Automotive Systems GmbH Dry sound and ambient sound separation
CN110164467B (zh) * 2018-12-18 2022-11-25 腾讯科技(深圳)有限公司 语音降噪的方法和装置、计算设备和计算机可读存储介质
CN110136738A (zh) * 2019-06-13 2019-08-16 苏州思必驰信息科技有限公司 噪声估计方法及装置
CN111613239B (zh) * 2020-05-29 2023-09-05 北京达佳互联信息技术有限公司 音频去噪方法和装置、服务器、存储介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5706395A (en) * 1995-04-19 1998-01-06 Texas Instruments Incorporated Adaptive weiner filtering using a dynamic suppression factor
SE506034C2 (sv) * 1996-02-01 1997-11-03 Ericsson Telefon Ab L M Förfarande och anordning för förbättring av parametrar representerande brusigt tal
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6910011B1 (en) * 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US6757395B1 (en) * 2000-01-12 2004-06-29 Sonic Innovations, Inc. Noise reduction apparatus and method
US6804640B1 (en) * 2000-02-29 2004-10-12 Nuance Communications Signal noise reduction using magnitude-domain spectral subtraction
JP3342864B2 (ja) * 2000-09-13 2002-11-11 株式会社エントロピーソフトウェア研究所 音声の類似度検出方法及びその検出値を用いた音声認識方法、並びに、振動波の類似度検出方法及びその検出値を用いた機械の異常判定方法、並びに、画像の類似度検出方法及びその検出値を用いた画像認識方法、並びに、立体の類似度検出方法及びその検出値を用いた立体認識方法、並びに、動画像の類似度検出方法及びその検出値を用いた動画像認識方法
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US20030187637A1 (en) * 2002-03-29 2003-10-02 At&T Automatic feature compensation based on decomposition of speech and noise
DE602004029899D1 (de) * 2003-07-11 2010-12-16 Cochlear Ltd Verfahren und einrichtung zur rauschverminderung
US7133825B2 (en) * 2003-11-28 2006-11-07 Skyworks Solutions, Inc. Computationally efficient background noise suppressor for speech coding and speech recognition
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US7492889B2 (en) * 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
US7454332B2 (en) * 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
US7742914B2 (en) * 2005-03-07 2010-06-22 Daniel A. Kosek Audio spectral noise reduction method and apparatus
US7590530B2 (en) * 2005-09-03 2009-09-15 Gn Resound A/S Method and apparatus for improved estimation of non-stationary noise for speech enhancement
WO2009035613A1 (en) * 2007-09-12 2009-03-19 Dolby Laboratories Licensing Corporation Speech enhancement with noise level estimation adjustment

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Israel Cohen et al., 'Speech enhancement for non-stationary noise environments', Signal Processing, Vol.81, No.11, pp.2403-2418, November 2001 *
Israel Cohen et al., 'Speech enhancement for non-stationary noise environments', Signal Processing, Vol.81, No.11, pp.2403-2418, November 2001*

Also Published As

Publication number Publication date
EP2137728A1 (en) 2009-12-30
CN101647061A (zh) 2010-02-10
EP2137728B1 (en) 2016-03-09
US20100100386A1 (en) 2010-04-22
JP2010521704A (ja) 2010-06-24
TWI420509B (zh) 2013-12-21
TW200844978A (en) 2008-11-16
EP3070714A1 (en) 2016-09-21
CN101647061B (zh) 2012-04-11
US8280731B2 (en) 2012-10-02
JP5186510B2 (ja) 2013-04-17
ES2570961T3 (es) 2016-05-23
EP3070714B1 (en) 2018-03-14
WO2008115435A1 (en) 2008-09-25
KR20090122251A (ko) 2009-11-26

Similar Documents

Publication Publication Date Title
KR101141033B1 (ko) 스피치 개선을 위한 노이즈 분산 추정기
TWI421856B (zh) 使用感知模型之語音增強技術
US7359838B2 (en) Method of processing a noisy sound signal and device for implementing said method
Abd El-Fattah et al. Speech enhancement with an adaptive Wiener filter
KR101120679B1 (ko) 이득-제한된 잡음 억제
Ephraim et al. Recent advancements in speech enhancement
EP2191465B1 (en) Speech enhancement with noise level estimation adjustment
Hendriks et al. MAP estimators for speech enhancement under normal and Rayleigh inverse Gaussian distributions
WO2013061232A1 (en) Audio signal noise attenuation
Gui et al. Adaptive subband Wiener filtering for speech enhancement using critical-band gammatone filterbank
JP6536322B2 (ja) 雑音推定装置、プログラム及び方法、並びに、音声処理装置
Prakash et al. Melodic Filtering for Indian Classical Instrumental Music
Meshram et al. Denoising of speech signal by classification into voiced, unvoiced and silence regoin
Kober Enhancement of noisy speech using sliding discrete cosine transform
Wang et al. An improved log-spectral amplitude estimator algorithm for speech enhancement
Kamaraju et al. Speech Enhancement Technique Using Eigen Values

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160408

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170412

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180412

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190410

Year of fee payment: 8