KR20010102017A - 음성 활동에 기초한 이득 제한을 이용하는 음성 개선 방법 - Google Patents

음성 활동에 기초한 이득 제한을 이용하는 음성 개선 방법 Download PDF

Info

Publication number
KR20010102017A
KR20010102017A KR1020017010082A KR20017010082A KR20010102017A KR 20010102017 A KR20010102017 A KR 20010102017A KR 1020017010082 A KR1020017010082 A KR 1020017010082A KR 20017010082 A KR20017010082 A KR 20017010082A KR 20010102017 A KR20010102017 A KR 20010102017A
Authority
KR
South Korea
Prior art keywords
speech
signal
gain
frame
data
Prior art date
Application number
KR1020017010082A
Other languages
English (en)
Other versions
KR100752529B1 (ko
Inventor
콕스리차드밴더보트
마르틴라니에르
Original Assignee
엘리 웨이스 , 알 비 레비
에이티 앤드 티 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘리 웨이스 , 알 비 레비, 에이티 앤드 티 코포레이션 filed Critical 엘리 웨이스 , 알 비 레비
Publication of KR20010102017A publication Critical patent/KR20010102017A/ko
Application granted granted Critical
Publication of KR100752529B1 publication Critical patent/KR100752529B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Machine Translation (AREA)
  • Telephone Function (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

음성 데이타의 스펙트럼 파라미터들의 추정을 개선하고 데이타 코딩 동작에서 알고리즘 지연을 감소시키는 데이타 처리 장치 및 방법이 제공된다. 스펙트럼 파라미터들의 추정은 데이타가 정보 음성과 노이즈 또는 노이즈만을 포함하고 있는지를 기초로 데이타를 개선하는데 사용되는 이득 함수를 적응적으로 조절함으로써 개선된다. 불완전하게 처리된 데이타를 이용하여 코딩 파라미터들을 추출함으로써 지연이 감소된다.

Description

음성 활동에 기초한 이득 제한을 이용하는 음성 개선 방법{Speech enhancement with gain limitations based on speech activity}
파라메트릭(parametric) 음성 코더와 같은 저비트율 음성 코더는 최근에 크게 개선되었다. 하지만, 저비트율 코더는 여전히 열악한 음향 환경에서 견고성이 부족하다. 예컨대, 중간 및 낮은 신호대잡음비(SNR) 상태에서 저비트율 파라메트릭 코더에 의해 도입되는 결과물들은 코딩된 음성의 명료성에 영향을 줄 수 있다.
테스트 결과, 저비트율 음성 코더가 음성 개선 프리프로세서(speech enhancement preprocessor)와 조합될 때, 코딩된 음성이 크게 개선될 수 있는 것으로 밝혀졌다. 이와 같은 개선 프리프로세서들은 일반적으로 3 개의 메인 구성 요소, 즉 (윈도우 고속 푸리에 변환/역 고속 푸리에 변환(FFT/IFFT)에 의해 통상적으로 실현되는) 스펙트럼 분석/합성 시스템, 노이즈 추정 처리, 및 스펙트럼 이득 계산을 가지고 있다. 상기 노이즈 추정 처리는, 일반적으로 어떤 형태의 음성 활동 검출 또는 스펙트럼 최소 트랙킹 기술을 포함하고 있다. 산출된 스펙트럼 이득은 음성 신호의 각각의 데이타 프레임(즉, 세그먼트)의 푸리에 크기에만 적용된다. 음성 개선 프리프로세서의 일예가 와이.에프레임(Y.Ephraim) 등의 문헌 "최소 평균 제곱 오차 로그-스펙트럼 진폭 추정기를 이용한 음성 개선"(IEEE Trans. Acoustics, Speech and Signal Processing, Vol.33, pp.443-445, 1985년 4월)에 제공되어 있고, 그대로 본원 명세서의 참고 문헌이 된다. 일반적인 경우와 같이, 상기 스펙트럼 이득은 FFT 처리에 의해 출력되는 개개의 서브밴드들에 적용될 개개의 이득값을 가지고 있다.
음성 신호는 뚜렷한 음성(articulated speech)의 기간(즉, "음성 활동"의 기간) 및 음성 정지를 나타내는 것으로 볼 수 있다. 뚜렷한 음성의 중단은 배경 노이즈만을 나타내는 음성 신호를 발생하며, 음성 활동의 기간은 뚜렷한 음성과 배경 노이즈를 나타내는 음성 신호를 발생한다. 개선 프리프로세서들은 음성 중단(speech pause)의 기간들 동안에 비교적 낮은 이득을 제공하고(노이즈를 감쇠시키는 것이 바람직하므로), 음성의 기간들 동안에는 보다 높은 이득을 제공(뚜렷해진 음성의 감쇠를 완화시키기 위함)하는 기능을 한다. 하지만, 예컨대, 중단 후의 음성 활동의 시작을 반영하기 위하여 낮은 이득값에서 높은 이득값으로 전환하거나 높은 이득값에서 낮은 이득값으로 전환하면, 청취자를 불쾌하게 하는 구조적 "음악"(또는 "총체적") 노이즈가 발생될 수 있다. 또한, 개선 프리프로세서들은이와 같은 프리프로세서들과 함께 음성 코더들이 사용됨에 따라 음성 명료성에 열화를 도입할 수 있다.
구조적 음악 노이즈의 문제를 처리하기 위하여, 일부 개선 프리프로세서들은 음성 신호의 모든 데이타 프레임들에 적용되는 이득값을 균일하게 제한한다. 일반적으로, 이 제한은 상기 이득의 계산에 함수 입력인 "이전(a priori)" 신호대잡음비(SNR)를 제한함으로써 행해진다. 이와 같은 이득 제한에 의해, 특정 데이타 프레임(예컨대, 음성 중단에 대응되는 데이타 프레임)에 적용되는 이득이 너무 낮아지는 것이 방지되고, 데이타 프레임들 사이에서의 큰 이득 변화(따라서, 구조적 음악 노이즈)에 기여하는 것이 방지된다. 하지만, 이와 같은 이득 제한은 개선 프리프로세서 또는 음성 코더에 의해 도입되는 명료성 문제를 충분하게 개선하지 못한다.
본 출원은 1999년 2월 9일에 출원되고 참고 문헌으로서 본원 명세서에 포함되는 미국 가특허출원 제 60/119,279 호의 출원일의 혜택을 주장한다.
본 발명은 MELP와 같은 저비트율 음성 코딩 시스템을 포함하는 음성 코딩(즉, 음성 압축) 시스템의 개선 처리(enhancement processing)에 관한 것이다.
도 1은 본 발명의 일실시예의 개략적인 블록도.
도 2는 도 1의 실시예에 따른 음성 신호 및 기타 다른 신호를 처리하는 방법의 단계들의 흐름도.
도 3은 도 1의 실시예에 따른 음성 신호들을 개선하기 위한 방법의 단계들의 흐름도.
도 4는 도 1의 실시예에 따른 이전 SNR 값을 적응적으로 조절하는 방법에 대한 단계들의 흐름도.
도 5는 이득 계산에 사용되는 이전 신호대잡음비에 제한을 적용하는 방법에 대한 단계들의 흐름도.
본 발명은 구조적 음악 노이즈를 제한하고 음성 명료성을 증가시키기 위하여 종래의 문제점들을 극복한다. 개선 프리프로세서의 환경에서, 본 발명의 실시예는 처리될 음성 신호가 뚜렷한 음성을 나타내는지 아니면 음성 중단을 나타내는지에 대한 결정을 행하고, 상기 음성 신호에 적용될 특정 이득을 형성한다. 상기 이득은 이득이 가질 수 있는 최저값(즉, 하한값)이 음성 신호가 뚜렷한 음성을 나타내는지를 기초로 결정되기 때문에 상기 환경에 특정된다. 이 실시예에 따라, 음성 중단의 기간들 동안의 이득의 하한값은 음성 활동의 기간들 동안의 상기 이득의 하한값보다 크게 된다.
이 실시예의 환경에서, 음성 신호의 데이타 프레임에 적용되는 이득은 제한된 이전 SNR 값들을 기초로 적응적으로 제한된다. 이들 이전 SNR 값은 (a)뚜렷한 음성이 상기 프레임에서 검출되는지, 및 (b)음성을 나타내는 프레임에 대한 장기간 SNR을 기초로 제한된다. 뚜렷한 음성을 포함하는 프레임과 음성 중단을 포함하는 프레임을 구별하는데 음성 활동 검출기가 사용될 수 있다. 따라서, 이전 SNR 값의 하한값은 뚜렷한 음성을 나타내는 프레임에 대한 제 1 값, 및 음성 중단을 나타내는 프레임에 대한 상기 제 1 값보다 큰 상이한 제 2 값이 되도록 계산될 수도 있다. 상기 신호의 액티브 음성 부분과 음성 중단 부분간의 스무스한 천이를 제공하기 위하여, 상기 이전 SNR 값들의 하한값의 스무싱(smoothing)이 1차 순활 시스템을 이용하여 수행된다.
본 발명의 일실시예는 음성 코더와 조합하여 개선 프리프로세서에 의해 생길 수 있는 코딩된 음성 데이타의 감소된 지연을 제공할 수 있다. 상기 개선 프리프로세서 및 코더의 지연은 적어도 일부 코더 파라미터들을 추출하기 위하여 불완전한 데이타 샘플들에 대해 적어도 부분적으로 상기 코더가 동작하도록 함으로써 감소될 수 있다. 상기 프리프로세서 및 코더에 의해 부과되는 전체 지연은 통상적으로, 상기 코더의 지연과 상기 개선 프리프로세서에서 프레임들의 중첩 부분들의 길이의 합과 동일하다. 하지만, 본 발명은, 일부 코더들이 "룩-어헤드(look-ahead)" 데이타 샘플들을 입력 버퍼에 저장하고 이들 샘플을 코더 파라미터들을 추출하는데 사용한다는 사실을 이용한다. 상기 룩 어헤드 샘플들은 일반적으로 상기 입력 버퍼 내의 다른 샘플들보다 코딩된 음성의 음질에 적은 영향을 준다. 따라서, 일부 경우에, 상기 코더는 상기 프리프로세서로부터의 완전하게 처리된, 즉 완전한 데이타 프레임을 대기할 필요가 없지만, 대신에 상기 입력 버퍼 내의 불완전 데이타 샘플들로부터 코더 파라미터들을 추출할 수 있다. 불완전한 데이타 샘플들에 대해 동작함으로써, 상기 개선 프리프로세서 및 코더의 지연은 상기 코딩된 데이타의 품질에 큰 영향을 주지 않고 감소될 수 있다.
예컨대, 음성 프리프로세서와 음성 코더의 조합에서의 지연은 입력 프레임과 분석 윈도우를 곱하고 상기 개선 프리프로세서에서 상기 프레임을 개선함으로써 감소될 수 있다. 상기 프레임이 개선된 후에, 상기 프레임의 좌측 하프(half)가 합성 윈도우와 곱해지며, 우측 하프는 역 분석 윈도우와 곱해진다. 상기 합성 윈도우는 상기 분석 윈도우와는 다를 수 있지만, 바람직하게는 상기 분석 윈도우와 동일하다. 이때, 상기 프레임은 음성 코더 입력 버퍼에 부가되고, 상기 프레임을 이용하여 코더 파라미터들이 추출된다. 코더 파라미터들이 추출된 후에, 상기 음성 코더 입력 버퍼 내의 프레임의 우측 하프가 상기 분석 및 합성 윈도우와 곱해지고, 상기 프레임은 다음 프레임이 입력되기 전에 상기 입력 버퍼에서 시프트된다. 상기 분석 윈도우, 및 상기 코더 입력 버퍼 내의 프레임을 처리하는데 사용되는 합성 윈도우는 상기 개선 프리프로세서에서 사용된 분석 및 합성 윈도우와 동일할 수 있거나, 상기 프리프로세서에서 사용된 분석 윈도우와 약간 다를 수 있다. 예컨대 제곱근만큼 다를 수 있다. 따라서, 상기 프리프로세서에 의해 부과된 지연은 매우 작은 레벨, 예컨대 1-2 밀리초로 감소될 수 있다.
본 발명의 이들 측면 및 다른 측면들은 본 발명의 이하의 설명으로부터 명백하다.
동일한 참조 부호가 동일한 구성 요소를 나타내는 다음과 같은 도면을 참조하여 본 발명에 대해 설명한다.
A. 실시예의 소개
음성 코딩 분야에서 일반적인 바와 같이, 개개의 기능 블록들(즉, "모듈들")을 구비한 본 발명의 실시예가 제시된다. 이들 블록들이 나타내는 기능들은 소프트웨어를 실행할 수 있는 하드웨어(이 하드웨어에 한정되지 않음)를 포함하는 공유 또는 전용 하드웨어의 사용을 통해 제공될 수 있다. 예컨대, 도 1에 제시된 블록(1-5)의 기능들은 단일의 공유 프로세서에 의해 제공될 수 있다(용어 "프로세서"의 사용은 소프트웨어를 실행할 수 있는 하드웨어만을 말하는 것으로 해석되어서는 안됨).
실시예들은 다수의 제조업체로부터 이용 가능한 디지탈 신호 프로세서(DSP) 또는 범용 퍼스널 컴퓨터(PC) 하드웨어, 후술되는 동작들을 수행하는 소프트웨어를 저장하기 위한 판독 전용 메모리(ROM), 및 DSP/PC 결과들을 저장하기 위한 랜덤 액세스 메모리(RAM)에 의해 실현될 수 있다. 범용 DSP/PC 회로와 조합된 주문형 VLSI 회로뿐만 아니라, 대규모 집적(VLSI) 하드웨어 실시예들이 또한 제공될 수 있다.
도 1에 제시된 기능들을 수행하기 위한 예시적인 소프트웨어가 첨부된 소프트웨어 부록에 제공되어 있다.
B. 실시예
도 1은 본 발명의 실시예(8)의 개략적인 블록도를 나타낸다. 도 1에 도시된 바와 같이, 상기 실시예는 음성 정보를 나타내는 각종 신호들을 처리한다. 이들 신호는 음성 신호(순수 음성 성분 s(k)과 배경 노이즈 성분 n(k)을 포함함), 그 데이타 프레임, 스펙트럼 크기, 스펙트럼 위상, 및 코딩된 음성을 포함하고 있다. 이 예에서, 상기 음성 신호는 음성 개선 프리프로세서(8)에 의해 개선된 다음에, 코더(7)에 의해 코딩된다. 이 실시예에서의 상기 코더(7)는에이.맥크리(A.McCree) 등의 문헌 "새로운 미국 연방 표준에 대한 2.4 KBIT/S MELP 코더 후보"(Proc.,IEEE intl. Conf.Acoustics, Speech, Signal Processing(ICASSP), pp.200-203, 1996)에 기재된 코더와 같은 2400 bps MIL 표준 MELP 코더이며, 상기 문헌은 그대로 본 명세서의 참고 문헌이 된다. 도 2, 3, 4 및 5는 도 1에 제시된 모듈들에 의해 실행되는 처리들의 흐름도를 나타낸다.
1. 분할 모듈(Segmentation Module)
음성 신호 s(k)+n(k)가 분할 모듈(1)에 입력된다. 상기 분할 모듈(1)은 상기 음성 신호를 음성 및 노이즈 데이타의 256 개의 샘플들의 프레임들로 분할하고(도 2의 단계(100) 참조. 데이타 프레임의 크기는 예시적인 256개의 샘플과 같이 원하는 크기일 수 있음), 상기 프레임을 주파수 영역으로 변환하기 전에 상기 프레임들에 분석 윈도우를 적용한다(도 2의 단계(200) 참조). 잘 알려진 바와 같이, 상기 프레임에 분석 윈도우를 적용하면, 음성 신호의 스펙트럼 표현에 영향을 준다.
상기 분석 윈도우는 상기 프레임의 서브 밴드들간의 크로스토크를 감소시키기 위하여 양단부가 테이퍼져 있다. 상기 분석 윈도우에 긴 테이퍼를 제공하면, 크로스토크가 크게 감소되지만, 프리프로세서 및 코더 조합(10)의 지연이 증가될 수 있다. 프리프로세싱 및 코딩 동작의 고유 지연은 개선 프리프로세서(8)의 프레임 어드밴스(advance)(또는 그 다수배)가 상기 코더(7)의 프레임 어드밴스와 매칭될 때 최소로 될 수 있다. 하지만, 개선 프리 프로세서(8)에서 나중에 합성된 프레임들간의 시프트가 일반적인 하프 중첩(예컨대, 128개 샘플)로부터 상기 코더(7)의 일반적인 프레임 시프트(예컨대, 180개 샘플)까지 증가하면, 상기 개선된 음성 신호(ξk)의 인접 프레임들간의 천이가 보다 덜 스무스해진다. 이들 불연속은 상기 분석 윈도우가 각각의 프레임의 에지에서 입력 신호를 가장 많이 감쇠시키고, 각각의 프레임 내의 추정 오차가 전체 프레임에 걸쳐서 고르게 확산되는 경향이 있기 때문에 야기된다. 이에 따라, 프레임 경계들에서 보다 큰 상대 오차가 발생되며, 낮은 SNR 상태에서 가장 현저한, 결과적으로 얻어진 불연속이 예컨대 피치 추정 오차를 야기할 수 있다.
분석 윈도우와 합성 윈도우가 개선 프리프로세서(8)에 사용되면 불연속이 크게 감소될 수 있다. 예컨대, 터키(Tukey) 윈도우의 제곱근인,
은 분석 윈도우와 합성 윈도우로서 사용될 때 양호한 성능을 제공한다. M은 샘플들의 프레임 크기이고, Mo은 인접 합성 프레임들의 중첩 부분들의 길이다.
다음에, 음성 데이타의 윈도우 프레임들이 개선된다. 이 개선 단계는 도 2의 단계 300에 해당되며, 특히, 도 3, 4, 및 5의 단계들에 해당된다.
2. 변환 모듈
상기 음성 신호의 윈도우 프레임들은, 일반적인 고속 푸리에 변환(FFT)을 상기 프레임에 적용하는 변환 모듈(2)에 출력된다(도 3의 단계(310) 참조). 상기 변환 모듈(2)에 의해 출력되는 스펙트럼 크기들은 상기 프레임에서 노이즈의 레벨을추정하기 위하여 노이즈 추정 모듈(3)에 의해 사용된다.
3. 노이즈 추정 모듈
노이즈 추정 모듈(3)은 상기 변환 모듈(2)에 의해 출력되는 스펙트럼 크기들을 입력으로서 수신하고, 이득 함수 모듈(4)에 출력하기 위해 노이즈 추정값을 발생한다(도 3의 단계(320) 참조). 상기 노이즈 추정값은 일반적으로 계산된 이전 및 이후 SNR들을 포함한다. 상기 노이즈 추정 모듈(3)은 일반적인 노이즈 추정 기술로 실현될 수 있으며, 위에서 참조한 미국 가특허출원 제 60/119,279 호(출원일:1999년 2월 9일)의 공보에 기재된 노이즈 추정 기술에 따라 실현될 수도 있다.
4. 이득 함수 모듈
음악 왜곡을 방지하고 음성 사운드의 전반적인 스펙트럼 형상의 왜곡을 회피하기 위하여(따라서, 스펙트럼 파라미터들의 추정에 대한 방해를 회피하기 위하여), 이득(G)의 하한값은 배경 노이즈만을 나타내는 프레임에 대한 제 1 값, 및 액티브 음성을 나타내는 프레임에 대한 보다 낮은 제 2 값으로 설정되어야 한다. 이들 한계값과 이득은 다음과 같이 예시적으로 결정된다.
4.1 이전 SNR의 제한
모듈(4)에 의해 결정되는 이득 함수(G)는 이전 SNR 값(ζk)과 이후 SNR값(γk)(위에서 참조됨)의 함수이다. 상기 이전 SNR 값(ζk)은 현재 프레임이 음성과 노이즈를 포함하는지 아니면 노이즈만을 포함하는지를 기초로, 그리고 상기음성 데이타에 대한 추정된 장기간 SNR를 기초로, 상기 이득 함수 모듈(4)에 의해 적응적으로 제한된다. 현재 프레임이 노이즈만을 포함하고 있으면(도 4의 단계(331) 참조), 예비 하한값 ζmin1(λ) = 0.12는 상기 이전 SNR 값(ζk)에 대해 설정되는 것이 바람직하다(도 4의 단계(332) 참조). 현재 프레임이 음성 및 노이즈(즉, 액티브 음성)를 포함하고 있으면, 상기 예비 하한값 ζmin1(λ)은,
ζmin1(λ) = 0.12 exp(-5)(0.5 + SNRLT(λ))0.65 (3)
로 설정된다.
여기서, SNRLT는 음성 데이타에 대한 장기간 SNR이고, λ는 현재 프레임에 대한 프레임 인덱스이다(도 4의 단계(333) 참조). 하지만, ζmin1는 0.25보다 크지 않도록 제한된다(도 4의 단계(334, 335) 참조). 상기 장기간 SNRLT는 복수의 프레임에 걸쳐서 음성 신호의 평균 전력 대 노이즈의 평균 전력의 비를 발생하고, 발생된 비로부터 1를 감산함으로써 결정된다. 바람직하게, 상기 음성 신호와 노이즈는 상기 신호의 1 내지 2 초를 나타내는 다수의 프레임에 걸쳐서 평균화된다. 상기 SNRLT가 0보다 작으면, SNRLT는 0으로 설정된다.
상기 이전 SNR에 대한 실제 한계값은 다음의 1차 순환 필터에 의해 결정된다:
ζmin(λ) = 0.9 ζmin(λ-1) + 0.1 ζmin1(λ) (4)
이 필터는 음성 프레임 및 노이즈뿐인 프레임에 대한 예비값들간의 스무스한 천이를 제공한다(도 4의 단계 336 참조). 이때, 스무스한 하한값 ζmin(λ)은 후술되는 이득 계산에 있어서 상기 이전 SNR 값 ζk(λ)에 대한 하한값으로서 사용된다.
4.2 제한된 이전 SNR을 이용한 이득 결정
이 기술 분야에 공지된 바와 같이, 음성 개선 프리프로세서에 사용되는 이득(G)은 이전 신호대잡음비(ζ)와 이후 SNR 값(γ)의 함수이다. 즉, Gk= f(ζk(λ), γk(λ))이며, 여기서 λ는 프레임 인덱스이고, k는 서브밴드 인덱스이다. 본 발명의 일실시예에 따라, 이전 SNR의 하한값 ζmin(λ)은 다음과 같이 이전 SNR(노이즈 추정 모듈(3)에 의해 결정됨)에 적용된다(도 5의 단계(510, 520) 참조):
ζk(λ)>ζmin(λ)이면, ζk(λ) = ζk(λ)
ζk(λ)≤ζmin(λ)이면, ζk(λ) = ζmin(λ)
상기 노이즈 추정 모듈(3)에 의해 발생되는 이전 SNR 추정값, 및 위에서 설명한 제한된 이전 SNR을 기초로, 이득 함수 모듈(4)은 이득 함수 G를 결정한다(도 5의 단계 530). 이 실시예를 실현하는데 사용되는 적절한 이득 함수는 와이.에프레임 등의 문헌 "최소 평균 제곱 오차 로그-스펙트럼 진폭 추정기를 이용한 음성 개선"(IEEE Trans. Acoustics, Speech and Signal Processing, Vol.33, pp.443-445, 1985년 4월)에 기재된 추정기와 같은 일반적인 최소 평균 오차 로그 스펙트럼 진폭 추정기(MMSE LSA)이며, 이 문헌은 여기서 전체적으로 설명된 것처럼 본 명세서의 참고 문헌이 된다. 음성 존재 확률을 설명하기 위하여, 디.마라(D. Malah) 등의 문헌 "비정지 노이즈 환경에서 음성 개선을 향상시키기 위한 음성 존재 불확실성의 추적"(Proc.ICASSP, 1999)에 기재된 추정기와 같은 크게 수정된 MMSE LSA 추정기를 사용함으로써 추가적인 개선이 얻어질 수 있다. 이 문헌은 여기서 완전하게 설명된 것처럼 본원 명세서의 참고 문헌이 된다.
5. 이득 함수의 적용
이득(G)은 변환 모듈(2)에 의해 출력된 데이타 프레임의 노이즈 스펙트럼 크기들에 적용된다. 이는 도 1에 도시된 바와 같이, 노이즈 스펙트럼 크기들을 상기 이득과 곱함으로써 일반적으로 형식으로 행해진다(도 3의 단계(340) 참조).
6. 역변환 모듈
일반적인 역 FFT가 중첩/부가 모듈(6)에 개선된 음성의 프레임을 출력하는 역변환 모듈(5)에 의해 상기 개선된 스펙트럼 크기들에 적용된다(도 3의 단계(350) 참조).
7. 중첩/부가 모듈; 지연 감소
상기 중첩/부가 모듈(6)은 상기 역변환 모듈(5)의 출력을 합성하고, 코더(7)에 개선된 음성 신호ζ(k)를 출력한다. 바람직하게, 상기 중첩/부가 모듈(6)은 프레임의 좌측 "하프"(예컨대, 보다 덜 현재인 180개 샘플)를 합성 윈도우와 곱하고, 상기 프레임의 우측 하프(예컨대, 보다 현재인 76개 샘플)를 역분석 윈도우와 곱함으로써, 상기 개선 프리프로세서(8)에 의해 부과되는 지연을 감소시킨다(도 2의 단계(400) 참조). 상기 합성 윈도우는 상기 분석 윈도우와는 다를 수 있지만, 바람직하게는 상기 분석 윈도우와 동일하다(또한, 이들 윈도우는 바람직하게는 도 2의 단계(200)에서 참조한 분석 윈도우와 동일함). 상기 프레임의 좌측 및 우측 "하프"의 샘플 크기들은 후술되는 바와 같이 코더(7) 입력 버퍼에서 발생하는 데이타 시프트의 양을 기초로 변동되게 된다(후술되는 단계(800)에 관한 설명 참조). 이 경우에, 상기 코더(7) 입력 버퍼 내의 데이타는 180개 샘플만큼 시프트된다. 따라서, 상기 샘플의 좌측 하프는 180개의 샘플을 포함한다. 상기 분석/합성 윈도우는 프레임 에지들에서 높은 감쇠량을 가지고 있으므로, 상기 프레임과 역 분석 필터를 곱하면, 프레임 경계들에서 추정 오차가 크게 증폭되게 된다. 따라서, 바람직하게는 2-3 ms의 적은 지연이 제공되며, 이에 따라 상기 역 분석 필터는 상기 프레임의 최종 16-24개 샘플들과 곱해지지 않는다.
일단, 상기 프레임이 합성 및 역분석 윈도우들에 의해 조절되면, 상기 프레임은 상기 코더(7)의 입력 버퍼(도시되지 않음)에 제공된다(도 2의 단계(500) 참조). 현재 프레임의 좌측 부분은 상기 입력 버퍼에 이미 로딩된 이전 프레임의 우측 하프와 중첩된다. 하지만, 상기 현재 프레임의 우측 부분은 상기 입력 버퍼 내의 프레임의 일부 또는 다른 프레임과 중첩되지 않는다. 이때, 상기 코더(7)는 코딩 파라미터들을 추출하기 위하여 새로 입력되는 프레임과 불완전한 우측 하프 데이타를 포함해서, 상기 입력 버퍼 내의 데이타를 이용한다(도 2의 단계(600) 참조). 예컨대, 일반적인 MELP 코더는 상기 입력 버퍼 내의 데이타로부터 10 개의 선형 예측 계수, 2 개의 이득 인자, 1 개의 피치값, 5 개의 대역 통과 음성 세기값, 10 개의 푸리에 크기값, 및 비주기적인 플래그를 추출한다. 하지만, 상기 프레임으로부터 원하는 정보가 추출될 수 있다. 상기 MELP 코더(7)는 제 1 이득 인자의 선형 예측 계수(LPC) 분석 또는 계산에 대해 상기 입력 버퍼 내의 최근의 60개의 샘플을 사용하지 않으므로, 이들 샘플 내의 개선 오차들은 상기 코더(7)의 전반적인 성능에 적은 영향을 준다.
상기 코더(7)가 코딩 파라미터들을 추출한 후에, 상기 최종 입력 프레임의 우측 하프(예컨대, 보다 현재인 76 개의 샘플)가 상기 분석 및 합성 윈도우와 곱해진다(도 2의 단계(700) 참조). 이들 분석 윈도우 및 합성 윈도우는 바람직하게는 위에서 단계(200)에서 참조한 윈도우와 동일하다(하지만, 이들 윈도우는 예컨대 단계(200)의 분석 윈도우의 제곱근만큼 상이할 수 있음).
다음에, 상기 입력 버퍼 내의 데이타가 다음의 프레임의 입력을 준비하기 위하여 시프트된다. 예컨대, 상기 데이타는 180 개 샘플만큼 시프트된다(도 2의 단계(800) 참조). 위에서 설명한 바와 같이, 상기 분석 윈도우 및 합성 윈도우는 상기 개선 프리프로세서(8)에서 사용된 분석 윈도우와 동일할 수 있거나, 상기 분선 윈도우와 다를 수 있다, 예컨대 상기 분석 윈도우의 제곱근만큼 다를 수 있다. 중첩/부가 동작의 최종 부분을 상기 코더(7) 입력 버퍼로 시프트함으로써, 개선 프리프로세서(8)/코더(7) 조합의 지연은 상기 개선 프리프로세서(8)에서 스펙트럼 해상도의 희생이나 크로스토크 감소 없이 2-3 밀리초로 감소될 수 있다.
C. 설명
본 발명은 특정 실시예와 함께 설명되었지만, 당업자에게 다수의 변형, 수정 및 변경이 명백함은 분명하다. 따라서, 여기서 설명된 본 발명의 바람직한 실시예는 한정이 아닌 예시로서 의도되었다. 본 발명의 취지 및 범위를 이탈하지 않고 각종 변형이 행해질 수도 있다.
예컨대, 본 발명의 실시예는 일반적인 MELP 음성 코더와 더불어 동작하는 것으로 제시되었지만, 다른 음성 코더들이 본 발명과 더불어 사용될 수 있다.
본 발명의 실시예는 FFT 및 IFFT를 이용하지만, 본 발명을 실현하는데에는 이산 푸리에 변환(DFT) 및 역 DFT와 같은 다른 변환들이 사용될 수도 있다.
위에서 참조한 가특허 출원의 노이즈 추정 기술은, 예컨대 노이즈 추정 모듈(3)에 적합하지만, 디.마라(D. Malah) 등의 문헌 "비정지 노이즈 환경에서 음성 개선을 향상시키기 위한 음성 존재 불확실성의 추적"(Proc.IEEE Intl. Conf. Acoustics, Speech, Signal Processing(ICASSP), 1999) 또는 알.마틴(R.Martin)의 문헌 "최소 통계에 기초한 스펙트럼 감산"(Proc. European Signal Processing Conferrence, vol.1, 1994)에 기재된 음성 활동 검출 또는 스펙트럼 최소 추적 방법에 기초한 알고리즘과 같은 다른 알고리즘들이 사용될 수도 있으며, 상기 두 문헌은 그대로 본 명세서의 참고 문헌이 된다.
프레임이 음성 중단(배경 노이즈만)을 나타낼 때에는 예비 하한값 ζmin1(λ)=0.12가 바람직하게 이전 SNR 값(ζk)에 대해 설정되지만, 이 예비 하한값(ζmin1)은 마찬가지로 다른 값에 대해서도 설정될 수 있다.
이전 SNR을 제한하는 처리는 노이즈 스펙트럼 크기에 적용된 이득값을 제한하기 위한 한가지 가능한 메카니즘이다. 하지만, 상기 이득값을 제한하는 다른 방법들을 이용할 수도 있다. 음성 활동을 나타내는 프레임에 대한 이득 값들의 하한값이 배경 노이즈만을 나타내는 프레임에 대한 이득값의 하한값보다 적으면 유리하다. 하지만, 이와 같은 이점은 (이전 SNR과 같은 이득의 함수적 선행 인자의 제한이 아닌) 예컨대, 이득값의 직접 제한과 같은 다른 방식으로 달성될 수도 있다.
상기 개선 프리프로세서(8)의 역변환 모듈(5)로부터 출력된 프레임들은 상기 개선 프리프로세서(8)에 의해 부과된 지연을 감소시키기 위하여 위에서 설명한 바와 같이 바람직하게 처리되지만, 이 지연 감소 처리는 개선을 달성하는데 요구되지 않는다. 따라서, 상기 개선 프리프로세서(8)는 위에서 예시적으로 설명된 이득 제한을 통해 (예컨대, 이전 SNR 값(ζk)을 적응적으로 제한함으로써) 음성 신호를 개선하도록 동작할 수 있다. 마찬가지로, 위에서 예시적으로 설명한 지연 감소는 이득 제한 처리의 이용을 필요로 하지 않는다.
다른 종류의 데이타 처리 동작에서의 지연은 데이타 프레임의 제 1 부분, 즉 어느 한 그룹의 데이타에 제 1 처리를 적용하고, 상기 데이타 프레임의 제 2 부분에 제 2 처리를 적용함으로써 감소될 수 있다. 상기 제 1 처리 및 제 2 처리는 개선 처리를 포함해서 원하는 처리를 포함할 수 있다. 다음에, 상기 프레임의 제 1 부분이 다른 데이타와 조합되도록 상기 프레임은 다른 프레임과 조합된다. 코딩 파라미터와 같은 정보는 상기 조합된 데이타를 포함하는 프레임으로부터 추출된다. 상기 정보가 추출된 후에, 또 다른 프레임의 데이타와의 조합에 대비하여 제 3 처리가 상기 프레임의 제 2 부분에 적용된다.

Claims (4)

  1. 음성 코딩에 사용되는 음성 신호 개선 방법으로서,
    상기 음성 신호는 배경 노이즈와 뚜렷한 음성(articulated speech)의 기간들을 나타내며, 상기 음성 신호는 복수의 데이타 프레임으로 분리된, 상기 음성 신호 개선 방법에 있어서,
    복수의 서브 밴드 음성 신호를 발생하기 위하여, 데이타 프레임의 음성 신호에 변환을 적용하는 단계와;
    상기 데이타 프레임에 대응하는 음성 신호가 뚜렷한 음성을 나타내는지를 결정하는 단계와;
    개개의 이득값들을 개개의 서브 밴드 음성 신호들에 적용하는 단계로서, 뚜렷한 음성을 나타내는 것으로 결정된 프레임에 대한 최저 허용 이득값이 배경 노이즈만을 나타내는 것으로 결정된 프레임에 대한 최저 허용 이득값보다 작은, 상기 개개의 이득값들을 개개의 서브 밴드 음성 신호들에 적용하는 단계와;
    상기 복수의 서브 밴드 음성 신호들에 역변환을 적용하는 단계를 포함하는 음성 신호 개선 방법.
  2. 제 1 항에 있어서,
    상기 개개의 이득값들을 결정하는 단계를 더 포함하며,
    상기 최저 허용 이득값은 최저 허용 이전 신호대잡음비의 함수인, 음성 신호개선 방법.
  3. 음성 코딩에 사용되는 신호 개선 방법으로서,
    상기 신호는 데이타 프레임들로 분할되고, 배경 노이즈 정보와 뚜렷한 음성 정보의 기간들을 나타내는, 상기 신호 개선 방법에 있어서,
    데이타 프레임의 상기 신호가 뚜렷한 음성 정보를 나타내는지를 결정하는 단계와;
    상기 신호에 이득값을 적용하는 단계로서, 뚜렷한 음성을 나타내는 것으로 결정된 프레임에 대한 최저 허용 이득값이 배경 노이즈만을 나타내는 것으로 결정된 프레임에 대한 최저 허용 이득값보다 작은, 상기 신호에 이득값을 적용하는 단계를 포함하는 신호 개선 방법.
  4. 제 3 항에 있어서,
    상기 이득값을 결정하는 단계를 더 포함하며,
    상기 최저 허용 이득값은 최저 허용 이전 신호대 잡음비의 함수인, 신호 개선 방법.
KR1020017010082A 1999-02-09 2000-02-09 음성 활동에 기초한 이득 제한을 이용하는 음성 개선 방법 KR100752529B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US11927999P 1999-02-09 1999-02-09
US60/119,279 1999-02-09
US09/499,985 US6604071B1 (en) 1999-02-09 2000-02-08 Speech enhancement with gain limitations based on speech activity
US09/499,985 2000-02-08

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020067019836A Division KR100828962B1 (ko) 1999-02-09 2000-02-09 음성 활동에 기초한 이득 제한을 이용하는 음성 개선 방법

Publications (2)

Publication Number Publication Date
KR20010102017A true KR20010102017A (ko) 2001-11-15
KR100752529B1 KR100752529B1 (ko) 2007-08-29

Family

ID=26817182

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020067019836A KR100828962B1 (ko) 1999-02-09 2000-02-09 음성 활동에 기초한 이득 제한을 이용하는 음성 개선 방법
KR1020017010082A KR100752529B1 (ko) 1999-02-09 2000-02-09 음성 활동에 기초한 이득 제한을 이용하는 음성 개선 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020067019836A KR100828962B1 (ko) 1999-02-09 2000-02-09 음성 활동에 기초한 이득 제한을 이용하는 음성 개선 방법

Country Status (12)

Country Link
US (2) US6604071B1 (ko)
EP (2) EP1157377B1 (ko)
JP (2) JP4173641B2 (ko)
KR (2) KR100828962B1 (ko)
AT (1) ATE357724T1 (ko)
BR (1) BR0008033A (ko)
CA (2) CA2476248C (ko)
DE (1) DE60034026T2 (ko)
DK (1) DK1157377T3 (ko)
ES (1) ES2282096T3 (ko)
HK (1) HK1098241A1 (ko)
WO (1) WO2000048171A1 (ko)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1143229A1 (en) * 1998-12-07 2001-10-10 Mitsubishi Denki Kabushiki Kaisha Sound decoding device and sound decoding method
GB2349259B (en) * 1999-04-23 2003-11-12 Canon Kk Speech processing apparatus and method
FR2797343B1 (fr) * 1999-08-04 2001-10-05 Matra Nortel Communications Procede et dispositif de detection d'activite vocale
KR100304666B1 (ko) * 1999-08-28 2001-11-01 윤종용 음성 향상 방법
JP3566197B2 (ja) 2000-08-31 2004-09-15 松下電器産業株式会社 雑音抑圧装置及び雑音抑圧方法
JP4282227B2 (ja) * 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
KR20030009516A (ko) * 2001-04-09 2003-01-29 코닌클리즈케 필립스 일렉트로닉스 엔.브이. 스피치 향상 장치
DE10150519B4 (de) * 2001-10-12 2014-01-09 Hewlett-Packard Development Co., L.P. Verfahren und Anordnung zur Sprachverarbeitung
US7155385B2 (en) * 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
US7146316B2 (en) * 2002-10-17 2006-12-05 Clarity Technologies, Inc. Noise reduction in subbanded speech signals
JP4336759B2 (ja) 2002-12-17 2009-09-30 日本電気株式会社 光分散フィルタ
JP4583781B2 (ja) * 2003-06-12 2010-11-17 アルパイン株式会社 音声補正装置
DE60303278T2 (de) * 2003-11-27 2006-07-20 Alcatel Vorrichtung zur Verbesserung der Spracherkennung
ES2294506T3 (es) * 2004-05-14 2008-04-01 Loquendo S.P.A. Reduccion de ruido para el reconocimiento automatico del habla.
US7649988B2 (en) * 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
KR100677126B1 (ko) * 2004-07-27 2007-02-02 삼성전자주식회사 레코더 기기의 잡음 제거 장치 및 그 방법
GB2429139B (en) * 2005-08-10 2010-06-16 Zarlink Semiconductor Inc A low complexity noise reduction method
KR100751927B1 (ko) * 2005-11-11 2007-08-24 고려대학교 산학협력단 멀티음성채널 음성신호의 적응적 잡음제거를 위한 전처리 방법 및 장치
US7778828B2 (en) 2006-03-15 2010-08-17 Sasken Communication Technologies Ltd. Method and system for automatic gain control of a speech signal
JP4836720B2 (ja) * 2006-09-07 2011-12-14 株式会社東芝 ノイズサプレス装置
US20080208575A1 (en) * 2007-02-27 2008-08-28 Nokia Corporation Split-band encoding and decoding of an audio signal
US7885810B1 (en) 2007-05-10 2011-02-08 Mediatek Inc. Acoustic signal enhancement method and apparatus
US20090010453A1 (en) * 2007-07-02 2009-01-08 Motorola, Inc. Intelligent gradient noise reduction system
BRPI0816792B1 (pt) * 2007-09-12 2020-01-28 Dolby Laboratories Licensing Corp método para melhorar componentes de fala de um sinal de áudio composto de componentes de fala e ruído e aparelho para realizar o mesmo
CN100550133C (zh) 2008-03-20 2009-10-14 华为技术有限公司 一种语音信号处理方法及装置
US8645129B2 (en) * 2008-05-12 2014-02-04 Broadcom Corporation Integrated speech intelligibility enhancement system and acoustic echo canceller
US9197181B2 (en) * 2008-05-12 2015-11-24 Broadcom Corporation Loudness enhancement system and method
KR20090122143A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US8914282B2 (en) * 2008-09-30 2014-12-16 Alon Konchitsky Wind noise reduction
US20100082339A1 (en) * 2008-09-30 2010-04-01 Alon Konchitsky Wind Noise Reduction
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
KR101211059B1 (ko) 2010-12-21 2012-12-11 전자부품연구원 보컬 멜로디 강화 장치 및 방법
US9210506B1 (en) * 2011-09-12 2015-12-08 Audyssey Laboratories, Inc. FFT bin based signal limiting
GB2523984B (en) 2013-12-18 2017-07-26 Cirrus Logic Int Semiconductor Ltd Processing received speech data
JP6361156B2 (ja) * 2014-02-10 2018-07-25 沖電気工業株式会社 雑音推定装置、方法及びプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3118473A1 (de) 1981-05-09 1982-11-25 TE KA DE Felten & Guilleaume Fernmeldeanlagen GmbH, 8500 Nürnberg Verfahren zur aufbereitung elektrischer signale mit einer digitalen filteranordnung
US4956808A (en) * 1985-01-07 1990-09-11 International Business Machines Corporation Real time data transformation and transmission overlapping device
JP2884163B2 (ja) * 1987-02-20 1999-04-19 富士通株式会社 符号化伝送装置
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
IL84948A0 (en) 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
GB8801014D0 (en) * 1988-01-18 1988-02-17 British Telecomm Noise reduction
US5479562A (en) * 1989-01-27 1995-12-26 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding audio information
US5297236A (en) * 1989-01-27 1994-03-22 Dolby Laboratories Licensing Corporation Low computational-complexity digital filter bank for encoder, decoder, and encoder/decoder
KR100220862B1 (ko) * 1989-01-27 1999-09-15 쥬더 에드 에이. 고품질 오디오용 저속 비트 변환 코더, 디코더 및 인코더/디코더
DE3902948A1 (de) * 1989-02-01 1990-08-09 Telefunken Fernseh & Rundfunk Verfahren zur uebertragung eines signals
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
JPH08506427A (ja) * 1993-02-12 1996-07-09 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 雑音減少
US5572621A (en) * 1993-09-21 1996-11-05 U.S. Philips Corporation Speech signal processing device with continuous monitoring of signal-to-noise ratio
US5485515A (en) 1993-12-29 1996-01-16 At&T Corp. Background noise compensation in a telephone network
US5715365A (en) * 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
JPH08237130A (ja) * 1995-02-23 1996-09-13 Sony Corp 信号符号化方法及び装置、並びに記録媒体
US5706395A (en) * 1995-04-19 1998-01-06 Texas Instruments Incorporated Adaptive weiner filtering using a dynamic suppression factor
FI100840B (fi) 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
WO1998006090A1 (en) * 1996-08-02 1998-02-12 Universite De Sherbrooke Speech/audio coding with non-linear spectral-amplitude transformation
US5903866A (en) * 1997-03-10 1999-05-11 Lucent Technologies Inc. Waveform interpolation speech coding using splines
US6351731B1 (en) * 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor

Also Published As

Publication number Publication date
CA2362584A1 (en) 2000-08-17
HK1098241A1 (zh) 2007-07-13
US20020029141A1 (en) 2002-03-07
ATE357724T1 (de) 2007-04-15
DE60034026T2 (de) 2007-12-13
DK1157377T3 (da) 2007-04-10
JP2007004202A (ja) 2007-01-11
EP1157377B1 (en) 2007-03-21
JP4512574B2 (ja) 2010-07-28
CA2476248C (en) 2009-10-06
US6542864B2 (en) 2003-04-01
CA2362584C (en) 2008-01-08
KR100828962B1 (ko) 2008-05-14
JP4173641B2 (ja) 2008-10-29
KR100752529B1 (ko) 2007-08-29
DE60034026D1 (de) 2007-05-03
ES2282096T3 (es) 2007-10-16
EP1724758A3 (en) 2007-08-01
BR0008033A (pt) 2002-01-22
EP1724758A2 (en) 2006-11-22
EP1157377A1 (en) 2001-11-28
WO2000048171A8 (en) 2001-04-05
US6604071B1 (en) 2003-08-05
WO2000048171A1 (en) 2000-08-17
JP2002536707A (ja) 2002-10-29
CA2476248A1 (en) 2000-08-17
KR20060110377A (ko) 2006-10-24
EP1724758B1 (en) 2016-04-27
WO2000048171A9 (en) 2001-09-20

Similar Documents

Publication Publication Date Title
KR100828962B1 (ko) 음성 활동에 기초한 이득 제한을 이용하는 음성 개선 방법
US7379866B2 (en) Simple noise suppression model
AU2004309431B2 (en) Method and device for speech enhancement in the presence of background noise
EP1547061B1 (en) Multichannel voice detection in adverse environments
RU2470385C2 (ru) Система и способ улучшения декодированного тонального звукового сигнала
WO2000017855A1 (en) Noise suppression for low bitrate speech coder
Martin et al. New speech enhancement techniques for low bit rate speech coding
JP2009527773A (ja) デコーダおよび対応するデバイス中のディジタル信号のエコーの訓練された弁別および減衰のための方法
Udrea et al. An improved spectral subtraction method for speech enhancement using a perceptual weighting filter
JP6896881B2 (ja) 音響信号のスペクトル強調処理に関する所定の特性を決定するための装置および方法
EP1386313B1 (en) Speech enhancement device
JP2020170187A (ja) デジタルオーディオ信号におけるプレエコーを識別し、減衰させる方法及び装置
JP2003280696A (ja) 音声強調装置及び音声強調方法
JP5295372B2 (ja) デジタルオーディオ信号におけるプリエコーの減衰
Virette et al. Analysis of background noise reduction techniques for robust speech coding
Verteletskaya et al. Enhanced spectral subtraction method for noise reduction with minimal speech distortion
KR20180010115A (ko) 스피치를 향상하는 장치
Xu et al. Elimination of musical noise phenomenon with Burg-based a priori SNR estimator

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
A107 Divisional application of patent
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120727

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130729

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140730

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150617

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160629

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20170809

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20180808

Year of fee payment: 12