KR100421160B1 - 낮은비트율의코딩을위한적응필터및필터링방법 - Google Patents

낮은비트율의코딩을위한적응필터및필터링방법 Download PDF

Info

Publication number
KR100421160B1
KR100421160B1 KR1019970025556A KR19970025556A KR100421160B1 KR 100421160 B1 KR100421160 B1 KR 100421160B1 KR 1019970025556 A KR1019970025556 A KR 1019970025556A KR 19970025556 A KR19970025556 A KR 19970025556A KR 100421160 B1 KR100421160 B1 KR 100421160B1
Authority
KR
South Korea
Prior art keywords
power
filter
signal
noise
filtering
Prior art date
Application number
KR1019970025556A
Other languages
English (en)
Other versions
KR980006936A (ko
Inventor
알랜 브이. 맥크리
Original Assignee
텍사스 인스트루먼츠 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텍사스 인스트루먼츠 인코포레이티드 filed Critical 텍사스 인스트루먼츠 인코포레이티드
Publication of KR980006936A publication Critical patent/KR980006936A/ko
Application granted granted Critical
Publication of KR100421160B1 publication Critical patent/KR100421160B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03LAUTOMATIC CONTROL, STARTING, SYNCHRONISATION OR STABILISATION OF GENERATORS OF ELECTRONIC OSCILLATIONS OR PULSES
    • H03L7/00Automatic control of frequency or phase; Synchronisation
    • H03L7/06Automatic control of frequency or phase; Synchronisation using a reference signal applied to a frequency- or phase-locked loop
    • H03L7/08Details of the phase-locked loop
    • H03L7/085Details of the phase-locked loop concerning mainly the frequency- or phase-detection arrangement including the filtering or amplification of its output signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

혼합된 여기 선형 예측(MELP) 음성 코더에서의 인핸스먼트 필터 또는 코드 북 여기 선형 예측(CELP) 음성 코더에서의 포스트필터에서 사용되기 위한 2개의 필터를 갖는 개선된 필터링 방법이 개시된다. 제1 필터(62)는 전달 함수
Figure pat00001
를 갖는데, 여기서 P는 예측치, α 및 β는 스케일링 계수, z는 전달 함수의 변환 표시에서 사용되는 단위 지연 연산의 역수이고 sig-prob는 신호 확률 추정치이며, 제2 필터는 전달 함수 1-μz-1을 가지며 여기서 μ는 스케일링 팩터이다. sig-prob는 현 프레임의 신호들의 전력과 신호 확률 추정기(63)에서의 잡음(noise) 전력의 장기간 추정치와의 비교에 기초하는 신호 확률치이다. 신호들의 전력이 잡음 전력+30dB 보다 크면, sig-prob 값은 1이고 전력이 잡음 전력+12dB 보다 작으면 sig-prob 값은 0이다. 이 두 조건들 사이에서, sig-prob는 (로그 이득-12dB-잡음 이득)/18이다.

Description

낮은 비트율의 코딩을 위한 적응 필터 및 필터링 방법
본 발명은 음성 코딩(speech coding)에 관한 것으로 특히 낮은 비트율의 코딩에서의 적응 필터링(adaptive filtering)에 관한 것이다.
1994년 3월 3일자 출원된 A. McCree의 "Mixed Excitation Linear Prediction with Fractional Pitch"라는 명칭의 출원 번호 제 08/218,003호 및 1994년 11월 9일자 출원된 A, McCree의 "Mixed Excitation Linear Prediction with Fractional Pitch"라는 명칭의 출원 번호 제 08/336,593호는 본 출원에 관련한 것이고 본 발명에서 참조로서 포함된다.
인간의 음성은 약 20 kHz까지 범위의 주파수를 갖는 음향 신호(acoustic signals)의 스트림으로 이루어지나, 액 100 Hz 내지 5 KHz의 대역은 음향 에너지의 벌크(bulk)를 포함한다. 인간 음성의 전화 전송(Telephone transmission)은 원래 전송을 위해 아날로그 음향 신호 스트림의 아날로그 전압 신호 스트림(예를 들어, 마이크를 이용함)으로의 변환과 음향 신호 스트림으로의 재변환(예를 들어, 확성기를 이용함)으로 이루어진다. 대역폭을 제한하고 저주파수 문제를 피하기 위해 300 Hz 내지 4 KHz의 주파수 대역만을 보유하도록 전기 신호들을 대역 통과 필터링한다. 그러나, 디지탈 전기 신호 전송의 잇점은 1960년대에 시작한 디지탈 전화 전송으로의 변환을 고무시켰다. 디지탈 전화 신호들은 통상적으로 아날로그 신호들을 8 kHz로 샘플링하여 μ법(펄스 코드 변조, PCM)에 따라 상기 샘플들을 8 비트 코드로비선형적으로 양자화함으로써 도출된다. 클럭킹된(clocked) 디지탈-아날로그 변환기와 컴팬딩 증폭기(companding amplifier)는 8-비트 샘플의 스트림으로부터 아날로그 전기 신호 스트림을 재구성한다. 이러한 신호들은 64Kbps(초당 킬로 비트)의 전송 속도를 요구하고 이것은 이전 아날로그 신호 전송 대역폭을 초과하는 것이다.
아날로그 포맷으로의 음성 정보 저장은 (예를 들어, 전화 자동 응답기의 자기 테이프 상에) 마찬가지로 디지탈 방식으로의 저장으로 대치될 수 있다. 그러나, 이렇게 하면 메모리 요구량이 너무 커지며, 8 kHz로 샘플링된 10분간의 8-비트 PCM은 대략 5MB(메가 바이트)의 기억 용량을 요구한다.
낮은 전송 속도 및 기억 용량 필요성에 대한 요구로 음성 신호에 대한 압축을 개발시켰다. 음성 압축에 대한 하나의 접근 방법은 음성의 생리적 발생을 모델링함으로써 전송 또는 저장되는데 필요한 정보를 줄이는 것이다. 특히, 선형 음성 생성 모델은 피치 주기(pitch period) P를 갖는 펄스열(유성음용) 또는 백색 잡음(무성음용) 중의 하나에 의해 (발성계를 개략적으로 나타내는) 가변 필터의 여기를 추정하고 다음으로 음성 크기를 조절하도록 증폭된다. 1/A(z)는 통상적으로 필터 전달 함수의 z 변환을 나타낸다. 모델은 단순하게 주기적으로 유성/무성 결정하고 필터 계수 및 이득을 조절함으로써 사운드 스트림을 생성시킨다. 일반적으로, Markel 과 Gray의 Linear Prediction of Speech(Springer-Verlag 1976)가 참조된다.
비트율을 줄이기 위해서, 연속 프레임들에 대한 계수들이 보간될 수 있다. 그러나, 음질을 개선시키기 위해서는, 더 많은 정보가 음성으로부터 추출되고, 압축되고, 전송 또는 저장될 수 있다. 예를 들면, 코드북 여기 선형 예측(codebook excitation linear prediction, CELP)법은 먼저 음성 프레임을 분석하여 A(z)를 구하고 음성을 필터링한다. 다음으로, 피치 주기 판정이 이루어지고 콤 필터(comb filter)는 잡음이 있는 여기 신호를 산출하도록 그 주기성을 제거한다. 그 후, 여기 신호들은 코드북 내에서 인코딩된다. 따라서 CELP는 LPC 필터 계수, 피치, 및 여기의 코드북 인덱스를 전송한다.
다른 접근 방법으로 LPC 필터에 대해 유성 및 무성 여기를 혼합하는 것이다. 예를 들면, 1992년 8월 Georgia Institute of Technology의 Ph.D. 논문으로 McCree의 A New LPC Vocoder Model for Low Bit Rate Speech Coding, 여기 주파수 범위를 대역들로 분할하고, 각 대역 내에 개별적으로 유성/무성 혼합 결정을 하고, 총 여기에 대한 결과를 결합한다. 혼합된 여기 선형 예측(MELP) 계수 보코더는 A. McCree 등에 의한 1995년 7월 IEEE Trans. on Speech Audio Proc., Vol.3, No.4의 "A Mixed Exitation LPC Vocoder Model for Low Bit Rate Speech Coding"이 명칭의 논문에 기술되어 있다. 상기 인용된 출원 번호 제08/218,003호 및 제 08/336,593호는 혼합된 여기 선형 예측 음성 코더를 설명한다. 이 참조 문헌들은 본 발명에서 참조로서 포함된다.
대부분의 낮은 비트율의 음성 코더들은 처리된 음성 신호의 수용 품질을 개선시키기 위해 몇가지 형태의 적응 스펙트럼 인핸스먼트 필터(adaptive spectral enhancement filter) 또는 포스트필터(postfilter)를 사용한다. 예를 들면, McCree 외 다수에서의 Mixed Excitation Linear Predictive (MELP) Speech Coder에는, LPC스펙트럼에 기초한 적응 폴/제로 인핸스먼트 필터 (adaptive pole/zero enhancement filter)가 사용된다. 적응 스펙트럼 인핸스먼트 필터는 대역 통과 필터링된 음성이 포르만트(formant) 영역에서 자연 음성 파형과 매치되도록 돕는다. 상술된 이 적응 필터는 깨끗한 입력 신호를 위해 음질을 개선시키나, 음향 잡음의 존재로 인해 이 필터는 실제적으로는 성능이 저하된다. 인핸스먼트 필터는 음향 배경 잡음의 전력 스펙트럼의 변동을 증가시키는 경향이 있어서, 청취자를 매우 짜증나게 할 수 있는 부자연스런 "스월링(swirling)" 효과를 야기시킨다. CELP 음성 코더의 포스트필터에서 유사한 효과가 생긴다.
본 발명의 한 목적에 따르면, 깨끗한 음성 신호를 위해 기존 방법의 품질 개선을 유지시키면서 음향 잡음이 존재하더라도 더 좋은 성능을 줄 수 있는 CELP의 이러한 적응 스펙트럼 인핸스먼트 필터 또는 포스트필터가 개선된다.
본 발명의 일 실시예에 따르면, 입력 프레임이 배경 잡음이라기보다는 음성이라는 추정 확률과 선형 예측 계수 파라미터들에 의해 필터링이 제어되는 낮은 비트율의 음성에서의 디지탈 처리된 음성 또는 오디오 신호들을 개선시키기 위한 필터링 방법이 제공된다. 이러한 방법으로, 처리된 배경 잡음에 인공물(artifacts)을 도입하지 않고도 깨끗한 음성 신호에 대한 필터링의 이점이 실현된다.
본 발명의 이런 특징 및 다른 특징들은 당업자에게는 첨부된 도면을 참조하여 본 발명의 상세한 설명으로부터 명백해질 것이다.
도 1은 음성 통신 시스템의 일반적인 블록도.
도 2는 도 1의 음성 분석기의 블록도.
도 3은 신디사이저의 블록도.
도 4a-d는 자연 음성 대 감쇠 파형을 설명하는 것으로서, 도 4a는 자연 음성 모음(vowel)의 제1 포르만트; 도 4b는 합성 지수 감쇠 공진을 설명하고; 도 4c는 이 공진에 대한 풀/제로 인핸스먼트 필터 임펄스 응답; 및 도 4d는 인핸스 감쇠 공진을 설명하는 도면.
도 5는 본 발명의 일 실시예에 따른 적응 스펙트럼 인핸스먼트의 블록도.
도 6은 신호 확률 추정기의 플로우 챠트(여기서 μ는 스케일링 팩터이고 z-1는 단위 지연 연산자)
<도면의 주요 부분에 대한 부호의 설명>
508 : 펄스 필터
512 : 백색 잡음 발생기
502 : 펄스열 발생기
600 : 파라미터 추출기
입력 음성이 아날로그-디지탈 변환기에 의해 샘플링되고 파라미터들은 인코딩되어 분석기(600)에 보내지고, 기억 용량 및 전송 채널을 통해 신디사이저(500)에 전송되는 전체 낮은 비트율의 음성 통신 시스템이 도 1에 예시된다. 신디사이저(500)로부터 디코딩된 신호들은 디지탈-아날로그 변환기(DAC)에 의해 스피커용 신호로 다시 변환된다. 도 2를 참조하면, 몇개 블록의 분석기가 설명된다. 아날로그 입력 음성은 변환기(620)에서 디지탈 음성으로 변환되어 LPC 추출기(602), 피치 주기 추출기(604), 지터 추출기(606), 유성/무성 혼합 제어 추출기(608), 이득 추출기(610), 및 602-610으로부터의 5개의 블록 입력 및 출력을 어셈블링하고 이들을 전송 채널을 통해 인코딩된 상태로 클럭 아웃(clock out)시키기 위한 인코더(612)를 포함하는 음성 분석기에 인가된다. 신디사이저(500)에는 LPC 파라미터, 피치 주기, 혼합, 지터 플래그, 및 이득을 제공하기 위해 인코더(612)로부터 인코딩된 음성을 디코드하는 디코더(536)가 있다.
도 3을 참조하면, 1994년 3월 25일자 출원된 미국 특허 제 08/218,003호에 설명되고 상술된 McCree 등의 논문과 유사한 본 발명의 일 실시예에 따른 MELP 보코더가 설명된다. 신디사이저(500)은 디코더(536)으로부터의 피치 주기 입력에 의해 제어되는 주기 펄스열 발생기(502), 디코더(536)으로부터의 이득 입력에 의해 제어되는 펄스열 증폭기(504), 디코더(536)의 지터 출력으로부터의 플래그 입력에 의해 제어되는 펄스 지터 발생기(506), 디코더(536)으로부터의 5개 대역의 유성/무성 혼합 입력에 의해 제어되는 펄스 필터(508)를 포함한다. 신디사이저(500)은 백색 잡음 발생기(512), 동일한 이득 입력에 의해 또한 제어되는 이득 증폭기, 동일한 5개 대역의 유성/무성 혼합 입력에 의해 또한 제어되는 잡음 필터(518), 및 필터링된 펄스 및 잡음을 결합시키기 위한 가산기(520)를 더 포함한다. 가산기 출력은 적응 스펙트럼 인핸스먼트 필터(530)에 인가되는 혼합된 신호 e(n)이며 이 적응 스펙트럼 인핸스먼트 필터는 강조(emphasis)를 포르만트들에 부가하여 e'(n)을 생성한다. 이 출력은 10개의 LPC 계수들에 의해 제어되는 LPC 합성 필터(532)에 인가된다. 이 출력은 디코더(536)로부터의 이득과 함께 증폭기(533)에서 증폭되고 펄스 분산 필터(534)에 인가되어 디지탈 합성 음성을 얻는다. 그 후, 이 디지탈화된 음성은 디지탈-아날로그 변환기(540)를 이용하여 확성기용 아날로그 음성으로 변환된다. 본 발명의 다른 실시예에 따르면, 가산기 출력 e(n)은 10개의 LPC 계수들에 의해 제어되는 합성 필터(532)에 인가되고, LPC 필터의 출력은 강조를 포르만트에 부가하도록 인핸스먼트 필터(530)에 인가되어 e'(n)을 생성시킨다.
본 발명의 일 실시예에 따르면, 본 발명은 적응 스펙트럼 인핸스먼트 필터(530)을 향상시킨다. MELP 코더의 적응 스펙트럼 인핸스먼트 필터(530)은 LPC 필터 계수들에 기초하는 폴/제로 필터이다. 이 적응 필터는 대역 통과 필터링된 합성 음성이 포르만트 영역에서 자연 음성 파형과 매치하도록 돕는다. 전형적인 포르만트 공진은 통상적으로 자연 또는 합성 음성에서의 피치 펄스들간의 시간내에 완전하게 감쇠되지는 않으나, 합성 음성 파형은 자연 음성 파형보다 피크들 중에서 낮은 밸리(valley)에 도달한다. 이것은 아마도 LPC 합성 필터의 폴들이 자연 인간 음성에서 포르만트 공진의 특성을 재생시키지 못하는 것에 의해 야기된다. 이 문제에 대해서는 2가지 가능한 이유가 있다. 한가지 원인은 부적당한 LPC 폴 대역폭일수 있는데, LPC 폴이 실제 포르만트(true formant)보다 약한 공진을 갖기 때문에 합성 시간 신호는 너무 빨리 감쇠될 수 있다는 것이다. 또 다른 가능한 이유는, 실제 포르만트 대역폭은 피치 주기내에 다소 변할 수 있고, 합성 음성은 이러한 동작을 모방해낼 수 없다는 것이 라고 설명된다.
상술된 1995년 7월자 McCree논문의 적응 스펙트럼 인핸스먼트 필터는 포르만트 파형을 매칭하는 문제에 간단한 해결책을 제공한다. 적응 폴/제로 필터는 포르만트 주파수들간의 양자화 잡음을 줄이도록 되어있기 때문에 CELP 코더들에서 광범위하게 사용된다. 1987년 달라스주의 Proc. IEEE Int. Conf.. Accost, Speech Signal Processing에서의 pp. 2185-2188에 있는 "Real-Time Vector APC Speech Coding at 4800 bps with Adaptive Post Filtering"이라는 명칭의 Chen 등의 논문을 참조한다. 또한 1991년 Advances in Speech Coding, Nowell, MA의 pp. 121-133에 있는 "The DOD 4.8 kps Standard(제안된 연방 표준 1016)"라는 명칭의 Campbell 등의 논문을 참조하라. 이 참조 문헌들은 본 발명에서 참조로서 포함된다. 폴들은 α가 0.8인 LPC 합성 필터의 대역폭 확장 버젼에 의해 생성된다. McCree 논문에 따르면, 이 모든 폴 필터는 스펙트럼 경사를 증가시킴으로써 방해(disturbing) 저역 필터링 효과를 도입시키기 때문에, α가 0.5로 계산된 약한 모든 제로 필터는 포르만트 인핸스먼트를 줄이지 않고 전체 필터의 경사를 감소시키는데 사용된다. 부가적으로, 단순한 1차 FIR 필터는 저역 머플링(muffling) 효과를 더 줄이는데 사용된다. 혼합된 여기 LPC 보코더에서, 양자화 잡음을 줄이는 것이 중요한 것이 아니고, 이 필터의 시간-영역 특성들이 피치 동기 폴 대역폭 변조와 유사한 효과를 생성시키는 것이다. 도 4에 도시된 바와 같이, 단순한 감쇠 공진은 이 인핸스먼트 필터가 적용되는 경우 덜 가파른 시간-영역 어텍(attack)을 갖는다. 이 특성은 LPC 보코더 음성 출력이 포르만트 영역에서 지연 음성의 대역 통과 파형 특성들과 더 잘 매치되게 하고, 합성 음성의 감지 품질을 증가시킨다.
상술된 바와 같이, 인핸스먼트 필터의 폴은 z 평면내의 단위원 쪽으로 0.8 팩터 만큼 시프트되는 LPC 필터의 폴이다.
본 발명에 따르면, 이 모든 폴 필터(pole filter)는, 단독으로, 처리된 음성 신호에 잘못된 특성을 도입하기 때문에, 더 약한 모든 제로 필터(zero filter)는 직렬로 사용되어 폴들에 의해 도입된 스펙트럼 경사를 보상한다. 또한, 다른 제로가 필터내에 포함되어 스펙트럼 경사를 더 줄인다. Chen 등에 의한 미국 특허 제 4, 969, 192호인 "Vector Adoptive Predictive Coder for Speech and Audio"에서는 CELP 음성 코더의 포스트필터에 제2 필터를 사용했다.
기존의 방법이 가지고 있는 문제는 음향 배경 잡음에 존재하는 변동을 증가 시킨다는 것이다. 본 발명에서의 새로운 방법은 현 입력 프레임이 배경 잡음이 아닌 음성이라는 확률 추정에 기초하여 스펙트럼 인핸스먼트 필터의 강도를 적응시키는 것이다. 이 확률은 현 음성 프레임의 전력을 잡음 전력의 장기간 추정치에 대해 비교함으로써 추정된다. 가능한 불연속성이 인핸스먼트 필터를 온 및 오프로 스위칭하는 것을 방지하기 위해, 필터의 강도는 전혀 필터링하지 않는 경우로부터 신호 확률의 범위를 넘은 풀 스펙트럼 인핸스먼트까지 점차적으로 변한다.
도 5를 참조하면 본 발명에 따른 개선된 인핸스먼트 필터가 설명된다. 혼합된 여기 신호 e(n)은 LPC 계수에 의해 제어되고 다음과 같은 전달 함수를 갖는 필터(62)에 인가된다.
Figure pat00021
여기서 z는 단위 지연 연산자 z-1의 역수이고, α 및 β는 처핑(chirping)을 생성시키나 스펙트럼 인핸스먼트를 성취하지 않는 스펙트럼 피크들간의 일부 절충(tradeoff)에 의해 실험적으로 결정된다. 예측 필터 계수 1-P(z)는 분석 필터 계수 A(z)와 같다. Hz 단위의 주파수 응답은 하기 식에서와 같이 2개의 모든 폴 필터의 주파수 응답들 간의 차이다.
Figure pat00022
종래의 McCree 논문에서, 인핸스먼트 필터에 대한 값들은 β=0.5이고 α=0.8인 제1 필터와 전달 함수가 1-μz-1인 제2 필터로 이루어졌다. 제1 필터에 대한 본 발명에 따르면, 신호 확률 추정기(63)으로부터의 신호 확률(sig-prob) 값은 0.5의 β에 곱해지고 0.8의 α에 곱해지거나, 또는 필터(62)에서 β=0.5 * sig-prob(추정기에서 측정된 신호 확률) 그리고 α=0.8 * sig-prob이 된다. 필터(62)의 출력은 sig-prob가 곱해지는 1-μz-1의 전달 함수를 갖는 제2 필터(65)에 결합되며, 여기서 μ는 통상 0.5에 k(1)이 곱해진다. 용어 k(1)은 제1 반사 계수이다. 신호 확률추정기(63)은 분석기(도 2의 536으로부터 디코딩된 도 4의 610)로부터의 이득에 응답하여 현 프레임의 전력이 잡음 전력의 장기간 추정치에 비교되는지의 여부를 결정한다. 추정기의 플로우 챠트는 도 6에 도시된다. 추정기(63)은 시상수와 스텝 크기를 설정하고 그 후에 이득의 로그와 잡음 이득+30dB와 비교한다. 전력 레벨이 잡음 이득 +30dB 보다 큰 경우에는 sig-prob를 1로 설정하고, 잡음 이득+12dB 보다 작은 경우에는 0으로 설정하여 필터링을 없앤다. 이러한 방식으로, 신호가 존재하나 잡음이 존재하지 않는 경우 필터가 적용된다. 이득이 이 극값들 사이에 있으면, sig-prob 값은 (로그-이득-12dB-잡음 이득)을 18로 나눈 것과 같다. 이것은 12dB과 30dB사이의 0과 1 사이의 선형 경사(ramp) 값이다. 이 "sig-prob"은 α, β, 및 μ에 대해 승산자가 된다. 시상수들은 음성 신호를 평균화하고 노이즈 플로어(noise floor)의 값을 근사화하도록 선택된다.
TMS320C31 DSP 칩에서 실행되는 2.4 kb/s MELP 코더의 실시간 구현에서, 이 개선된 적응 스펙트럼 인핸스먼트 방법은 깨끗한 입력 신호를 위한 기존의 방법과 동일한 품질을 유지시키면서, 잡음 입력 음성을 위한 음성 품질을 명확하게 개선시키게 한다.
추정기(63)은 이하의 의사 코드(pseudo code)를 따르는 프로세서 칩 실행 코드의 일부일 수 있다.
* 현 프레임 시상수/스텝 크기에 대한 로그 이득으로부터의 평균 잡음 이득을 추정
Figure pat00023
본 방법은 스펙트럼 인핸스먼트 또는 포스트필터링이 요망되는 다른 음성 코딩 응용 분야에서 쉽게 적용될 수 있다.
상기 인용된 Chen 등의 미국 특허 번호 제 4,969,192호는 제1 필터에 대한 값들이 β = 0.5이고 α = 0.8이고 제2 필터 전달 함수가 1-μz-1인 포스트필터를 설명했다. 여기 개시된 것에 따르면, 단지연 포스트필터(32a)는, 추정 확률을 알아내도록 상술된 바와 같이 변형되는 경우 배경 잡음이 아닌 음성이 나오고 여기에서 제1 필터에 대해서는 β = 0.5 * sig-prob 이고 α = 0.8 * sig-prob이 된다. 제2 필터는 전달 함수가 μz-1* sig-prob인데, 여기서 μ는 0.5 * k(1)이며, k(1)는 제1 반사 계수이다.
다른 실시예
본 발명과 본 발명의 잇점들이 상세하게 설명되었다 해도, 첨부된 특허 청구 범위에서 정의되는 바와 같이 본 발명의 사상과 범주에서 벗어남이 없이 다양한 변화, 대체 및 변경들이 행해질 수 있음을 알 수 있다.

Claims (33)

  1. 디지탈 처리된 음성 신호를 개선시키기 위한 필터링 방법에 있어서,
    현 프레임내의 상기 신호들의 전력과 잡음 전력의 장기간(long term) 추정치와의 비교에 기초하여 신호 확률 추정치를 발생시키는 단계;
    선형 예측 계수 및 상기 신호 확률치에 의해 제어되는 지연만큼 상기 신호를 제1 필터링하는 단계; 및
    식 1-μz-1* 신호 확률치의 전달 함수(여기서 μ는 스케일링 팩터이고, z-1는 단위 지연 연산자임)에 의한 제2 필터링 단계
    를 포함하는 필터링 방법.
  2. 제1항에 있어서, 상기 신호 전력의 로그 이득이 잡음 전력+30dB 보다 크면, 상기 신호 확률치는 1인 필터링 방법.
  3. 제2항에 있어서, 상기 전력이 잡음 전력+ 12dB 보다 작으면 상기 신호 확률치는 0인 필터링 방법.
  4. 제3항에 있어서, 상기 전력이 잡음 이득+ 12dB 보다 크고 잡음 이득 +30dB 보다는 작으면 상기 신호 확률치는(로그 이득-12-잡음 이득)/18인 필터링 방법.
  5. 제4항에 있어서, 상기 제1 필터링 단계는 하기식
    Figure pat00007
    인 전달 함수를 가지며, 여기서 P는 예측치, α 및 β는 스케일링 팩터, z는 단위 지연 z-1의 역수, μ는 스케일링 팩터인 필터링 방법.
  6. 제5항에 있어서, α = 0.8이고, β = 0.5인 필터링 방법.
  7. 제6항에 있어서, μ는 0.5 * k(1)이고, 여기서 k(1)은 제1 반사 계수인 필터링 방법.
  8. 제1항에 있어서, 상기 필터링 단계는 하기식
    Figure pat00024
    인 전달 함수를 가지며, 여기서 P는 예측치, α 및 β는 스케일링 팩터, z는 단위 지연 z-1의 역수인 필터링 방법.
  9. 제8항에 있어서, α=0.8, β=0.5, μ=0.5k(1)이며, 여기서 k(1)은 제1 반사 계수인 필터링 방법.
  10. 디지탈 처리된 음성 또는 오디오 신호들을 향상시키기 위한 필터링 방법에 있어서,
    상기 음성 또는 오디오 신호를, 각각이 K 연속 샘플들을 갖는 벡터들의 프레임으로 버퍼링하는 단계;
    선형 예측 계수 및 현 프레임의 전력을 계산하기 위해 소정 블록에서의 음성 또는 오디오 신호들의 상기 버퍼링된 프레임들을 분석하는 단계;
    상기 현 프레임의 전력과 잡음 전력의 장기간 추정치와의 비교에 기초하여 신호 확률 추정치 sig-prob를 발생시키는 단계;
    상기 선형 예측 계수 및 상기 신호 확률 추정치에 의해 제어되는 지연만큼 각각의 벡터를 제1 필터링하되, 상기 필터링 단계는 하기 식의 전달 함수
    Figure pat00009
    를 이용하여 수행되는 제1 필터링 단계
    (여기서 1-P는 LPC 계수이고, z는 상기 전달 함수의 변환 표현에 사용되는 단위 지연 연산자의 역수이고, α 및 β는 스케일링 팩터 * sig-prob임)를 이용하여 성취되는 제1 필터링 단계; 및
    식 1-μz-1* sig-prob(여기서 μ = 스케일링 팩터)의 전달 함수에 의한 제2 필터링 단계
    를 포함하는 필터링 방법.
  11. 제10항에 있어서, 상기 전력이 잡음 이득+30dB 보다 크면 상기 신호 확률치는 1인 필터링 방법.
  12. 제11항에 있어서, 상기 전력이 잡음 이득+ 12dB 보다 작으면 상기 신호 확률치는 0인 필터링 방법.
  13. 제12항에 있어서, 상기 전력이 잡음 이득+ 12dB 보다 크고 상기 잡음 이득+30dB 보다는 작으면 신호 확률치를 (로그 이득-12-잡음 이득)/18로 설정하는 필터링 방법.
  14. 제10항에 있어서, β는 0.5, α는 0.8, μ는 0.5 k(1)이며, k(1)은 제1 반사 계수인 필터링 방법.
  15. 제14항에 있어서, 상기 로그 이득이 잡음 이득+30dB 보다 크면 sig-prob는 1이 되는 필터링 방법.
  16. 제15항에 있어서, 상기 로그 이득이 잡음 이득+ 12dB 보다 작으면 상기 sig-prob는 0이 되는 필터링 방법.
  17. 제16항에 있어서, 상기 전력이 잡음 이득+ 12dB 보다 크고 잡음 이득 +30dB 보다 작으면 상기 sig-prob를 (로그 이득-12 -잡음 이득)/18로 설정하는 필터링 방법.
  18. 음성 신호를 전송하기 위한 낮은 비트율의 음성 통신 시스템에 있어서,
    상기 음성 신호들을 각각이 연속 샘플들을 갖는 벡터로 버퍼링하기 위한 수단;
    선형 예측 계수 및 현 프레임의 전력을 포함하는 인코딩된 음성을 계산하기 위해 소정 블록들에서의 음성 또는 오디오 신호들의 상기 버퍼링된 프레임을 분석하는 수단;
    상기 인코딩된 음성을 전송 채널을 통해 전송하기 위한 수단;
    상기 전송 수단에 결합되어 상기 음성을 디지탈 신호로 디코딩하기 위하여 상기 인코딩된 음성에 응답하는 신디사이저; 및
    상기 신디사이저로부터의 상기 디지탈 신호들에 응답하여 음성 신호들을 제공하기 위한 디지탈-아날로그 변환기 수단을 포함하고,
    디지탈 처리된 음성을 향상시키기 위한 수단을 포함하는 상기 신디사이저는 현 프레임의 전력과 잡음 전력의 장기간 추정치와의 비교에 기초하여 신호 확률 추정치 sig-prob를 발생시키기 위한 수단;
    상기 선형 예측 계수 및 상기 신호 확률 추정치에 의해 제어되는 지연만큼 각 벡터를 필터링하기 위한 제1 필터 수단으로서, 상기 필터링은 하기의 전달 함수를 이용하여 수행되는 제1 필터 수단;
    Figure pat00010
    (여기서 1-P는 LPC 계수, z는 상기 전달 함수의 변환 표시에서 사용되는 단위 지연 연산자의 역수이고, α 및 β는 스케일링 팩터) 및
    식 1-μz-1* sig-prob(여기서 μ는 스케일링 팩터)의 전달 함수에 의해 필터링하기 위한 제2 필터 수단
    을 포함하는 낮은 비트율의 음성 통신 시스템.
  19. 제18항에 있어서, 상기 전력이 잡음 이득+30dB 보다 크면 상기 신호 확률치 sig-prob는 1인 낮은 비트율의 음성 통신 시스템.
  20. 제19항에 있어서, 상기 전력이 잡음 이득+12dB 보다 작으면 상기 신호 확률치는 0인 낮은 비트율의 음성 통신 시스템.
  21. 제20항에 있어서, 상기 전력이 잡음 이득+ 12dB 보다 크고 잡음 이득 +30dB 보다 작으면 상기 신호 확률치를 (로그 이득-12-잡음 이득)/18로 설정하는 낮은 비트율의 음성 통신 시스템.
  22. 제18항에 있어서, β는 0.5, α는 0.8, μ는 0.5 k(1)이며, k(1)는 제1 반사 계수인 낮은 비트율의 음성 통신 시스템.
  23. 제18항에 있어서, 상기 신디사이저는 LPC 계수에 의해 제어되는 LPC필터를 포함하는 낮은 비트율의 음성 통신 시스템.
  24. 제23항에 있어서, 상기 향상 수단은 상기 LPC 필터 앞에 있는 낮은 비트율의 음성 통신 시스템.
  25. 제23항에 있어서, 상기 향상 수단은 LPC 필터 뒤에 있는 낮은 비트율의 음성 통신 시스템.
  26. 제18항에 있어서, 상기 시스템은 MELP 코더인 낮은 비트율의 음성 통신 시스템.
  27. 디지탈 처리된 음성 신호를 개선시키기 위한 필터에 있어서,
    현 프레임내의 상기 신호들의 전력과 잡음 전력의 장기간 추정치와의 비교에 기초하여 신호 확률 추정치를 발생시키기 위한 수단;
    선형 예측 계수 및 상기 신호 확률치에 의해 제어되는 지연만큼 상기 신호들을 필터링하기 위한 제1 필터; 및
    식 1-μz-1* 신호 확률치의 전달 함수를 갖는 제2 필터(여기서 μ는 스케일링 팩터이고 z-1는 단위 지연 연산자)
    를 포함하는 필터.
  28. 제27항에 있어서, 상기 신호 전력의 로그 이득이 잡음 전력+30db 보다 크면 상기 신호 확률치는 1인 필터.
  29. 제28항에 있어서, 상기 전력이 잡음 전력+ 12dB 보다 작으면 상기 신호 확률치는 0인 필터.
  30. 제29항에 있어서, 상기 전력이 잡음 이득+ 12dB 보다 크고 잡음 이득+ 30dB 보다 작으면 상기 신호 확률치를 (로그 이득-12-잡음 이득)/18로 설정하는 필터.
  31. 제30항에 있어서, 상기 제1 필터는 하기식의 전달 함수를 가지며,
    Figure pat00011
    여기서 P는 예측치이고, α 및 β는 스케일링 팩터이고, Z는 단위 지연 z-1의 역수이며 μ는 스케일링 팩터인 필터.
  32. 제31항에 있어서, α = 0.8, β = 0.5인 필터.
  33. 제32항에 있어서, μ는 0.5 * k(1)이며, k(1)는 제1 반사 계수인 필터.
KR1019970025556A 1996-06-19 1997-06-18 낮은비트율의코딩을위한적응필터및필터링방법 KR100421160B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US2033796P 1996-06-19 1996-06-19
US60/020337 1996-06-19

Publications (2)

Publication Number Publication Date
KR980006936A KR980006936A (ko) 1998-03-30
KR100421160B1 true KR100421160B1 (ko) 2004-05-24

Family

ID=21798075

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970025556A KR100421160B1 (ko) 1996-06-19 1997-06-18 낮은비트율의코딩을위한적응필터및필터링방법

Country Status (6)

Country Link
US (1) US5966689A (ko)
EP (1) EP0814458B1 (ko)
JP (1) JPH1145100A (ko)
KR (1) KR100421160B1 (ko)
DE (1) DE69730779T2 (ko)
TW (1) TW416044B (ko)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW376611B (en) * 1998-05-26 1999-12-11 Koninkl Philips Electronics Nv Transmission system with improved speech encoder
EP0998166A1 (fr) * 1998-10-30 2000-05-03 Koninklijke Philips Electronics N.V. Dispositif de traitement audio récepteur et procédé pour filtrer un signal utile et le restituer en présence de bruit ambiant
US7295974B1 (en) * 1999-03-12 2007-11-13 Texas Instruments Incorporated Encoding in speech compression
JP2001175298A (ja) * 1999-12-13 2001-06-29 Fujitsu Ltd 騒音抑圧装置
US6529867B2 (en) * 2000-09-15 2003-03-04 Conexant Systems, Inc. Injecting high frequency noise into pulse excitation for low bit rate CELP
US7133823B2 (en) * 2000-09-15 2006-11-07 Mindspeed Technologies, Inc. System for an adaptive excitation pattern for speech coding
EP1199812A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Perceptually improved encoding of acoustic signals
AU2002241476A1 (en) * 2000-11-22 2002-07-24 Defense Group Inc. Noise filtering utilizing non-gaussian signal statistics
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
SE521693C3 (sv) * 2001-03-30 2004-02-04 Ericsson Telefon Ab L M En metod och anordning för brusundertryckning
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
US7272555B2 (en) * 2001-09-13 2007-09-18 Industrial Technology Research Institute Fine granularity scalability speech coding for multi-pulses CELP-based algorithm
US7103541B2 (en) * 2002-06-27 2006-09-05 Microsoft Corporation Microphone array signal enhancement using mixture models
KR100630112B1 (ko) * 2002-07-09 2006-09-27 삼성전자주식회사 이동통신시스템의 적응형 채널 추정장치 및 방법
US20050071154A1 (en) * 2003-09-30 2005-03-31 Walter Etter Method and apparatus for estimating noise in speech signals
BRPI0607646B1 (pt) * 2005-04-01 2021-05-25 Qualcomm Incorporated Método e equipamento para encodificação por divisão de banda de sinais de fala
PL1875463T3 (pl) * 2005-04-22 2019-03-29 Qualcomm Incorporated Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia
KR101565919B1 (ko) 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
US20080120098A1 (en) * 2006-11-21 2008-05-22 Nokia Corporation Complexity Adjustment for a Signal Encoder
US20080249767A1 (en) * 2007-04-05 2008-10-09 Ali Erdem Ertan Method and system for reducing frame erasure related error propagation in predictive speech parameter coding
CN102017402B (zh) 2007-12-21 2015-01-07 Dts有限责任公司 用于调节音频信号的感知响度的系统
US8842846B2 (en) * 2009-03-18 2014-09-23 Texas Instruments Incorporated Method and apparatus for polarity detection of loudspeaker
EP2246845A1 (en) * 2009-04-21 2010-11-03 Siemens Medical Instruments Pte. Ltd. Method and acoustic signal processing device for estimating linear predictive coding coefficients
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
WO2011026247A1 (en) * 2009-09-04 2011-03-10 Svox Ag Speech enhancement techniques on the power spectrum
US8204742B2 (en) * 2009-09-14 2012-06-19 Srs Labs, Inc. System for processing an audio signal to enhance speech intelligibility
CA3160488C (en) * 2010-07-02 2023-09-05 Dolby International Ab Audio decoding with selective post filtering
US20120143604A1 (en) * 2010-12-07 2012-06-07 Rita Singh Method for Restoring Spectral Components in Denoised Speech Signals
US9117455B2 (en) 2011-07-29 2015-08-25 Dts Llc Adaptive voice intelligibility processor
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3702215A1 (de) * 1987-01-26 1988-08-04 Ant Nachrichtentech Uebertragungsanordnung fuer digitale signale
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
US5408529A (en) * 1993-06-02 1995-04-18 Motorola, Inc. Dual tone detector operable in the presence of speech or background noise and method therefor

Also Published As

Publication number Publication date
JPH1145100A (ja) 1999-02-16
EP0814458A2 (en) 1997-12-29
US5966689A (en) 1999-10-12
KR980006936A (ko) 1998-03-30
DE69730779D1 (de) 2004-10-28
EP0814458B1 (en) 2004-09-22
DE69730779T2 (de) 2005-02-10
EP0814458A3 (en) 1998-09-23
TW416044B (en) 2000-12-21

Similar Documents

Publication Publication Date Title
KR100421160B1 (ko) 낮은비트율의코딩을위한적응필터및필터링방법
JP4843124B2 (ja) 音声信号を符号化及び復号化するためのコーデック及び方法
EP0673013B1 (en) Signal encoding and decoding system
RU2257556C2 (ru) Квантование коэффициентов усиления для речевого кодера линейного прогнозирования с кодовым возбуждением
RU2325707C2 (ru) Способ и устройство для эффективного маскирования стертых кадров в речевых кодеках на основе линейного предсказания
JP3881943B2 (ja) 音響符号化装置及び音響符号化方法
JP3513292B2 (ja) 雑音荷重フィルタリング方法
JP4176349B2 (ja) マルチモードの音声符号器
EP0124728A1 (en) Voice messaging system with pitch-congruent baseband coding
US6081776A (en) Speech coding system and method including adaptive finite impulse response filter
JP2002041097A (ja) 符号化方法、復号化方法、符号化器、及び復号化器
JP4302978B2 (ja) 音声コーデックにおける擬似高帯域信号の推定システム
KR20010102004A (ko) Celp 트랜스코딩
JP4558205B2 (ja) スピーチコーダパラメータの量子化方法
US5706392A (en) Perceptual speech coder and method
JPH10207498A (ja) マルチモード符号励振線形予測により音声入力を符号化する方法及びその符号器
US20030065507A1 (en) Network unit and a method for modifying a digital signal in the coded domain
US6205423B1 (en) Method for coding speech containing noise-like speech periods and/or having background noise
KR100498177B1 (ko) 신호양자화기
JP2003522964A (ja) 背景ノイズが共存する符号化音声の品質を向上させるためのシステムおよび方法
EP1619666B1 (en) Speech decoder, speech decoding method, program, recording medium
KR0155315B1 (ko) Lsp를 이용한 celp보코더의 피치 검색방법
JP3074680B2 (ja) 音声復号器のポスト雑音整形フィルタ
US6141639A (en) Method and apparatus for coding of signals containing speech and background noise
EP1397655A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130130

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20140129

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20150129

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20151230

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20161229

Year of fee payment: 14

EXPY Expiration of term