KR20010093210A - 가변 속도 음성 코딩 - Google Patents

가변 속도 음성 코딩 Download PDF

Info

Publication number
KR20010093210A
KR20010093210A KR1020017007895A KR20017007895A KR20010093210A KR 20010093210 A KR20010093210 A KR 20010093210A KR 1020017007895 A KR1020017007895 A KR 1020017007895A KR 20017007895 A KR20017007895 A KR 20017007895A KR 20010093210 A KR20010093210 A KR 20010093210A
Authority
KR
South Korea
Prior art keywords
speech
active
codebook
coding
signal
Prior art date
Application number
KR1020017007895A
Other languages
English (en)
Other versions
KR100679382B1 (ko
Inventor
샤라스 맨주나스
윌리암 가드너
Original Assignee
러셀 비. 밀러
콸콤 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 러셀 비. 밀러, 콸콤 인코포레이티드 filed Critical 러셀 비. 밀러
Publication of KR20010093210A publication Critical patent/KR20010093210A/ko
Application granted granted Critical
Publication of KR100679382B1 publication Critical patent/KR100679382B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/935Mixed voiced class; Transitions

Abstract

음성 신호의 가변 속도 코딩을 위한 방법 및 장치. 입력 음성 신호가 분류되고, 상기 분류에 따라 적합한 코딩 모드가 선택된다. 각 분류에 대해, 허용 가능한 음성 재생 콸러티를 가지면서 가장 낮은 비트율을 달성하는 코딩 모드가 선택된다. 평균 저비트율은 고성능 모드들(즉, 다양한 음성 타입들에 적용 가능한 고비트율)을 상기 성능이 수용 가능한 출력을 위해 요구되는 음성의 일정부분에서만 사용함으로써 달성된다. 저비트 모드로 수용 가능한 출력을 생성할 수 있는 음성의 부분들에서는 저비트 모드들이 사용된다. 입력 음성 신호는 활성 및 비활성 영역으로 분류된다. 활성 영역은 유성음, 무성음, 트랜젼트 영역들로 추가로 분류된다. 요구되는 성능 수준에 따라, 다양한 코딩 모드가 활성 음성에 적용된다. 각 모드의 강약에 따라 코딩모드들이 이용된다. 음성 신호의 특성은 시간에 따라 변화하기 때문에 상기 장치는 이러한 모드들 사이에서 역동적으로 스위치 한다. 그리고 적합한 곳에서, 음성의 영역들은 유사-랜덤 잡음으로서 모델링되어, 매우 낮은 비트율을 발생시킨다. 이러한 코딩은 무성음 음성 또는 배경 잡음이 탐지될 때마다 다이나믹한 형태로 사용된다.

Description

가변 속도 음성 코딩{VARIABLE RATE SPEECH CODING}
오늘날 많은 통신 시스템들은 디지탈 신호로서 음성을 장거리에서 디지탈 무선 전화 장치들을 이용하여 전송한다. 이러한 통신 시스템의 성능은 부분적으로 최소의 비트로 음성 신호를 정확하게 표현하는데 의존한다. 샘플링 및 디지탈화에 의한 음성의 전송은 기존의 아날로그 전화의 통화 품질을 획득하는데 64kbps의 전송 속도를 요구한다. 그러나, 만족스러운 음성 재생을 위해서 요구되는 상기 전송 속도를 감소시키는 코딩 기술들이 제공된다.
보코더는 일반적으로 인간 음성 발생 모델에 기초한 파라미터들을 추출함으로써 음성을 압축하는 장치이다. 보코더들은 인코더 및 디코더를 포함한다. 상기 인코더는 입력 음성을 분석하고 상응하는 파라미터들을 추출한다. 상기 디코더는 전송 채널을 통해 인코더로부터 수신된 상기 파라미터들을 이용하여 상기 음성을 합성한다. 상기 음성 신호는 종종 상기 보코더에 의해 처리되는 데이타 및 블록 프레임들로 분할된다.
선형 예측 기반 시간 영역 코딩 방식에 의한 보코더들은 다른 타입의 코더들보다 수적으로 매우 우세하다. 이러한 기술은 음성 신호로부터 상관(correlation) 요소들을 추출하고 비상관(uncorrelated) 요소들만을 인코딩한다. 상기 기본 예측 필터들은 현재 샘플들을 과거 샘플들의 선형 조합에 의해 예측한다. 이러한 코딩 알고리즘의 예가 "A 4.8 kbps Code Excited Linear Predictive Coder" 저자 Thomas E.Tremain 등, Proceeding of the Mobile Satellite Conference,1988 에 제시되어 있다.
이러한 코딩 기술은 디지탈화된 음성 신호를 음성에 존재하는 자연 잉여(redundancy)(즉 상관(correlation) 요소들)을 제거함으로써 저비트율 신호로 압축한다. 음성은 입술 및 혀의 행동으로부터 야기된 단기 잉여 및 음성 코드의 진동으로부터 야기된 장기 잉여을 제시한다. 선형 예측 기술들은 필터로서의 이러한 작용을 모델링하고, 상기 잉여들을 제거하며, 그리고 나서 백색 가우션 잡음으로써 나머지 신호들을 모델링한다. 따라서 선형 예측 코더들은 필터 계수들 및 양자화된 잡음을 전송함으로써 전체 음성 신호 대역폭보다 감소된 비트율을 달성한다.
그러나, 이런 감소된 비트율은 종종 음성 신호가 장거리(예를 들면 지상에서 위성으로)를 전파하거나 혼잡 채널 상에서 다른 신호들과 공존하는 경우에 가용 대역폭을 초과하는 경우가 발생한다. 따라서 상기 선형 예측 기술보다 낮은 비트율을 달성하는 개선된 코딩 기술이 요구된다.
본 발명은 음성 신호 코딩과 관련된다. 특히, 본 발명은 음성 신호를 분류하고, 상기 분류에 근거하여 복수의 코딩 모드 중 하나를 채택하는 것과 관련된다.
도1은 신호 전송 환경을 보여주는 다이아그램이다.
도2는 인코더(102) 및 디코더(104)를 상세히 보여주는 다이아그램이다.
도3은 본 발명에 따른 가변 속도 음성 코딩을 보여주는 다이아그램이다.
도4A는 하위 프레임으로 분할된 유성음 음성 프레임을 보여주는 다이아그램이다.
도4B는 하위 프레임으로 분할된 무성음 음성 프레임을 보여주는 다이아그램이다.
도4C는 하위 프레임으로 분할된 트랜젼트 음성의 프레임을 보여주는 다이아그램이다.
도5는 초기 파라미터들의 계산을 기술하는 플로우챠트이다.
도6은 활성 또는 비활성으로의 음성 분류를 기술하는 플로우챠트이다.
도7A는 CELP 인코더이다.
도7B는 CELP 디코더이다.
도8은 피치(pitch) 필터 모듈이다.
도9A는 PPP 인코더이다.
도9B는 PPP 디코더이다.
도10은 인코딩 및 디코딩을 포함하는 PPP 코딩 단계를 보여주는 플로우챠트이다.
도11은 표준 잔류 주기의 추출을 보여주는 플로우챠트이다.
도12는 현재의 잔류 신호 프레임으로부터 추출된 표준 잔류 주기 및 이전 프레임으로 부터 추출된 표준 잔류 주기를 보여주는 도이다.
도13은 회전 파라미터들의 계산을 보여주는 플로우챠트이다.
도14는 인코딩 코드북의 연산을 보여주는 플로우챠트이다.
도15A는 제1 필터 업데이트 모듈 실시예를 보여주는 도이다.
도15B는 제1 주기 내삽 모듈 실시예를 보여주는 도이다.
도16A는 제2 필터 업데이트 모듈 실시예를 보여주는 도이다.
도16B는 제2 주기 내삽 모듈 실시예를 보여주는 도이다.
도17은 제1 필터 업데이트 모듈 실시예의 연산을 보여주는 플로우챠트이다.
도18은 제2 필터 업데이트 모듈 실시예의 연산을 보여주는 플로우챠트이다.
도19는 표준 잔류 주기들의 정렬 및 내삽을 보여주는 플로우챠트이다.
도20은 제1 실시예에 따라 표준 잔류 주기들에 기초한 음성 신호의 복구를 보여주는 플로우챠트이다.
도21은 제2 실시예에 따라 표준 잔류 주기들에 기초한 음성 신호의 복구를 보여주는 플로우챠트이다.
도22A는 NELP 인코더이다.
도22B는 NELP 디코더이다.
도23은 NELP 코딩을 보여주는 플로우챠트이다.
본 발명은 음성 신호의 가변 속도 코딩을 위한 신규하고 개선된 방법 및 장치에 관한 것이다. 본 발명은 입력 음성 신호를 분류하고 상기 분류에 근거하여 적절한 코딩 모드를 선택한다. 각 분류에 대해서, 본 발명은 적절한 음성 재생의 콸러티를 보장하면서 가장 낮은 비트율을 달성할 수 있는 코딩 모드를 선택한다. 본 발명은 수용 가능한 출력을 위해 고성능이 요구되는 음성의 일부 기간동안만 고성능 모드들(즉 상이한 음성 타입들에 넓게 응용 가능한 고비트율)을 채택함으로써 평균 저비트율을 획득한다. 본 발명은 저비트율로 수용 가능한 출력을 획득할 수 있는 음성 구간 동안은 저비트율로 스위치 된다.
본 발명의 장점은 음성이 저비트율에서 코딩된다는 것이다. 저비트율은 높은 용량, 넓은 범위, 그리고 저 전력 요구를 의미한다.
본 발명의 특징은 입력 음성 신호가 활성(active) 및 비활성(inactive) 영역으로 분류된다는 것이다. 활성 영역은 추가로 유성음(voiced), 무성음(unvoiced), 및 트랜전트(transient) 영역으로 분류된다. 따라서 본 발명은 다양한 모드들을 요구 성능 레벨에 따라 상이한 활성 음성 타입들에 적용시킬 수 있다.
본 발명의 또 다른 특징은 각 특정 모드의 강약에 따라 코딩 모드가 이용된다는 것이다. 본 발명은 시간에 따라 음성신호의 특성들이 변화할 때 상기 모드들 사이에서 스위치 한다.
본 발명의 또 다른 특징은 적합한 곳에서 음성 영역이 유사 랜덤 잡음으로서 모델링되어 상당히 낮은 비트율을 발생시키는 것이다. 본 발명은 무성음 음성 또는 배경 잡음이 탐지될 때마다 다이나믹한 형태로 이러한 코딩을 사용한다.
본 발명의 추가적 특징 및 목적들은 아래의 그림 및 실시예를 참조하여 상세히 설명될 것이다.
Ⅰ. 환경에 대한 개관
본 발명은 가변 음성 코딩을 위한 신규하고 개선된 방법 및 장치에 관한 것이다. 도1은 인코더(102), 디코더(104), 및 전송매체(106)를 포함하는 신호 전송 환경을 보여준다. 인코더(102)는 음성 신호(s(n))를 인코딩 하여, 인코딩된 신호(senc(n))를 형성하고, 전송매체(106)를 통해 디코더(104)로 전송한다. 디코더(104)는 senc(n)을 디코딩 하여 합성된 음성 신호를 발생한다.
여기서 사용된 "코딩"은 일반적으로 인코딩 및 디코딩 방법 모두를 통칭한다. 일반적으로, 코딩 방법 및 장치는 수용 가능한 음성 재생(즉,)을 유지하면서, 전송매체(106)를 통해 전송되는 비트들의 수를 최소화(즉, senc(n) 대역폭의 최소화)하려고 한다. 인코딩된 음성의 합성은 음성 코딩 방법에 따라 변한다. 다양한 인코더들(102), 디코더들(104), 및 코딩 방법들이 그들의 동작 방법에 따라 아래에서 기술된다.
아래에 기술된 인코더(102) 및 디코더(104)의 요소들은 전기적 하드웨어, 컴퓨터 소프트웨어, 또는 그들의 결합으로서 구현될 수 있다. 이러한 요소들은 그들의 기능적 관점에서 아래에서 기술된다. 상기 기능성이 하드웨어로 구현되는지 또는 소프트웨어로 구현되는지는 특정 응용예 및 전체 시스템에 부가된 디자인 제한들에 따른다. 당업자는 이러한 환경들에서 하드웨어 및 소프트웨어의 상호 변환성 및 특정 응용예에서 상기 기능성을 어떻게 가장 양호하게 구현할 것인가를 잘 인식할 것이다.
당업자는 상기 전송매체(106)는 지상 통신 라인, 기지국 및 위성 사이의 링크, 셀룰러 폰 및 기지국 사이 또는 셀룰러 폰 및 위성 사이의 통신을 포함해서 많은 다른 전송매체를 나타내지만 이에 한정되지는 않는다라는 것을 잘 인식할 것이다.
당업자는 각 통신 부분이 전송 및 수신을 행할 수 있다는 것을 잘 인식할 것이다. 따라서 각 부분은 인코더(102) 및 디코더(104)를 필요로 한다. 그러나, 신호 전송 환경(100)은 전송매체(106) 한 쪽 끝은 인코더(102), 다른 쪽 끝은 디코더(104)가 위치하도록 기술된다. 당업자는 이러한 개념이 쌍방향 통신에 어떻게 확장되는가를 잘 이해할 것이다.
이러한 설명을 위해, s(n)은 상이한 목소리 및 침묵 기간을 포함하는 전형적인 통화기간동안 획득된 디지탈 신호로 가정한다. 상기 음성 신호(s(n))는 바람직하게는 프레임들로 분할되고, 각 프레임은 추가로 하부 프레임으로 분할된다(바람직하게는 4). 이러한 임의적으로 선택된 프레임/하부 프레임의 경계는 일정 블록 처리가 수행되는 곳에서 사용된다. 프레임 상에서 수행되는 연산들은 하부 프레임에서도 수행되고, 이런 점에서 프레임 및 하부 프레임은 상호 변환적으로 사용된다. 그러나, 블록 처리보다 연속적 처리가 실행되는 경우, s(n)은 프레임/하부 프레임으로 분할될 필요가 없다. 당업자는 아래에 기술된 블록 기술들이 연속적 처리로 어떻게 확장되는지를 잘 이해할 것이다.
선호되는 실시예에서, s(n)은 8khz에서 샘플링된다. 바람직하게는 각 프레임은 20ms 데이타, 또는 8khz 속도에서 160개의 샘플들을 포함한다. 따라서 각 하부 프레임은 40개의 데이타 샘플들을 포함한다. 아래에 제시된 많은 등식들은 상기 값들을 가정하였음을 주목하기 바란다. 그러나, 당업자는 이러한 파라미터들이 음성 코딩에 적합하지만, 이는 예시적일 뿐 다른 파라미터들이 사용될 수 있음을 잘 이해할 것이다.
Ⅱ. 본 발명의 개관
본 발명의 방법 및 장치는 음성 신호(s(n))를 코딩하는 것을 포함한다. 도2는 인코더(102) 및 디코더(104)를 상세히 보여준다. 본 발명에 따르면, 인코더(102)는 초기 파라미터 계산 모듈(202), 분류 모듈(208), 및 하나 이상의 인코더 모드(204)를 포함한다. 디코더(104)는 하나 이상의 디코더 모드(206)를 포함한다. 디코더 모드의 수(Nd)는 일반적의로 인코더 모드의 수(Ne)와 동일하다. 당업자에게 인지되듯이, 인코더 모드 1은 디코더 모드 1과 통신한다. 제시되듯이, 상기 인코딩된 음성 신호(senc(n))는 전송매체(106)를 경유하여 전송된다.
선호되는 실시예에서, 인코더(102)는 어떤 모드가 현재 프레임에 대한 주어진 s(n)의 특성에 적합한지에 따라 다이나믹하게 다중 인코더 모드 사이에서 프레임에서 프레임으로 스위치 한다. 디코더(104)도 역시 상응하는 디코더 모드 사이에서 프레임에서 프레임으로 다이나믹하게 스위치 한다. 디코더에서 수용 가능한 신호 재생을 유지하면서 최소의 비트율을 달성할 수 있도록 특정 모드가 각 프레임에 대해 선택된다. 코더의 비트율이 시간에 대해 변하기 때문에, 이러한 과정은 가변 속도 음성 코딩으로 언급된다.
도3은 본 발명에 따른 가변 속도 음성 코딩을 기술하는 플로우챠트(300)이다. 단계 302 에서, 초기 파라미터 계산 모듈(202)은 현재 데이타 프레임에 기초하여 다양한 파라미터들을 계산한다. 선호되는 실시예에서, 이러한 파라미터들은 하기의 하나 또는 그 이상을 포함한다; 선형 예측 코딩(LPC) 필터 계수, 선스펙트럼 정보(LSI) 계수, 표준 자기 상관(auto correlation) 함수들(NACFs), 오픈 루프 래그, 밴드 에너지들, 제로 크로싱 레이트, 및 포르만트 잔류 신호.
단계 304에서, 분류 모듈(208)은 "활성" 또는 "비활성"으로 현재 프레임을 분류한다. 상기 기술대로, s(n)은 일반적 대화에서 공통된 음성 기간 및 침묵 기간을 포함하는 것으로 가정된다. 활성 음성은 구두 단어들을 포함하고, 비활성 음성은 다른 모든 것들, 예를 들면 배경 잡음, 침묵, 휴지등을 포함한다. 본 발명에 따라 음성을 활성/비활성으로 분류하기 위해 사용된 방법은 아래에서 상세히 기술될 것이다.
도3에 제시되듯이, 단계 306은 현재 프레임이 단계 304에서 활성 아니면 비활성으로 분류되었는지를 고려한다. 활성이라면 단계 308로, 비활성이라면 단계310으로 진행한다.
활성으로 분류된 프레임들은 추가로 단계 308에서 유성음, 무성음, 트랜젼트 프레임들로 분류된다. 당업자는 인간의 음성이 다양한 방법으로 분류될 수 있다는 것을 잘 이해할 것이다. 기존의 음성(speech)의 두 가지 분류는 유성음(voiced) 및 무성음(unvoiced) 소리들로 분류된다. 본 발명에 따르면 유성음 또는 무성음이 아닌 모든 음성은 트랜젼트 음성으로 분류된다.
도4A 는 유성음 음성(404)을 포함하는 s(n)의 예시적 부분을 보여준다. 유성음 사운드들은 완화된 진동에서 진동하도록 조절된 보컬 코드의 장력을 가지고 성문(glottis)을 통해 공기에 힘을 가함으로써 형성되고, 그에 기해 보컬 트랙(tract)을 여기시키는 준주기적 공기 펄스들을 생산한다. 유성음 음성에서 측정된 공통된 하나의 특징은 피치(pitch) 주기이고, 도4A에 제시된다.
도4B는 무성음 음성(404)을 포함하는 s(n)의 예시적 부분을 보여준다. 무성음 사운드들은 보컬 트랙의 일정 영역에서(일반적으로 입 끝방향으로) 수축(constriction)을 형성하고 동요(turbulence)를 형성하기에 충분히 높은 속도에서의 수축을 통해 공기에 힘을 가함으로써 발생된다. 이에 따른 무성음 음성 신호는 칼라 잡음(colored noise)과 유사하다.
도4C는 트랜젼트 음성(406)(즉 유성음 및 무성음 어느 것도 아닌 음성)을 포함하는 s(n)의 예시적 부분을 보여준다. 도4C에 제시된 예시적 트랜젼트 음성(406)은 유성음 음성 및 무성음 음성 사이에서 전이하는 s(n)을 표현한다. 당업자는 대등한 결과들을 획득하기 위해 여기서 제시된 기술에 따라 많은 다른 음성 분류가 채택될 수 있음을 잘 이해할 것이다.
단계 310에서, 인코더/디코더 모드는 단계 306 및 308 에서 만들어진 프레임 분류에 따라 선택된다. 다양한 인코더/디코더 모드들이 도2에 제시된 것처럼 병렬적으로 연결된다. 이러한 모드들 중 하나 이상은 주어진 시간에서 조작가능한다. 그러나, 아래에서 상세히 기술되듯이 바람직하게는 하나의 모드만이 주어진 시간에서 동작하고, 현재 프레임의 분류에 따라 선택된다.
여러 개의 인코더/디코더 모드들이 다음 섹션에서 기술된다. 상이한 인코더/디코더 모드들은 상이한 코딩 기술에 따라 동작한다. 어떤 모드들은 어떤 특성 등을 제시하는 음성 신호 s(n)의 일정부분을 코딩하는데 보다 효과적이다.
선호되는 실시예에서, "코드 여기 선형 예측"(CELP) 모드가 트랜젼트 음성으로 분류된 프레임들을 코딩하는데 선택된다. 상기 CELP 모드는 선형 예측 잔류 신호의 양자화된 버젼으로 선형 예측 보컬 트랙을 여기한다. 여기서 기술된 모든 인코더/디코더 모드들 중에서, CELP는 일반적으로 가장 정확한 음성을 재생하지만 가장 높은 비트율을 요구한다. 실시예에서, 상기 CELP 모드는 8500bps에서 인코딩을 수행한다.
바람직하게는 "표본 피치 주기"(PPP) 모드는 유성음 음성으로 분류된 프레임들을 코딩하기 위해서 선택된다. 유성음 음성은 상기 PPP 모드에 의해 이용되는 저속 시간 가변 주기 요소들을 포함한다. 상기 PPP 모드들은 각 프레임 내에서 피치 주기의 하부 셋만을 코딩한다. 상기 음성 신호의 나머지 주기들은 이러한 표본 주기들 사이에서의 내삽(interpolating)에 의해 재생된다. 유성음 음성의 주기성을 이용함으로써, PPP는 CELP 보다 낮은 비트율을 달성하면서 정확하게 상기 음성 신호를 재생할 수 있다. 실시예에서, 상기 PPP 모드는 3900bps에서 인코딩을 수행한다.
"잡음 여기 선형 예측"(NELP) 모드는 무성음 음성으로 분류된 프레임들을 코딩하기 위해서 선택된다. NELP는 무성음 음성을 모델링하기 위해서 필터링된 유사 랜덤 잡음 신호를 사용한다. NELP는 코딩된 음성을 위한 가장 간단한 모델을 사용하고, 따라서 가장 낮은 비트율을 획득한다. 실시예에서, 상기 NELP 모드는 1500bps에서 코딩을 수행한다.
동일한 코딩 기술이 다른 비트율에서 다양한 성능 레벨들을 가지고 빈번하게 동작될 수 있다. 따라서, 도2의 상이한 인코더/디코더 모드들은 상이한 코딩 기술들, 또는 다른 비트율에서 동작하는 동일한 코딩 기술들, 또는 그들의 조합을 나타낸다. 당업자는 인코더/디코더 모드 수의 증가는 모드를 선택할 때 평균 저비트율을 야기하는 증가된 융통성을 가능하게 하지만, 전체 시스템에 대해 복잡도를 증가시킨다. 주어진 시스템에서의 특정 조합은 가용 시스템 자원 및 특정 신호 환경에 의해 설정된다.
단계 312에서, 선택된 인코더 모드(204)는 현재 프레임을 인코딩하고, 전송을 위해 데이타 패킷 내로 상기 인코딩된 데이타를 무리 짓는다. 단계 314에서, 상응하는 디코더 모드(206)는 상기 데이타 패킷들을 분산하고, 수신된 데이타를 디코딩하고 음성 신호를 재현한다. 이러한 연산들은 적합한 인코더/디코더 모드들에 대해서 아래에서 상세히 기술된다.
Ⅲ. 초기 파라미터 결정
도5는 단계 302를 상세히 설명하는 플로우챠트이다. 본 발명에 따라 다양한 초기 파라미터들이 계산된다. 바람직하게는, 상기 파라미터들은 예를 들어, LPC 계수, 선스펙트럼 정보(LSI), 표준 자기 상관 함수들(NACFs), 오픈 루프 래그, 밴드 에너지들, 제로 크로싱 레이트, 및 포르만트 잔류 신호들을 포함한다. 이러한 파라미터들은 전체 시스템 내에서 다양한 방식으로 사용되고, 아래에서 기술된다.
선호되는 실시예에서, 초기 파라미터 계산 모듈(202)은 160+40개의 샘플들의 "룩 어헤드(look ahead)"를 사용한다. 이는 몇 가지 목적을 위해 제공된다. 첫째로, 160개의 샘플 룩 어헤드는 피치 주파수 트랙이 다음 프레임의 정보를 사용하여 제공되도록 하고, 이는 보이스 코딩 및 피치 주기 예측 기술의 견고함을 개선시키고, 아래에서 기술된다. 둘째로, 160개의 샘플 룩 어헤드들은 LPC 계수, 프레임 에너지, 및 보이스 활동성이 미래의 한 프레임에 대해 계산되도록 하여준다. 이는 프레임 에너지 및 LPC 계수의 효율적인 다중 프레임 양자화를 가능하게 한다. 셋째로, 추가적인 40개의 샘플 룩 어헤드는 아래에서 제시된 해밍 윈도우드 스피치에서의 LPC 계수의 계산을 위한 것이다. 따라서, 현재 프레임의 처리에 앞서 버퍼(buffer)된 샘플들의 수는 현재 프레임 및 상기 160+40 개의 샘플 룩 어헤드를 포함해서 160+160+40 이다.
A. LPC 계수 계산
본 발명은 음성 신호에서 단기 잉여(redundancy)를 제거하기 위해 LPC 예측 에러 필터를 사용한다. 상기 LPC 필터의 전달함수는 다음과 같다;
바람직하게는, 본 발명은 상기 등식과 같이 10차 필터를 구현한다. 디코더의 LPC 합성 필터는 상기 잉여를 재삽입하고, 역 A(z)로 주어진다;
단계 502에서, LPC 계수(ai)는 다음과 같이 s(n)으로부터 계산된다. 바람직하게는 LPC 파라미터들은 현재 프레임의 인코딩 과정동안 다음 프레임에 대해 계산된다.
해밍 윈도우는 119번째 및 120번째 샘플들 사이에 중심위치한 현재 프레임에 적용된다(룩 어헤드를 가진 선호되는 160개의 샘플 프레임을 가정함). 상기 윈도우된 음성 신호(sw(n))는 다음과 같다;
40개의 샘플들의 오프셋은 선호되는 160개의 음성 샘플 프레임의 119번째 및 120번째 사이에 중심위치한 음성 윈도우를 야기한다.
바람직하게는, 11개의 자기 상관 값은 다음과 같다;
상기 LPC 계수로부터 획득된 선 스펙트럼쌍(LSPs)의 상실 루트(root)들의 가능성을 줄이기 위해 상기 자기 상관 값들은 윈도우되어, 다음과 같이 주어지고;
약간의 대역폭 확장 예를 들면, 25hz의 대역폭 확장을 야기한다. 바람직하게는 상기 값(h(k))은 225 포인트 해밍 윈도우의 중심으로부터 취해진다.
그리고 나서 상기 LPC 계수는 더빈 귀납(Durbin's recursion)을 사용하여 윈도우된 자기 상관 값으로부터 획득된다. 효율적인 계산 방법으로 잘 알려진 상기 더빈 귀납은 Rabiner&Schafer 의 "Digital Processing of Speech Signals" 에 제시되어 있다.
B. LSI 계산
단계 504에서, 상기 LPC 계수들은 양자화 및 내삽을 위해서 선스펙트럼(LSI) 계수들로 변형된다. 상기 LSI 계수들은 본 발명에 따라 다음과 같은 방식으로 계산된다;
이전처럼, A(z)는
이고,
여기서 ai는 상기 LPC 계수이고, 1≤i ≤10 이며,
PA(z) 및 QA(z)는 다음과 같이 정의된다.
상기 선 스펙트럼 코사인들(LSCs)은 다음 두개의 함수들의 -1.0 < x < 1.0에서 10개의 근들이다;
여기서,
그리고 나서, 상기 LSI 계수들은 다음과 같이 계산된다;
상기 LSCs는 LSI 계수들로부터 다음에 따라 획득된다;
LPC 필터의 안정성은 상기 두개의 함수가 교번되도록, 즉 최소근(lsc1)이 P'(x)의 최소근이 되고, 다음 최소근(lsc2)이 Q'(x)의 최소근이 되는 것을 보장한다. 따라서, lsc1, lsc3, lsc5, lsc7, lsc9는 P'(x)의 근들이고, lsc2, lsc4, lsc6, lsc8, lsc10은 Q'(x)의 근들이다.
당업자는 상기 LSI 계수들의 양자화에 대한 민감도를 계산하는 방법을 사용하는 것이 선호된다는 것을 잘 이해할 것이다. "민감도 가중"은 각 LSI에서 양자화 에러를 적절히 가중하기 위한 양자화 처리에서 사용된다.
각 LSI 계수들은 다단계 벡터 양자기(VQ)를 사용하여 양자화된다. 바람직하게는 상기 단계들의 수는 특정 비트율 및 사용된 코드북들에 따른다. 상기 코드북들은 현재 프레임이 보이스 되었는지 여부에 따라 선택된다.
상기 벡터 양자화는 다음과 같이 정의된 가중 평균 자승 에러(WMSE)를 최소화한다;
여기서 벡터 x는 양자화된 벡터이고, 벡터 w는 그와 관련된 가중이며, 벡터 y는 코드 벡터이다. 바람직한 실시예에서, 상기 벡터 w는 민감도 가중이고 P=10이다.
상기 LSI 벡터는인 양자화를 통해 획득되는 LSI 코드들로부터 재현되고, 여기서 CBi는 유성음 또는 무성음 프레임들에 대한 i 번째 단계 VQ 코드북이고(이는 코드북의 선택을 지시하는 코드에 기초한다), codei는 i 번째 단계에 대한 LSI 코드이다.
상기 LSI 계수들이 LPC 계수들로 변환되기 전에, 상기 LSI 계수 내부 주입된 양자화 잡음 및 채널 에러들에 기인한 LPC 필터들이 비안정화되지 않도록 하기 위해 안정성 검사가 수행된다. 상기 LSI 계수들이 정렬된 상태를 유지하면, 안정성 은 보장된다.
본래의 LPC 계수들을 계산하기 위해서, 상기 프레임의 119번째 및 120번째 사이에 중심 위치한 음성 윈도우가 사용되었다. 프레임 내의 다른 포인트들에 대한 LPC 계수들은 이전 프레임의 LSCs 및 현재 프레임의 LSCs 사이에서 근사화된다. 그리고 나서, 이에 따른 상기 내삽적 LSCs들은 LPC 계수로 다시 전환된다. 각 하위 프레임에 대해 사용된 정확한 내삽은 다음과 같다;
여기서, αi는 40개의 각 샘플들의 4개의 하위 프레임들에 대한 내삽 인자들(0.375,0.625,0.875,1.000)이고, ilsc 는 내삽된 LSCs 이다. PA(z) 및 QA(z)는 내삽된 LSCs에 의해 다음과 같이 계산된다;
4개의 하위 프레임들에 대한 상기 내삽된 LPC 계수들은
의 계수들로써 계산된다.
따라서,
C. NACF 계산
단계 506에서, 표준화된 자기 상관 함수들(NACFs)은 본 발명에 따라 계산된다.
다음 프레임에 대한 포르만트 잔류(residual)는 4개의 40개의 샘플 프레임들에 대해
로서 계산되고, 여기서 ai는 상응하는 하위 프레임의 i 번째 내삽된 LPC 계수들이고, 상기 내삽은 현재 프레임의 비양자화 LSCs 및 다음 프레임의 LSCs 사이에서 이루어진다. 다음 프레임의 에너지는 다음과 같이 계산된다;
위에서 계산된 상기 잔류는 바람직하게는 길이 15의 제로 페이스 FIR 필터를 사용하여 로패스 필터화 및 데시메이트(decimate)되고, dfi(-7≤i ≤7)의 계수는 {0.0800,0.1256,0.2532,0.4376,0.6424,0.8268,0.9544,1.000,0.9544,0.8268,0.6424,0.4376,0.2532,0.1256,0.0800} 이다. 상기 로패스 필터링 및 데시메이트된 잔류는
로서 계산되고, 여기서 F=2는 데시메이션 인자이고, r(Fn+i), -7≤(Fn+i)≤6 은 비양자화 LPC 계수에 기초한 현재 프레임의 잔류의 마지막 14개의 값들로부터 획득된다. 위에서 언급되었듯이, 이러한 LPC 계수들은 이전 프레임 기간동안 계산및 저장된다.
다음 프레임의 두개의 하위 프레임(데시메이트된 40개의 샘플들)에 대한 NACFs는 다음과 같이 계산된다;
음의 n을 가진 rd(n)에 대해, 현재 프레임의 로패스 필터 및 데시메이트된 잔류(이전 프레임 기간동안 저장됨)가 사용된다. 현재 하위 프레임에 대한 상기 NACFs(c_corr)역시 이전 프레임 기간동안 계산 및 저장된다.
D. 피치 트랙(track) 및 래그 계산
단계 508에서, 피치 트랙 및 피치 래그가 본 발명에 따라 계산된다. 상기 피치 래그는 바람직하게는 다음과 같이 역방향 트랙을 가진 비터비와 같은 검색을사용하여 계산된다.
벡터 RM2i는 R2i+1에 대한 값들을
으로서 취하기 위해 내삽되고, 여기서 cfi는 그 계수가 {-0.0625,0.5625,0.5625,-0.0625} 인 내삽 필터이다. 그리고 나서, 상기 래그 Lc이고, 현재 프레임의 NACF 가와 동일하게 설정되도록 선택된다. 그리고 나서, 래그 배수들은중에서 0.9 RLc-12보다큰 최대 상관에 상응하는 래그를 탐색함으로써 제거된다.
E. 밴드 에너지 및 제로 크로싱 레이트 계산
단계 510에서, 0-2kHz 및 2kHz-4kHz 밴드의 에너지들은 본 발명에 따라 다음과 같이 계산된다.
S(z),SL(z), 및 SH(z)는 입력 음성 신호(s(n)), 로-패스 신호
의 z-변환이다.
음성 신호 에너지는이다. 제로 크로싱 레이트(ZCR)은 다음과 같이계산된다;
F. 포르만트 잔류 계산
단계 512에서, 현재 프레임에 대한 포르만트 잔류는 4개의 하위 프레임들에 대해 다음과 같이 계산되고;
여기서, ai는 상응하는 하위 프레임의 i 번째 LPC 계수이다.
Ⅳ. 활성/비활성 음성 분류
도3을 다시 보면, 단계 304에서 현재 프레임은 활성 음성(예를 들면, 구두 단어들) 또는 비활성 음성(예를 들면, 배경 잡음, 침묵)으로 분류된다. 도6은 단계 304를 상세히 기술하는 플로우챠트(600)이다. 선호되는 실시예에서, 스래쉬홀딩(thresholding) 기술에 기반한 두개의 에너지 밴드가 활성 음성이 존재하는지 여부를 결정하기 위해 사용된다. 하위 밴드(밴드0)는 0.1-2.0 kHZ 의 주파수 범위에 있고, 상위 밴드(밴드1)는 2.0-4.0 kHZ 의 주파수 범위에 있다. 보이스(voice) 활성 탐지는 바람직하게는 다음과 같은 방식으로 현재 프레임의 인코딩 절차 기간동안 다음 프레임을 위해서 결정된다.
단계 602에서, 밴드들(i=0,1)에 대한 밴드 에너지들(Eb[I])이 계산된다. 섹션 Ⅲ.A 에서 기술되었듯이, 자기 상관 시퀀스는 다음 귀납 등식을 이용하여 19로확장된다;
이 등식을 이용하여, R(11)은 R(1)에서 R(10)까지로 부터 계산되고, R(12)는 R(2)에서 R(11)까지로 부터 계산된다. 그리고 나서 밴드 에너지들은 다음 등식을 이용하여 확장된 자기 상관 시퀀스로부터 계산된다;
여기서 R(k)는 현재 프레임에 대한 확장된 자기 상관 시퀀스이고, Rh(i)(k)는 테이블 1에 주어진 밴드 i 에 대한 밴드 필터 자기 상관 시퀀스이다.
테이블 1: 밴드 에너지 계산을 위한 필터 자기 상관 시퀀스들
단계 604에서, 밴드 에너지 추정은 평탄화되어 진다. 상기 평탄화된 에너지 추정(Esm(i))은 각 프레임에 대해 다음 등식을 사용하여 업데이트된다;
단계 606에서, 신호 에너지 및 잡음 에너지 추정이 업데이트된다. 상기 신호 에너지 추정(Es(i))는 바람직하게는 다음 등식을 이용하여 업데이트된다;
잡음 에너지 추정(En(i))은 바람직하게는 다음 등식을 이용하여 업데이트된다;
단계 608에서, 두개의 밴드들에 대한 장기적 신호 대 잡음비(SNR(i))는 다음과 같이 계산된다;
단계 610에서, 이러한 SNR 값들은 바람직하게는 다음과 같이 정의된 8개의 영역들(RegSNR(i))로 분할된다;
단계 612에서, 보이스 활성 결정은 본 발명에 따라 다음과 같은 방식으로 이루어진다. 만약, Eb(0)-En(0) > THRESH(RegSNR(0)) 또는 Eb(1)-En(1) > THRESH(RegSNR(1)) 이면, 음성 프레임은 활성으로 결정되고, 그렇지 않으면 비활성으로 결정된다. THRESH 값은 테이블 2에서 정의된다.
테이블2: SNR 영역 함수로서의 스레쉬홀드 인자들
신호 에너지 추정(Es(i))은 바람직하게는 다음 등식을 이용하여 업데이트된다;
잡음 에너지 추정(En(i))은 바람직하게는 다음 등식을 이용하여 업데이트된다.;
A. 행오버(hangover) 프레임들
신호 대 잡음비가 낮은 경우, 바람직하게는 "행오버" 프레임들이 재생 음성의 콸러티를 개선하기 위해 첨가된다. 3개의 이전 프레임들이 활성으로 분류되었고, 현재 프레임이 비활성으로 분류되면, 현재 프레임을 포함한 다음 M 개의 프레임들은 활성 음성으로 분류된다. 행오버 프레임들의 수(M)는 바람직하게는 테이블 3에 정의된 것처럼 SNR(0)의 함수로서 결정된다.
테이블3:SNR(0)의 함수로서의 행오버 프레임들
Ⅴ. 활성 음성 프레임들의 분류
도3을 다시 보면, 단계 304에서 활성으로 분류된 현재의 프레임들은 단계 308에서 추가로 음성 신호(s(n))의 특성에 따라 추가로 분류된다. 선호되는 실시예에서, 활성 음성은 유성음(voiced), 무성음(unvoiced), 또는 트랜젼트(transient) 음성으로 분류된다. 유성음 음성은 높은 주기성(본질적으로 준 주기적)을 보여주고, 무성음 음성은 주기성을 거의 보여주지 않고, 트랜젼트 음성은 유성음 및 무성음 음성 사이에서 주기성을 보여준다.
그러나 여기서 제시된 일반적인 프레임워크는 상기 선호되는 분류 체계 및 아래에 기술된 특정 인코더/디코더 모드들에 한정되지 않는다. 활성 음성은 다양한 방법으로 분류될 수 있으며, 다양한 인코더/디코더 모드들이 코딩에 이용 가능하다. 당업자는 다양한 분류 및 인코더/디코더 모드들의 조합이 가능하다는 것을잘 이해할 것이다. 상기 다양한 조합들은 여기서 제시된 일반적인 프레임워크들, 즉 음성을 활성 또는 비활성으로 분류하고, 활성 음성을 추가로 분류하고, 각 분류 음성에 적합한 인코더/디코더 모드들을 사용하여 음성을 코딩하는 프레임워크에 따라 감소된 평균 저비트율을 달성할 수 있다.
상기 활성 음성의 분류는 주기성의 정도에 따라 분류되었지만, 주기성의 정확한 측정에 기반하기보다는 단계 302의 다양한 파라미터들, 예를 들면 상위 및 하위 밴드들의 신호 대 잡음비와 NACFs에 기반하여 상기 분류 결정이 이루어지는 것이 바람직하다. 상기 선호되는 분류는 다음 유사 부호(pseudo-code)에 의해 기술될 수 있다;
여기서,이고,
Nnoise는 배경 잡음의 추정이다. Eprev는 이전 프레임의 입력 에너지이다.
상기 유사 코드에 의해 기술된 상기 방법은 그것이 구현되는 특정 환경에 따라 개량될 수 있다. 당업자는 위에서 제시된 다양한 스레쉬홀드들은 단지 예시적일 뿐이며, 실제로 구현에 따라 조정을 필요로 한다는 것을 잘 이해할 것이다. 상기 방법은 상기 TRANSIENT를 두개의 카테고리(하나는 고에너지에서 저에너지로의 신호 변이를 위한 것이고, 다른 하나는 저에너지에서 고에너지로의 신호 변이를 위한 것)로 분할하는 것과 같이 추가적인 분류 카테고리들을 부가하여 개량될 수도 있다.
당업자는 유성음, 무성음, 트랜전트 활성 음성을 구별하기 위해 다양한 방법이 가능하다는 것을 잘 이해할 것이다. 유사하게, 당업자는 활성 음성에 대한 다양한 분류 체계가 가능하다는 것도 역시 잘 이해할 것이다.
Ⅵ. 인코더/디코더 모드 선택
단계 310에서, 인코더/디코더 모드는 단계 304 및 308에서의 현재 프레임의 분류에 따라 선택된다. 선호되는 실시예에 따르면, 모드들은 다음과 같이 선택된다; 비활성 프레임 및 활성 무성음 프레임들은 NELP 모드를 사용하여 코딩되고, 활성 유성음 프레임들은 PPP 모드를 사용하여 코딩되며, 활성 트랜젼트 프레임들은 CELP 모드를 사용하여 코딩된다. 이러한 인코더/디코더 모드들은 다음 섹션에서 상세히 기술될 것이다.
다른 실시예에서, 비활성 프레임들은 제로 레이트 모드를 사용하여 코딩된다. 당업자는 많은 다양한 제로 레이트 모드들이 매우 낮은 비트율을 요구하는 모드들에 사용 가능하다는 것을 잘 이해할 것이다. 상기 제로 레이트 모드의 선택은 과거 모드 선택들을 고려함으로써 추가로 개량될 수 있다. 예를 들어, 과거 프레임이 활성으로 분류되면, 이는 현재 프레임에 대해 제로 레이트 모드의 선택을 배제한다. 유사하게, 다음 프레임이 활성이면, 현재 프레임에 대해 제로 레이트 모드는 배제된다. 다른 대안은 너무 많은 연속적 프레임들(예를 들면 9개의 연속적 프레임들)에 대해서는 제로 레이트 모드의 선택을 배제하는 것이다. 당업자는 특정 환경에서 그 동작을 개량하기 위해서 기본 모드 선택 결정에 대한 다양한 수정들이 이루어질 수 있다는 것을 잘 이해할 것이다.
위에서 기술된대로, 동일한 프레임워크 내에서 다양한 분류 및 인코더/디코더 모드들의 조합이 대안적으로 사용될 수 있다. 다음 섹션은 본 발명에 따른 여러 개의 인코더/디코더 모드들의 상세한 설명을 제공할 것이다. CELP,PPP,NELP 모드 순으로 기술된다.
Ⅶ. 코드 여기 선형 예측(CELP) 코딩 모드
위에서 제시된대로, 상기 CELP 인코더/디코더 모드는 현재 프레임이 활성 트랜젼트 음성으로 분류되는 경우에 사용된다. 상기 CELP 모드는 가장 정확한 신호 재생을 제공하지만(여기에 제시된 다른 모드에 비해), 가장 늪은 비트율에서 동작한다.
도7은 CELP 인코더 모드(204) 및 CELP 디코더 모드(206)을 상세히 보여준다. 도7A에 제시된대로, CELP 인코더 모드(204)는 피치 인코딩 모듈(702), 인코딩 코드북(704), 및 필터 업데이트 모듈(706)을 포함한다. CELP 인코더 모드(204)는 인코딩된 음성 신호(senc(n))를 출력하고, 상기 신호는 CELP 디코더 모드(206)로 전송하기 위해서 바람직하게는 코드북 파라미터들 및 피치 필터 파라미터들을 포함한다. 도7B에 제시되듯이, CELP 디코더 모드(206)는 디코딩 코드북 모듈(708), 피치 필터(710), 및 LPC 합성 필터(712)를 포함한다. CELP 디코더 모드(206)는 인코딩된 음성 신호를 수신하여 합성된 음성 신호()를 출력한다.
A. 피치 인코딩 모듈
피치 인코딩 모듈(702)는 상기 음성 신호(s(n)) 및 이전 프레임으로부터 양자화된 잔류(pc(n))수신한다. 상기 입력에 근거하여, 피치 인코딩 모듈(702)은 타겟 신호(x(n)) 및 한 세트의 피치 필터 파라미터들을 발생시킨다. 선호되는 실시예에 있어서, 이러한 피치 필터 파라미터들은 최적 피치 래그(L*) 및 최적 피치 이득(b*)을 포함한다. 이러한 파라미터들은 "합성에 의한 분석(analysis-by-synthesis)" 방법에 따라 선택되고, 인코딩 과정은 상기 파라미터들을 이용하여 입력 음성 및 합성 음성 사이의 가중 에러를 최소화하는 피치 필터 파라미터들을 선택한다.
도8은 피치 인코딩 모듈(702)을 상세히 보여준다. 피치 인코딩 모듈(702)은 지각(perceptual) 가중 필터(802), 가산기들(804,816), 가중된 LPC 합성 필터들(806,808), 지연 및 이득(810), 및 제곱들의 최소합(812)을 포함한다. 지각 가중 필터(802)는 원음성 및 합성 음성 사이에서 지각적인 방식으로 에러를 가중하는데 사용된다. 상기 지각 가중 필터는의 형태이고, 여기서 A(z)는 LPC 예측 에러 필터이고, γ는 바람직하게는 0.8 이다. 가중된 LPC 분석필터(806)는 초기 파라미터 계산 모듈(202)에 의해 계산된 LPC 계수들을 수신한다. 필터(806)는 상기 LPC 계수들에 주어지는 제로 입력 응답인 azir(n) 을 출력한다. 가산기(804)는 타겟 신호(x(n))을 형성하기 위해 음의 입력(azir(n))및 필터링된 입력 신호를 합산한다.
지연 및 이득(810)은 주어진 피치 래그(L) 및 피치 이득(b)에 대해 추정된 피치 필터 출력(bpL(n))을 출력한다. 지연 및 이득(810)은 이전 프레임으로부터 양자화된 잔류 샘플들(pc(n)) 및 po(n)에 의해 주어지는 피치 필터의 미래 출력 추정을 수신하고, 다음에 따라 p(n)을 형성한다;
그리고 나서, L개의 샘플들에 의해 지연되고, b배만큼 스케일 되어 bpL(n)을 형성한다. Lp 는 하위 프레임을 길이(바람직하게는 40개의 샘플들)이다. 선호되는 실시예에서, 상기 피치 래그(L)는 8개의 비트들로 표현되고 값들(20.0,20.5,21.0,21.5,...,126.0,126.5,127.0,127.5)을 취할 수 있다.
가중된 LPC 분석 필터(808)는 현재 LPC 계수들을 이용하여 bpL(n)을 필터링하고 byL(n)을 발생시킨다. 가산기(816)는 음의 입력(byL(n)) 과 x(n)을 합산하고, 그 출력은 제곱들의 최소합(812)에 의해 수신된다. 제곱들의 최소합(812)은 최적L(L*) 및 최적b(b*)를 선택하고, 상기 L 및 b 값들은 다음에 따라 Epitch(L)을최소화한다;
만약,이면, 주어진 L 값에 대해 Epitch(L)를 최소화하는 b의 값은
이고,
이며,
여기서, K는 무시할 수 있는 상수이다.
최적의 L 및 b 값(L*,b*)은 먼저 Epitch(L)를 최소화하는 L 값을 결정한 후 b*를 계산함으로써 발견된다.
이러한 피치 필터 파라미터들은 바람직하게는 각 하위 프레임들에 대해 계산되어지고, 그리고 나서 효율적인 전송을 위해 양자화된다. 선호되는 실시예에서, j 번째 하위 프레임에 대한 전송 코드들(PLAGj및 PGAINj)은 다음과 같이 계산된다;
그리고 나서, PLAGj가 0으로 설정되면, PGAINj은 -1로 조정된다. 이러한 전송 코드들은 인코딩된 음성 신호(senc(n))의 부분인 피치 필터의 파라미터들로서 CELP 디코더 모드(206)에 전송된다.
B. 인코딩 코드북
인코딩 코드북(704)은 상기 타겟 신호(x(n))를 수신하고, 양자화된 잔류 신호를 재현하기 위해 피치 필터 파라미터들과 함께 CELP 디코더 모드(206)에 의해 사용되는 한 세트의 코드북 여기 파라미터들을 결정한다.
인코딩 코드북(704)는 먼저 x(n)을 다음과 같이 업데이트한다;
여기서 ypzir(n)은 파라미터들(그리고 이전 하위 프레임의 처리로부터 야기되는 메모리들)을 가진 피치 필터의 제로 입력 응답의 입력에 대한 가중된 LPC 합성 필터(이전 하위 프레임의 끝단으로부터 보유된 메모리를 가지고)의 출력이다.
백(back) 필터링된 타겟로서 발생되고 여기서,
는 임펄스 응답{h(n)}으로부터 형성된 임펄스 응답 행렬이고,이다. 두개의 추가적인 벡터들()도 역시 생성된다.
인코딩 코드북(704)은 상기 값들(Exy* 및 Eyy*)을 영으로 초기화하고, 바람직하게는 4개의 N 의 값들(0,1,2,3)을 가지고 다음에 따라 최적의 여기 파라미터들을 검색한다;
}
인코딩 코드북(704)은 코드북 이득(G*)을 Exy*/Eyy* 로서 계산하고, 그리고 나서 j 번째 하위 프레임에 대해 다음 전송 코드들로서 여기 파라미터들 셋을 양자화한다;
그리고 상기 양자화된 G* 는이다.
CELP 인코더/디코더 모드의 저비트율 실시예들은 피치 인코딩 모듈(702)을제거하고, 단지 4개의 각 하위 프레임들에 대해 인덱스(I) 및 이득(G)을 결정하기 위한 코드북 검색을 수행함으로써 실현된다. 당업자는 위에서 기술된 사상들이 이러한 저비트율 실시예를 달성하는데 확장될 수 있음을 잘 이해할 것이다.
C. CELP 디코더
CELP 디코더 모드(206)는 바람직하게는 코드북 여기 파라미터들 및 피치 필터 파라미터들을 포함해서 CELP 인코더 모드(204)로부터 인코딩된 음성 신호를 수신하고, 이에 따라 합성된 음성()을 출력한다. 디코딩 코드북 모듈(708)은 상기 코드북 여기 파라미터들을 수신하고 이득(G)을 가지는 여기 신호(cb(n))을 발생시킨다. j 번째 하위 프레임에 대한 상기 여기 신호(cb(n))는 대부분 5개 위치들;
을 제외하고는 제로들을 포함하며, 따라서 이들은임펄스 값을 가지고, Gcb(n)을 제공하기 위해로 계산되는 이득(G)에 의해 스케일 된다.
피치 필터(710)는 다음에 따라 수신된 전송 코드들로부터 피치 필터 파라미터들을 디코딩 한다;
피치 필터(710)는 그리고 나서 Gcb(n)을 필터링하고, 여기서 상기 필터는 다음과같이 주어지는 전달 함수를 가진다;
선호되는 실시예에서, CELP 디코더 모드(206)는 피치 필터(710) 후에 잉여의 피치 필터링 연산, 피치 프리필터(prefilter)(제시되지 않음)를 첨가한다. 상기 피치 프리필터에 대한 래그는 피치 필터(710)의 래그와 동일하나, 그 이득은 바람직하게는 피치 이득의 절반으로 최대 0.5이다.
LPC 합성 필터(712)는 상기 재현된 양자화 잔류 신호()를 수신하고 합성된 음성 신호()을 출력한다.
D. 필터 업데이트 모듈
필터 업데이트 모듈(706)은 이전 섹션에서 기술된대로 필터 메모리들을 업데이트하기 위해 음성을 합성한다. 필터 업데이트 모듈(706)은 코드북 여기 파라미터들 및 피치 필터 파라미터들을 수신하고, 여기 신호(cb(n))를 발생시키고, Gcb(n)을 필치 필터링하며, 그리고 나서을 합성한다. 인코더에서 이런 합성을 수행함으로써, 피치 필터 및 LPC 합성 필터의 메모리들은 다음 하위 프레임을 처리할 때 사용하기 위해 업데이트된다.
Ⅷ. 표준 피치 주기(PPP) 코딩 모드
표준 피치 주기(PPP) 코딩은 CELP 코딩을 이용할 때 보다 낮은 비트율을 획득하기 위해 음성 신호의 주기성을 이용한다. 일반적으로, PPP 코딩은 여기에서 표준 잔류로 언급된 잔류 신호의 대표 주기를 추출하고, 그리고 나서 현재 프레임의 표준 잔류 및 이전 프레임으로부터의 유사한 피치 주기(즉, 최종 프레임이 PPP 였다면 표준 잔류) 사이에 내삽함으로써 프레임의 이른 피치 주기들을 구축하기 위해 상기 표준을 사용하는 것을 포함한다. PPP 코딩의 효율(저비트율의 관점에서)은 부분적으로 현재 및 과거 표준 잔류들이 상기 삽입 피치 주기들과 얼마나 유사한가에 따른다. 이러한 이유로, PPP 코딩은 바람직하게는 여기서 준 주기 음성 신호로 언급되는 상대적으로 높은 주기성을 갖는(예를 들면, 유성음 음성) 음성 신호에 적용된다.
도9는 PPP 인코더 모드(204) 및 PPP 디코더 모드(206)을 상세히 보여준다. PPP 인코더 모드(204)는 추출 모듈(904), 회전 코릴레이터(906), 인코딩 코드북(908), 및 필터 업데이트 모듈(910)을 포함한다. PPP 인코더 모드(204)는 잔류 신호(r(n))를 수신하고, 바람직하게는 코드북 파라미터 및 회전 파라미터들을 포함하는 인코딩된 음성 신호(senc(n))를 출력한다. PPP 디코더 모드(206)는 코드북 디코더(912), 회전자(rotator)(914), 가산기(916), 주기 내삽기(920), 및 워핑(warping) 필터(918)을 포함한다.
도10은 인코딩 및 디코딩을 포함하는 PPP 코딩 단계를 보여주는 플로우챠트(1000)이다. 상기 단계들은 다양한 PPP 인코더 모드(204) 및 PPP 디코더 모드(206)와 함께 논의된다.
A. 추출(extraction) 모듈
단계 1002에서, 추출 모듈(904)은 잔류 신호(r(n))로부터 표준 잔류(rp(n))을 추출한다. 섹션 Ⅲ.F 에서 제시된대로, 초기 파라미터 계산 모듈(202)는 각 프레임에 대한 r(n)을 계산하기 위해 LPC 분석 필터를 사용한다. 선호되는 실시예에서, 상기 필터의 LPC 계수들은 섹션 Ⅶ.A 에 제시된대로 지각적으로 가중된다. rp(n)의 길이는 현재 프레임의 최종 하위 프레임 기간동안 초기 파라미터 계산 모듈(202)에 의해 계산된 피치 래그(L)와 동일하다.
도11은 1002 단계를 상세히 보여주는 도이다. PPP 추출 모듈(904)은 바람직하게는 아래에서 제시된 제한들에 따라 가능한 한 프레임 끝단과 근접하도록 피치 주기를 선택한다. 도12는 현재 프레임 및 이전 프레임의 최종 하위 프레임을 포함해서 준 주기적 음성에 기초해서 계산된 잔류 신호의 예시를 보여준다.
단계 1102에서, "컷-프리(cut-free) 영역" 이 결정된다. 상기 컷-프리 영역은 표준 잔류의 끝점(endpoint)들이 될 수 없는 한 세트의 잔류 샘플들을 정의한다. 상기 컷-프리 영역은 상기 잔류의 고에너지 영역들이 출력에서 불연속을 야기하는 상기 표준의 시작 또는 끝에서 발생하지 않도록 한다. r(n)의 최종 L 개의 샘플들 각각의 절대값이 계산된다. 변수(PS)는 여기서 "피치 스파이크(pitch spike)"로 언급되는 최대 절대값을 갖는 샘플의 시간 인덱스와 동일하도록 설정된다. 예를 들어, 피치 스파이크가 상기 최종 L 개의 샘플들 중 마지막 샘플에서 발생하면, PS= L-1 이다. 선호되는 실시예에서, 상기 컷-프리 영역의 최소 샘플(CFmin)은 PS-6 또는 PS-0.25L 중 작은 쪽으로 설정된다. 상기 컷-프리 영역의최대 샘플(CFmax)은 PS+6 또는 PS+0.25L 중 큰 쪽으로 설정된다.
단계 1104에서, 표준 잔류는 상기 잔류로부터 L개의 샘플들을 컷팅함으로써 선택된다. 선택된 영역은 상기 영역의 끝점들이 상기 컷-프리 영역 내에 존재하지 않는다는 조건하에서 프레임의 끝단과 가능한 한 근접하게 선택된다. 상기 표준 잔류의 L개의 샘플들은 다음 유사-코드에서 기술된 알고리즘을 사용하여 결정된다;
B. 회전 코릴레이터(Rotational Correlator)
도10을 다시 보면, 단계 1004에서 회전 코릴레이터(906)는 현재 표준 잔류(rp(n)) 및 이전 프레임의 표준 잔류(rprev(n))에 기초하여 한 세트의 회전 파라미터들을 계산한다. 이러한 파라미터들은 rprev(n)이 rp(n)의 예측기로 사용하기 위해 어떻게 잘 회전되고 스케일 되는지를 기술한다. 선호되는 실시예에서, 상기 한 세트의 회전 파라미터들은 최적 회전(R*) 및 최적 이득(b*)를 포함한다. 도13은 단계 1004를 상세히 기술하는 플로우챠트이다.
단계 1302에서, 지각적으로 가중된 타겟 신호(x(n))는 상기 표준 피치 잔류주기(rp(n))를 회전적으로 필터링함으로써 계산된다. 이는 다음과 같이 획득된다. 잠정 신호(tmp1(n))은 rp(n)으로부터
로서 발생되고, 상기 신호는 출력(tmp2(n))을 제공하기 위해 제로 메모리들을 가지는 가중된 LPC 합성 필터에 의해 필터링된다. 선호되는 실시예에서, 사용되는 LPC 계수들은 현재 프레임의 최종 하위 프레임에 상응하는 지각적으로 가중된 계수들이다. 타겟 신호(x(n))은 그리고 나서 다음과 같이 주어진다;
단계 1304에서, 이전 프레임의 표준 잔류(rprev(n))는 피치 필터의 메모리 내에 존재하는 이전 프레임의 양자화된 포르만트 잔류로부터 추출된다. 바람직하게는, 이전 표준 잔류는 이전 프레임의 포르만트 잔류의 최종 Lp값으로 정의되고, 여기서 Lp는 이전 프레임이 PPP 프레임이 아닌 경우에는 L 과 동일하고, 그렇지 않으면 이전 피치 래그로 설정된다.
단계 1306에서, rprev(n)의 길이는 상관이 정확하게 계산되도록 하기 위해 x(n)의 길이와 동일하게 되도록 변경된다. 상기 샘플 신호 길이 변경 기술은 여기서 워핑(warping)으로 언급된다. 워핑된 피치 여기 신호(rwprev(n))는 다음과 같다;
여기서 TWF는 시간 워핑 인자(LP/L)이다. 비-정수 지점들에서의 샘플 값들(n*TWF)은 바람직하게는 한 세트의 sinc 함수 테이블을 이용하여 계산된다. 선택된 상기 sinc 시퀀스는 sinc(-3-F:4-F)이고, 여기서 F는 1/8의 배수에 가장 근접한 반올림된 n*TWF의 소수 부분이다. 상기 시퀀스의 시작은 rprev((N-3)%LP)로 정렬되고, 여기서 N 은 가장 근접한 1/8에 반올림된 후 n*TWF의 정수 부분이다.
단계 1308에서, 상기 워핑된 피치 여기 신호(rwprev(n))는 회전적으로 필터링되어, y(n)을 발생한다. 이러한 공정은 위에서 제시된 1302 단계와 동일하지만, rwprev(n)에 적용된다.
단계 1310에서, 피치 회전 검색 범위는 먼저 예상 회전(Erot)
을 계산함으로써 계산되며, 여기서 frac(x)는 x의 소수 부분이다. 피치 회전 검색 범위는 L < 80 인 경우 및 L ≥80 인 경우에 각각이다.
단계 1312에서, 상기 회전 파라미터들, 최적 회전(R*) 및 최적 이득(b*) 이 계산된다. x(n) 및 y(n) 사이의 최상의 예측을 가져오는 상기 피치 회전은 상응하는 이득(b)과 함께 선택된다. 이러한 파라미터들은 바람직하게는 에러 신호(e(n)=x(n)-y(n))를 최소화하도록 선택된다. 최적 회전(R*) 및 최적 이득(b*)은의 최대값을 가져오는 회전(R) 및 이득(b) 값이고, 여기서
이고, 회전(R*)에서 상기 최적 이득(b*)는 ExyR*/Eyy 이다. 회전의 소수값들에 대해서, ExyR값은 회전의 정수값에서 계산된 ExyR값을 내삽함으로써 근사화된다. 간단한 4개의 탭 내삽 필터가 사용된다. 예를 들면,
여기서, R 은 비-정수 회전(0.5의 정밀도를 가지는)이고, R'=〔R〕이다.
선호되는 실시예에서, 상기 회전 파라미터들은 효율적인 전송을 위해 양자화된다. 상기 최적 이득(b*)은 바람직하게는
로서 0.0625 및 4.0 사이에서 균일하게 양자화되고, 여기서 PGAIN 은 전송 코드이고 양자화된 이득 ()은로 주어진다. 최적 회전(R*)은 전송 코드(PROT)로서 양자화되고, 상기 전송 코드는 L<80 이면 2(R*-Erot+8)로, L≥80 이면 R*-Erot+16으로 설정된다.
C. 인코딩 코드북
도10을 보면, 단계 1006에서 인코딩 코드북(908)은 수신된 타겟 신호(x(n))에 기초하여 한 세트의 코드북 파라미터들을 발생시킨다. 인코딩 코드북(908)은 스케일링, 가산, 밑 필터링 되어졌을 때 x(n)을 근사화하는 신호를 합산하는 하나 또는 그 이상의 코드벡터들을 발견하고자 한다. 선호되는 실시예에서, 인코딩 코드북(908)은 다중-단계 코드북, 바람직하게는 3단의 코드북으로 구현되고, 각 단계는 스케일된 코드벡터를 생산하다. 따라서 상기 한 세트의 코드북 파라미터들은 3개의 코드벡터들에 상응하는 인덱스들 및 이득들을 포함한다. 도14는 단계 1006을 상세히 보여주는 플로우챠트이다.
단계 1402에서, 코드북 검색이 수행되기에 앞서, 타겟 신호(x(n))는 다음과 같이 업데이트된다;
상기 뺄셈에서, R* 가 비-정수( 즉, 0.5의 소수를 가짐)이면,
이고, 여기서 i=n-〔R*〕이다.
단계 1404에서, 상기 코드북 값들은 다중 영역들로 분할된다. 선호되는 실시예에 따라, 상기 코드북은 다음과 같이 결정되고;
여기서 CBP 는 통계적 또는 트래인(train)된 코드북 값들이다. 당업자는 상기 코드북 값들이 어떻게 발생되는지를 잘 이해할 수 있다. 상기 코드북은 다중 영역들로 분할되고, 상기 영역 각각은 길이 L 을 가진다. 제1 영역은 단일 펄스이고, 나머지 영역은 상기 통계적 또는 트래인된 코드북의 값으로 구성된다. 상기 영역의 수는 〔128/L〕이 될 것이다.
단계 1406에서, 상기 코드북의 다중 영역들은 신호(y(n))의 연결(concatenation)을 갖는 필터링된 코드북들(yreg(n))을 생성하기 위해 각각 회전적으로 필터링된다. 각 영역에 대해서, 상기 회전적 필터링은 위에서 기술된 단계 1302로서 수행된다.
단계 1408에서, 상기 필터링된 코드북 에너지(Eyy(reg))는 각 영역에 대해 계산되고 저장된다;
단계 1410에서, 다중-단계 코드북의 각 단계에 대한 상기 코드북 파라미터들(즉, 코드벡터 인덱스 및 이득)이 계산된다. 선호되는 실시예에 따르면, 샘플 I 가 존재하는 영역으로서 정의된 Region(I)=reg 또는,
로 설정되고, 그리고 Exy(I) 는 다음과 같이 정의된다;
j 번째 코드북 단계에 대한 상기 코드북 파라미터들, I* 및 G* 은 다음유사-코드를 사용하여 계산된다;
그리고이다. 선호되는 실시예에 따르면, 상기 코드북 파라미터들은 효율적 전송을 위해 양자화된다. 상기 전송 코드(CBIj)(j=단계 수 - 0,1 또는 2)는 바람직하게는 I* 으로 설정되고, 전송 코드들(CBGj 및 SIGNj)은 이득(G*)을 양자화함으로써 설정된다;
그리고 양자화된 이득()은 다음과 같다;
그리고 나서, 타겟 신호(x(n))는 현재 단계의 코드북 벡터의 기여분을 뺌으로써 업데이트된다.
상기 유사-코드로부터 출발한 상기 절차들은 제2 및 제3 단계들에 대해서 I*,G*, 및 상응하는 전송 코드들을 계산하기 위해서 반복된다.
D. 필터 업데이트 모듈
도10을 보면, 단계 1008에서 업데이트 모듈(910)은 PPP 인코더 모드(204)를 사용하여 상기 필터들을 업데이트한다. 2개의 대안적 실시예들이 도15A 및 16A에 제시된 것처럼 필터 업데이트 모듈(910)에 제공된다. 도15에서 제1 대안적 실시예로 제시되듯이, 필터 업데이트 모듈(910)은 디코딩 코드북(1502), 회전자(1504), 워핑 필터(1506), 가산기(1510), 정렬 및 내삽 모듈(1508), 업데이트 피치 필터 모듈(1512), 및 LPC 합성 필터(1514)를 포함한다. 도16A에 제시된 제2 대안적 실시예는 디코딩 코드북(1602), 회전자(1604), 워핑 필터(1606), 가산기(1608), 업데이트 피치 모듈(1610), 회전 LPC 합성 필터(1612), 및 업데이트 LPC 필터 모듈(1614)을 포함한다. 도17 및 18은 상기 두개의 실시예에 따라 단계 1008을 상세히 보여주는 플로우챠트들이다.
단계 1702(및 1802, 상기 실시예들의 제1단계)에서, 재현된 표준 잔류(rcurr(n)), 길이는 L 개의 샘플들, 는 코드북 파라미터들 및 회전 파라미터들로부터 재현된다. 선호되는 실시예에서, 회전자(1504)(및 1604)는 다음에 따라 이전 표준 잔류의 워핑된 버전을 회전한다;
여기서, rcurr는 창조된 현재 표준이고, rwprev는 피치 필터 메모리들의 가장 최근 L개의 샘플들로부터 획득된 이전 주기의 워핑된(TWF=LP/L을 가지고, 섹션 Ⅷ.A 에서 기술되듯이) 버젼이고, 아래에서 패킷 전송 코드들로부터 획득된 피치 이득(b) 및 회전(R)은 다음과 같다;
여기서, Erot는 상기 섹션 Ⅷ.B에서 기술된대로 계산된 예상 회전이다.
디코딩 코드북(1502)(및 1602)은 3개의 코드북 단계들 각각의 기여분을 rcurr(n)에 더한다.
여기서, I=CBIj 이고 G 는 이전 섹션에서 기술된대로 CBGj 및 SIGNj로부터 획득되며, j는 단계 번호이다.
이점에서, 필터 업데이트 모듈(910)에 대한 상기 두개의 대안적 실시예는 상이하다. 먼저 도15A의 실시예를 살펴보면, 단계 1704에서, 정렬 및 내삽 모듈(1508)은 현재 프레임의 개시로부터 현재 표준 잔류의 개시로(도12에서 제시되듯이) 잔류 샘플들의 나머지를 채운다. 여기서, 상기 정렬 및 내삽은 상기 잔류 신호에서 수행된다. 그러나, 이러한 공정들은 아래에서 제시되듯이 음성 신호들에서 수행될 수도 있다. 도19는 단계 1704를 상세히 보여주는 플로우챠트이다.
단계 1902에서, 이전 래그(Lp)가 현재 래그(L)에 비해 두배 또는 절반인지 여부가 결정된다. 선호되는 실시예에서, 다른 배수들은 드문 것으로 간주되어 고려되지 않는다. 만약 Lp> 1.85L 이면, Lp는 이등분되고 이전 주기(rprev)의 제1 절반만이 사용된다. Lp< 0.54L 이면, 현재 래그(L)는 2배로 되고 결과적으로 Lp역시 두배가 되고 이전 주기(rprev(n))는 반복에 의해 확장된다.
단계 1904에서, rprev(n)는 단계 1306에서 기술된대로 TWF=Lp/L을 가지고 rwprev를 형성하기 위해 워핑되어, 두개의 표준 잔류들 모두의 길이들은 이제 동일하게 된다. 이러한 공정은 위에서 제시된대로 필터(1506)를 워핑함으로써 수행된다는 점을 주목하기 바란다. 워핑 필터(1506)의 출력이 정렬 및 내삽 모듈(1508)에 이용가능해지면, 단계 1904는 불필요하다는 것을 당업자는 잘 이해할 것이다.
단계 1906에서, 정렬 회전들의 허용 범위가 계산된다. 상기 예상 정렬 회전(EA)은 상기 섹션 Ⅷ.B에서 기술된대로 Erot와 동일하도록 계산된다. 상기 정렬 회전 검색 범위는 {EA-δA,EA-δA+0.5,EA-δA+1,...,EA+δA-1.5,EA+δA-1}이 되도록 정의되고, 여기서 δA=MAX{6,O.15L}이다.
단계 1908에서, 정수 정렬 회전들(R)에 대한 이전 및 현재 주기들 사이의 상호 상관(cross correlation)이 다음과 같이 계산된다;
그리고, 비-정수 회전들(A)에 대한 상호 상관은 정수 회전에서 상관들의 값을 내삽함으로써 근사화된다;
, 여기서 A'=A-0.5.
단계 1910에서, C(A)의 최대값을 발생시키는 A값(허용 회전들의 범위에 대해서)은 최적 정렬(A*)으로 선택된다.
단계 1912에서, 상기 중앙 샘플들에 대한 평균 래그 또는 피치 주기는 다음과 같이 계산된다. 주기 번호 추정(Nper)은
로서 주어지는 중앙 샘플들에 대한 평균 래그를 가지고
로서 계산된다.
단계 1914에서, 현재 프레임 내에 잔존하는 잔류 샘플들은 이전 및 현재 표준 잔류들 사이에 다음 내삽에 따라 계산된다;
여기서, α= L/Lav이다. 비-정수 지점들에서의 샘플값들()(nα또는 nα+A* 과 동일)은 한 세트의 sinc 함수 테이블들을 이용하여 계산된다. 선택된 sinc 시퀀스는 sinc(-3-F:4-F)이고, 여기서 F는 1/8의 배수에 가장 근접하게 반올림된의 소수 부분이다. 이러한 시퀀스의 개시는를 가지고 정렬되고, 여기서 N 은 가장 근접한 1/8에 반올림된 후의 정수 부분이다.
이런 공정은 본질적으로 위에서 단계 1306에 대해 기술된대로, 워핑과 동일하다. 따라서, 대안적 실시예에서, 단계 1914의 내삽은 워핑 필터를 사용하여 계산된다. 당업자는 여기서 제시된 다양한 목적을 위해서 단일 워핑 필터의 재사용에 의해 경제성이 실현된다는 것을 잘 이해할 것이다.
도17을 보면, 단계 1706에서, 업데이트 피치 필터 모듈(1512)은 재현된 잔류()로부터 피치 필터 메모리들로 값들을 복사한다. 이와 같이, 피치 프리필터의 메모리들 역시 업데이트된다.
단계 1708에서, LPC 합성 필터(1514)는 상기 재현된 잔류()를 필터링하고, 이는 상기 LPC 합성 필터의 메모리를 업데이트하는 효과를 가진다.
도16A에서 제시된대로, 필터 업데이트 모듈(910)의 제2 실시예는 이제 설명된다. 단계 1702에 대해 위해서 기술된대로, 단계 1802에서, 상기 표준 잔류는 상기 코드북 및 회전 파라미터들로 부터 재현되어 rcurr(n)을 발생시킨다.
단계 1804에서, 업데이트 피치 모듈(1610)은
또는 대안적으로,
에 따라 rcurr(n)으로부터 L 개의 샘플 복제들을 복사함으로써 상기 피치 필터 메모리들을 업데이트한다. 여기서 131 은 바람직하게는 127.5의 최대 래그에 대한 피치 필터 차수이다. 선호되는 실시예에서, 상기 피치 프리필터의 메모리들은 현재 주기의 복제들(rcurr(n))로 동일하게 대체된다;
단계 1806에서, rcurr(n)은 섹션 Ⅲ.B에서 제시된대로 회전적으로 필터링되고, sc(n)을 발생시키며, 바람직하게는 지각적으로 가중된 LPC 계수들을 사용한다.
단계 1806에서, sc(n)으로부터의 값들, 바람직하게는 최종 10개 값들(10차 LPC 필터에 대해)이 상기 LPC 합성 필터의 메모리들을 업데이트하는데 사용된다.
E. PPP 디코더
도9 및 10을 보면, 단계1010에서, PPP 디코더 모드(206)는 수신된 코드북 및 회전 파라미터들에 기초하여 표준 잔류(rcurr(n))를 재현한다. 디코딩 코드북(912),회전자(914), 및 워핑 필터(918)는 이전 섹션에서 기술된 방식으로 동작한다. 주기 내삽기(920)는 상기 재현된 표준 잔류(rcurr(n)) 및 이전에 재현된 표준 잔류(rprev(n))를 수신하고, 상기 두개의 표준들 사이에 샘플들을 삽입하고, 합성된 음성 신호()를 출력한다. 주기 내삽기(920)는 다음 섹션에서 기술된다.
F. 주기 내삽기
단계 1012에서, 주기 내삽기(920)는 rcurr(n)을 수신하고, 합성된 음성 신호()를 출력한다. 주기 내삽기(920)에 대한 두개의 대안적 실시예들이 도15B 및 16B에 제시된대로 여기서 제공된다. 제1 대안적 실시예에서(도15B), 주기 내삽기(920)는 정렬 및 내삽 모듈(1516), LPC 합성 필터(1518), 및 업데이트 피치 필터 모듈(1520)을 포함한다. 제2 대안적 실시예(도16B)는 회전 LPC 합성 필터(1616), 정렬 및 내삽 모듈(1618), 업데이트 피치 필터 모듈(1622), 및 업데이트 LPC 필터 모듈(1620)을 포함한다. 도 20 및 21은 상기 두개의 실시예들에 따라 단계 1012를 상세히 보여주는 플로우챠트이다.
도15B를 보면, 단계 2002에서 정렬 및 내삽 모듈(1516)은 현재 잔류 표준(rcurr(n)) 및 이전 잔류 표준(rprev(n)) 사이에서 샘플들에 대해 잔류 신호를 재현하고,을 형성한다. 정렬 및 내삽 모듈(1516)은 단계 1704(도 19에 제시된대로)에 대해 위에서 기술된 방식으로 동작한다.
단계 2004에서, 업데이트 피치 모듈(1520)은 단계 1706에 대해서 위에서 제시된대로 상기 재현된 잔류 신호()에 기초하여 피치 필터 메모리들을 업데이트한다.
단계 2006에서, LPC 합성 필터(1518)은 상기 재현된 잔류 신호()에 기초하여 출력 음성 신호()을 합성한다. 상기 LPC 필터 메모리들은 이러한 공정이 수행되면 자동적으로 업데이트된다.
도 16B 및 21을 보면, 단계 2102에서 업데이트 피치 필터 모듈(1622)은 단계 1804에 대해 위에서 제시된대로 상기 재현된 현재 잔류 표준 (rcurr(n))에 기초하여 피치 필터 메모리들을 업데이트한다.
단계 2104에서, 회전 LPC 합성 필터(1616)는 섹션 Ⅷ.B에서 기술된대로, rcurr(n)을 수신하고, 현재 음성 표준(sc(n))(길이는 L개의 샘플들)을 합성한다.
단계 2106에서, 업데이트 LPC 필터 모듈(1620)은 단계 1808에 대해 위에서 기술된대로 LPC 필터 메모리들을 업데이트한다.
단계 2108에서, 정렬 및 내삽 모듈(1618)은 이전 표준 주기 및 현재 표준 주기 사이에서 음성 샘플들을 재현한다. 상기 이전 표준 잔류(rprev(n))는 회전적으로 필터링되어(LPC 합성 구현에서), 상기 내삽이 음성 영역에서 처리되도록 한다. 정렬 및 내삽 모듈(1618)은 상기 공정들이 잔류 표준들보다는 음성 표준들에서 수행되는 경우를 제외하고 단계 1704에 대해 위에서 제시된 방식으로(도 19를 보라)동작한다. 상기 정렬 및 내삽은 합성된 음성 신호()을 발생시킨다.
Ⅸ. 잡음 여기 선형 예측(NELP) 코딩 모드
잡음 여기 선형 예측(NELP) 코딩은 음성 신호를 유사-랜덤 잡음 시퀀스로 모델링하고, 그에 기해 CELP 또는 PPP 코딩 보다 낮은 비트율을 획득한다. NELP 코딩은 무성음 음성 또는 배경 잡음과 같이 피치 구조를 거의 가지지 않는 음성 신호를 재현하는데 가장 효과적이다.
도22는 NELP 인코더 모드(204) 및 NELP 디코더 모드(206)을 상세히 보여준다. NELP 인코더 모드(204)는 에너지 추정기(2202) 및 인코딩 코드북(2204)를 포함한다. NELP 디코더 모드(206)는 디코딩 코드북(2206), 랜덤 번호 발생기(2210), 곱셈기(2212), 및 LPC 합성 필터(2208)을 포함한다.
도23은 인코딩 및 디코딩을 포함하는 NELP 코딩 단계들을 보여주는 플로우챠트(2300)이다. 이러한 단계들은 NELP 인코더 모드(204) 및 NELP 디코더 모드(206)의 다양한 요소들과 함께 기술된다.
단계 2302에서, 에너지 추정기(2202)는 4개의 하위 프레임들 각각에 대해 다음과 같이 잔류 신호 에너지를 계산한다;
단계 2304에서, 인코딩 코드북(2204)은 한 세트의 코드북 파라미터들을 계산하여 인코딩된 음성 신호(senc(n))을 형성한다. 선호되는 실시예에서, 상기 코드북 파라미터 세트는 단일 파라미터, 인덱스(I0)를 포함한다. 인덱스(I0)는
를 최소화하는 j의 값과 동일하게 설정된다. 코드북 벡터들(SFEQ)는 하위 프레임에너지들(Esfi)을 양자화하기 위해 사용되고, 프레임 내의 하위 프레임의 수(즉, 선호되는 실시예에서 4개)와 동일한 복수의 요소들을 포함한다. 이러한 코드북 벡터들은 바람직하게는 통계적 또는 트레인(train)된 코드북을 만들어내는 당업자에게 공지된 표준 기술에 따라 만들어진다.
단계 2306에서, 디코딩 코드북(2206)은 상기 수신된 코드북 파라미터들을 디코딩한다. 선호되는 실시예에서, 하위 프레임 이득들(Gi)의 세트는 다음에 따라 디코딩된다;
(여기서, 이전 프레임은 제로-레이트 코딩 기술을 이용하여 코딩되었음)
여기서, 0 ≤i ≤4 이고, Gprev는 이전 프레임의 최종 하위 프레임에 상응하는 코드북 여기 이득이다.
단계 2308에서, 랜덤 번호 발생기(2210)는 단위 분산 랜덤 벡터(n(z))를 발생한다. 이런 랜덤 벡터는 단계 2310에서 각 하위 프레임 내의 적합한 이득(Gi)에 의해 스케일되어, 여기 신호(Gin(z))를 만들어낸다.
단계 2312에서, LPC 합성 필터(2208)는 여기 신호(Gin(z))를 필터링하여 출력 음성 신호()을 형성한다.
선호되는 실시예에서, 가장 최근 비-제로-레이트 NELP 하위 프레임으로부터획득된 이득(Gi) 및 LPC 파라미터들이 현재 프레임의 각 하위 프레임에 대해 사용되는 곳에서, 제로 레이트 모드가 역시 사용된다. 다중 NELP 프레임들이 연속적으로 발생하는 곳에서, 이런 제로 레이트 모드가 효과적으로 사용될 수 있다는 것을 당업자는 잘 이해할 것이다.
Ⅹ. 결론
위에서 본 발명의 다양한 실시예들이 제시되었지만, 이는 단지 예시적 서술에 불과하고, 이에 한정되는 것은 아니다. 따라서, 본 발명의 영역은 위에서 제시된 실시예로 제한되어서는 아니 되며, 청구항 및 그 등가의 것들에 따라 정의되어야만 한다.
선호되는 실시예들이 당업자들이 본 발명을 이용하기 위해 제시되었다. 본 발명은 선호되는 실시예를 참조하여 제시되었지만, 당업자는 본 발명의 영역으로부터 벗어남이 없이 다양한 변화를 가할 수 있다.

Claims (35)

  1. 음성 신호의 가변 속도 코딩을 위한 방법으로서,
    (a) 음성 신호를 활성(active) 또는 비활성(inactive)으로 분류하는 단계;
    (b) 상기 활성 음성을 활성 음성의 복수 타입들 중 하나로 분류하는 단계;
    (C) 음성 신호가 활성인지 또는 비활성인지에 따라 코딩 모드를 선택하고, 활성인 경우에는 상기 활성 음성의 타입에 따라 추가적으로 코딩 모드를 선택하는 단계; 및
    (d) 상기 코딩 모드에 따라 음성 신호를 인코딩하여, 인코딩된 음성 신호를 형성하는 단계를 포함하는 가변 속도 코딩 방법.
  2. 제1항에 있어서,
    상기 코딩 모드에 따라 상기 인코딩된 음성 신호를 디코딩하여, 합성된 음성 신호를 형성하는 단계를 추가로 포함하는 가변 속도 코딩 방법.
  3. 제1항에 있어서,
    상기 코딩 모드는 CELP 코딩 모드, PPP 코딩 모드, 또는 NELP 코딩 모드를 포함하는 가변 속도 코딩 방법.
  4. 제3항에 있어서,
    상기 인코딩 단계는 상기 코딩 모드와 연관되어 미리 설정된 비트율에서 상기 코딩 모드에 따라 인코딩하는 가변 속도 코딩 방법.
  5. 제4항에 있어서,
    상기 CELP 코딩 모드는 8500bps의 비트율과 연관되고, 상기 PPP 코딩 모드는 3900bps의 비트율과 연관되며, 상기 NELP 코딩 모드는 1550bps와 연관되는 가변 속도 코딩 방법.
  6. 제3항에 있어서,
    상기 코딩 모드는 추가로 제로 레이트 모드를 포함하는 가변 속도 코딩 방법.
  7. 제1항에 있어서,
    상기 활성 음성의 복수 타입들은 유성음(voiced), 무성음(unvoiced), 및 트랜젼트(transient) 활성 음성을 포함하는 가변 속도 코딩 방법.
  8. 제7항에 있어서,
    상기 코딩 모드 선택 단계는
    (a) 상기 음성이 활성 트랜젼트 음성으로 분류되는 경우에는 CELP 모드를 선택하는 단계;
    (b) 상기 음성이 활성 유성음 음성으로 분류되는 경우에는 PPP 모드를 선택하는 단계; 및
    (c) 상기 음성이 비활성 또는 활성 무성음 음성으로 분류되는 경우에는 NELP 모드를 선택하는 단계를 포함하는 가변 속도 코딩 방법.
  9. 제8항에 있어서,
    상기 인코딩된 음성 신호는 상기 CELP 모드가 선택되는 경우에는 코드북 파라미터들 및 피치 필터 파라미터들을 포함하고, 상기 PPP 모드가 선택되는 경우에는 코드북 파라미터들 및 회전 파라미터들을 포함하며, 상기 NELP 모드가 선택되는 경우에는 코드북 파라미터들을 포함하는 가변 속도 코딩 방법.
  10. 제1항에 있어서,
    음성을 활성 또는 비활성으로 분류하는 상기 단계는 스레쉬홀딩(thresholding) 방식에 기초하여 두개의 에너지 밴드를 포함하는 가변 속도 코딩 방법.
  11. 제1항에 있어서,
    음성을 활성 또는 비활성으로 분류하는 상기 단계는 이전 Nho개의 프레임들이 활성으로 분류된 경우에는 다음 M 개의 프레임들을 활성으로 분류하는 단계를포함하는 가변 속도 코딩 방법.
  12. 제1항에 있어서,
    "룩-어헤드(look ahead)"를 이용하여 초기 파라미터들을 계산하는 단계를 추가로 포함하는 가변 속도 코딩 방법.
  13. 제12항에 있어서,
    상기 초기 파라미터들은 LPC 계수들을 포함하는 가변 속도 코딩 방법.
  14. 제1항에 있어서,
    상기 코딩 모드는 NELP 코딩 모드를 포함하고, 상기 음성 신호는 상기 음성 신호를 선형 예측 코딩(LPC) 분석 필터를 가지고 필터링함으로써 발생된 잔류 신호에 의해 표현되며, 상기 인코딩 단계는
    (i) 상기 잔류 신호 에너지를 추정하는 단계; 및
    (ii) 제1 코드북으로부터 상기 추정 에너지에 근사화되는 코드벡터를 선택하는 단계를 포함하며,
    상기 디코딩 단계는
    (i) 랜덤 벡터를 발생시키는 단계;
    (ii) 제2 코드북으로부터 상기 코드벡터를 복원하는 단계;
    (iii) 상기 코드벡터에 따라 상기 랜덤 벡터를 스케일링하여, 상기 스케일링된 랜덤 벡터의 에너지가 상기 추정 에너지에 근사화되도록 하는 단계; 및
    (iv) LPC 합성 필터로 상기 스케일링된 랜덤 벡터를 필터링하여, 상기 필터링 및 스케일링된 랜덤 벡터가 상기 합성된 음성 신호를 형성하도록 하는 단계를 포함하는 가변 속도 코딩 방법.
  15. 제14항에 있어서,
    상기 음성 신호는 프레임들로 분할되고, 상기 프레임들 각각은 2개 또는 그 이상의 하위 프레임들을 포함하며, 상기 에너지를 추정하는 상기 단계는 상기 하위 프레임의 각각에 대한 잔류 신호 에너지를 추정하는 단계를 포함하며, 상기 코드벡터는 상기 하위 프레임 각각에 대해 상기 추정 에너지에 근사화되는 값을 포함하는 가변 속도 코딩 방법.
  16. 제14항에 있어서,
    상기 제1 코드북 및 제2 코드북은 통계적(stochastic) 코드북인 가변 속도 코딩 방법.
  17. 제14항에 있어서,
    상기 제1 코드북 및 제2 코드북은 트래인(train)된 코드북인 가변 속도 코딩 방법.
  18. 제14항에 있어서,
    상기 랜덤 벡터는 단위 분산(unit variance) 랜덤 벡터를 포함하는 가변 속도 코딩 방법.
  19. 음성 신호 코딩을 위한 가변 속도 코딩 시스템으로서,
    상기 음성 신호를 활성 또는 비활성으로 분류하기 위한 분류 수단 및 활성인 경우 활성 음성의 복수 타입들 중 하나로서 상기 활성 음성을 분류하는 수단; 그리고
    상기 음성 신호를 인코딩된 음성 신호로 인코딩하는 복수의 인코딩 수단을 포함하며, 상기 음성 신호가 활성인지 비활성인지, 그리고 활성이라면 활성 음성의 상기 타입에 따라 상기 음성 신호를 인코딩하기 위해 상기 인코딩 수단이 다이나믹하게 선택되는 가변 속도 코딩 시스템.
  20. 제19항에 있어서,
    상기 인코딩된 음성 신호를 디코딩하는 복수의 디코딩 수단을 추가로 포함하는 가변 속도 코딩 시스템.
  21. 제19항에 있어서,
    상기 복수의 인코딩 수단은 CELP 인코딩 수단, PPP인코딩 수단, 및 NELP 인코딩 수단을 포함하는 가변 속도 코딩 시스템.
  22. 제20항에 있어서,
    상기 복수의 디코딩 수단은 CELP 디코딩 수단, PPP 디코딩 수단, 및 NELP 디코딩 수단을 포함하는 가변 속도 코딩 시스템.
  23. 제21항에 있어서,
    상기 인코딩 수단 각각은 미리 설정된 비트율에서 인코딩하는 가변 속도 코딩 시스템.
  24. 제23항에 있어서,
    상기 CELP 인코딩 수단은 8500bps 속도에서 인코딩하고, 상기 PPP 인코딩 수단은 3900bps 속도에서 인코딩하며, 상기 NELP 인코딩 수단은 1550bps 속도에서 인코딩하는 가변 속도 코딩 시스템.
  25. 제21항에 있어서,
    상기 복수의 인코딩 수단은 제로 레이트 인코딩 수단을 추가로 포함하고, 상기 복수의 디코딩 수단은 제로 레이트 디코딩 수단을 추가로 포함하는 가변 속도 코딩 시스템.
  26. 제19항에 있어서,
    활성 음성의 상기 복수 타입들은 유성음, 무성음, 및 트랜젼트 활성 음성을 포함하는 가변 속도 코딩 시스템.
  27. 제26항에 있어서,
    상기 음성이 활성 트랜젼트 음성으로 분류되면 상기 CELP 인코더가 선택되고, 상기 음성이 활성 유성음 음성으로 분류되면 상기 PPP 인코더가 선택되며, 상기 음성이 비활성 음성 또는 활성 무성음 음성으로 분류되면 상기 NELP 인코더가 선택되는 가변 속도 코딩 시스템.
  28. 제27항에 있어서,
    상기 인코딩된 음성 신호는 상기 CELP 인코더가 선택되면 코드북 파라미터들 및 피치 필터 파라미터들을 포함하고, 상기 PPP 인코더가 선택되면 코드북 파라미터들 및 회전 파라미터들을 포함하며, 상기 NELP 인코더가 선택되면 코드북 파라미터들을 포함하는 가변 속도 코딩 시스템.
  29. 제19항에 있어서,
    상기 분류 수단은 두개의 에너지 밴드 스래쉬홀딩 방식에 따라 음성을 활성 또는 비활성으로 분류하는 가변 속도 코딩 시스템.
  30. 제19항에 있어서,
    상기 분류 수단은 이전 Nho개의 프레임들이 활성으로 분류된 경우에는 다음 M 개의 프레임들을 활성으로 분류하는 가변 속도 코딩 시스템.
  31. 제19항에 있어서,
    상기 음성 신호는 선형 예측 코딩(LPC) 분석 필터로 상기 음성 신호를 필터링함으로써 발생된 잔류 신호에 의해 표현되고,
    상기 복수의 인코딩 수단은
    (i) 상기 잔류 신호의 에너지 추정을 계산하기 위한 에너지 추정기 수단; 및
    (ii) 상기 추정된 에너지로 근사화되는 코드벡터를 제1 코드북으로부터 선택하는 인코딩 코드북 수단을 포함하는 NELP 인코딩 수단을 포함하고,
    상기 복수의 디코딩 수단은
    (i) 랜덤 벡터를 발생시키는 랜덤 번호 발생기 수단;
    (ii) 제2 코드북으로부터 상기 코드벡터를 복원하는 디코딩 코드북 수단:
    (iii) 상기 코드벡터에 따라 상기 랜덤 벡터를 스케일링하여, 상기 스케일링된 랜덤 벡터의 에너지가 상기 추정에 근사화되도록 하는 곱셈기 수단; 및
    (iv) 상기 스케일링된 랜덤 벡터를 LPC 합성 필터로 필터링하여, 상기 필터링 및 스케일링된 랜덤 벡터가 상기 합성 음성 신호를 형성하도록 하는 수단을 포함하는 NELP 디코딩 수단을 포함하는 가변 속도 코딩 시스템.
  32. 제19항에 있어서,
    상기 음성 신호는 프레임들로 분할되고, 상기 프레임들 각각은 2개 또는 그 이상의 하위 프레임들을 포함하고, 상기 에너지 추정기 수단은 상기 하위 프레임의 각각에 대해 잔류 신호의 에너지 추정을 계산하며, 상기 코드벡터는 상기 하위 프레임들의 각각에 대한 상기 하위 프레임 추정에 근사화하는 값을 포함하는 가변 속도 코딩 시스템.
  33. 제19항에 있어서,
    상기 제1 코드북 및 제2 코드북은 통계적 코드북인 가변 속도 코딩 시스템.
  34. 제19항에 있어서,
    상기 제1 코드북 및 제2 코드북은 트래인된 코드북인 가변 속도 코딩 시스템.
  35. 제19항에 있어서,
    상기 랜덤 벡터는 단위 분산 랜덤 벡터를 포함하는 가변 속도 코딩 시스템.
KR1020017007895A 1998-12-21 1999-12-21 가변 속도 음성 코딩 KR100679382B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/217,341 1998-12-21
US09/217,341 US6691084B2 (en) 1998-12-21 1998-12-21 Multiple mode variable rate speech coding

Publications (2)

Publication Number Publication Date
KR20010093210A true KR20010093210A (ko) 2001-10-27
KR100679382B1 KR100679382B1 (ko) 2007-02-28

Family

ID=22810659

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020017007895A KR100679382B1 (ko) 1998-12-21 1999-12-21 가변 속도 음성 코딩

Country Status (11)

Country Link
US (3) US6691084B2 (ko)
EP (2) EP1141947B1 (ko)
JP (3) JP4927257B2 (ko)
KR (1) KR100679382B1 (ko)
CN (3) CN100369112C (ko)
AT (1) ATE424023T1 (ko)
AU (1) AU2377500A (ko)
DE (1) DE69940477D1 (ko)
ES (1) ES2321147T3 (ko)
HK (1) HK1040807B (ko)
WO (1) WO2000038179A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012002768A3 (ko) * 2010-07-01 2012-05-03 엘지전자 주식회사 오디오 신호 처리 방법 및 장치

Families Citing this family (111)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3273599B2 (ja) * 1998-06-19 2002-04-08 沖電気工業株式会社 音声符号化レート選択器と音声符号化装置
JP4438127B2 (ja) * 1999-06-18 2010-03-24 ソニー株式会社 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
FI116992B (fi) * 1999-07-05 2006-04-28 Nokia Corp Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US7054809B1 (en) * 1999-09-22 2006-05-30 Mindspeed Technologies, Inc. Rate selection method for selectable mode vocoder
JP2001102970A (ja) * 1999-09-29 2001-04-13 Matsushita Electric Ind Co Ltd 通信端末装置及び無線通信方法
US6715125B1 (en) * 1999-10-18 2004-03-30 Agere Systems Inc. Source coding and transmission with time diversity
US7263074B2 (en) * 1999-12-09 2007-08-28 Broadcom Corporation Voice activity detection based on far-end and near-end statistics
US7260523B2 (en) * 1999-12-21 2007-08-21 Texas Instruments Incorporated Sub-band speech coding system
CN1187735C (zh) * 2000-01-11 2005-02-02 松下电器产业株式会社 多模式话音编码装置和解码装置
EP1279167B1 (en) * 2000-04-24 2007-05-30 QUALCOMM Incorporated Method and apparatus for predictively quantizing voiced speech
US6584438B1 (en) 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
US6954745B2 (en) 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system
US7010483B2 (en) 2000-06-02 2006-03-07 Canon Kabushiki Kaisha Speech processing system
US7072833B2 (en) 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
US7035790B2 (en) 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
US6937979B2 (en) * 2000-09-15 2005-08-30 Mindspeed Technologies, Inc. Coding based on spectral content of a speech signal
CN1212605C (zh) * 2001-01-22 2005-07-27 卡纳斯数据株式会社 用于数字音频数据的编码方法和解码方法
FR2825826B1 (fr) * 2001-06-11 2003-09-12 Cit Alcatel Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede
US20030120484A1 (en) * 2001-06-12 2003-06-26 David Wong Method and system for generating colored comfort noise in the absence of silence insertion description packets
US20040199383A1 (en) * 2001-11-16 2004-10-07 Yumiko Kato Speech encoder, speech decoder, speech endoding method, and speech decoding method
US7546238B2 (en) 2002-02-04 2009-06-09 Mitsubishi Denki Kabushiki Kaisha Digital circuit transmission device
KR20030066883A (ko) * 2002-02-05 2003-08-14 (주)아이소테크 음성 재생 속도를 이용한 인터넷상에서의 학습 능력 향상장치 및 방법
US7096180B2 (en) * 2002-05-15 2006-08-22 Intel Corporation Method and apparatuses for improving quality of digitally encoded speech in the presence of interference
US7657427B2 (en) * 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7406096B2 (en) * 2002-12-06 2008-07-29 Qualcomm Incorporated Tandem-free intersystem voice communication
WO2004084467A2 (en) * 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Recovering an erased voice frame with time warping
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
US20050096898A1 (en) * 2003-10-29 2005-05-05 Manoj Singhal Classification of speech and music using sub-band energy
JP4089596B2 (ja) * 2003-11-17 2008-05-28 沖電気工業株式会社 電話交換装置
FR2867649A1 (fr) * 2003-12-10 2005-09-16 France Telecom Procede de codage multiple optimise
US20050216260A1 (en) * 2004-03-26 2005-09-29 Intel Corporation Method and apparatus for evaluating speech quality
KR101407429B1 (ko) * 2004-09-17 2014-06-17 코닌클리케 필립스 엔.브이. 지각적 왜곡을 최소화하는 복합 오디오 코딩
EP1815463A1 (en) * 2004-11-05 2007-08-08 Koninklijke Philips Electronics N.V. Efficient audio coding using signal properties
KR20070109982A (ko) * 2004-11-09 2007-11-15 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩 및 디코딩
US7567903B1 (en) 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization
CN100592389C (zh) * 2008-01-18 2010-02-24 华为技术有限公司 合成滤波器状态更新方法及装置
US20090210219A1 (en) * 2005-05-30 2009-08-20 Jong-Mo Sung Apparatus and method for coding and decoding residual signal
US7599833B2 (en) * 2005-05-30 2009-10-06 Electronics And Telecommunications Research Institute Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same
US7184937B1 (en) * 2005-07-14 2007-02-27 The United States Of America As Represented By The Secretary Of The Army Signal repetition-rate and frequency-drift estimator using proportional-delayed zero-crossing techniques
US8483704B2 (en) * 2005-07-25 2013-07-09 Qualcomm Incorporated Method and apparatus for maintaining a fingerprint for a wireless network
US8477731B2 (en) * 2005-07-25 2013-07-02 Qualcomm Incorporated Method and apparatus for locating a wireless local area network in a wide area network
CN100369489C (zh) * 2005-07-28 2008-02-13 上海大学 动态接入编码策略的嵌入式无线编码装置
US8259840B2 (en) * 2005-10-24 2012-09-04 General Motors Llc Data communication via a voice channel of a wireless communication network using discontinuities
EP1955320A2 (en) * 2005-12-02 2008-08-13 QUALCOMM Incorporated Systems, methods, and apparatus for frequency-domain waveform alignment
ATE475171T1 (de) * 2005-12-05 2010-08-15 Qualcomm Inc Verfahren und vorrichtung zur erkennung tonaler komponenten von audiosignalen
US8032369B2 (en) * 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
US8346544B2 (en) * 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
US8090573B2 (en) * 2006-01-20 2012-01-03 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
US20100161323A1 (en) * 2006-04-27 2010-06-24 Panasonic Corporation Audio encoding device, audio decoding device, and their method
US8682652B2 (en) * 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8532984B2 (en) 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
CN101145343B (zh) * 2006-09-15 2011-07-20 展讯通信(上海)有限公司 一种用于音频处理框架中的编码和解码方法
US8489392B2 (en) * 2006-11-06 2013-07-16 Nokia Corporation System and method for modeling speech spectra
CN100483509C (zh) * 2006-12-05 2009-04-29 华为技术有限公司 声音信号分类方法和装置
US8200483B2 (en) * 2006-12-15 2012-06-12 Panasonic Corporation Adaptive sound source vector quantization device, adaptive sound source vector inverse quantization device, and method thereof
US8279889B2 (en) 2007-01-04 2012-10-02 Qualcomm Incorporated Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
CN101320563B (zh) * 2007-06-05 2012-06-27 华为技术有限公司 一种背景噪声编码/解码装置、方法和通信设备
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
CN101325059B (zh) * 2007-06-15 2011-12-21 华为技术有限公司 语音编解码收发方法及装置
EP2198426A4 (en) * 2007-10-15 2012-01-18 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING A SIGNAL
US8600740B2 (en) * 2008-01-28 2013-12-03 Qualcomm Incorporated Systems, methods and apparatus for context descriptor transmission
KR101441896B1 (ko) * 2008-01-29 2014-09-23 삼성전자주식회사 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치
DE102008009720A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Dekodierung von Hintergrundrauschinformationen
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
US9327193B2 (en) 2008-06-27 2016-05-03 Microsoft Technology Licensing, Llc Dynamic selection of voice quality over a wireless system
KR20100006492A (ko) * 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
CN103000186B (zh) 2008-07-11 2015-01-14 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
KR101230183B1 (ko) * 2008-07-14 2013-02-15 광운대학교 산학협력단 오디오 신호의 상태결정 장치
GB2466670B (en) * 2009-01-06 2012-11-14 Skype Speech encoding
GB2466669B (en) * 2009-01-06 2013-03-06 Skype Speech coding
GB2466671B (en) * 2009-01-06 2013-03-27 Skype Speech encoding
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding
GB2466674B (en) * 2009-01-06 2013-11-13 Skype Speech coding
US8462681B2 (en) * 2009-01-15 2013-06-11 The Trustees Of Stevens Institute Of Technology Method and apparatus for adaptive transmission of sensor data with latency controls
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
CN101615910B (zh) 2009-05-31 2010-12-22 华为技术有限公司 压缩编码的方法、装置和设备以及压缩解码方法
CN101930426B (zh) * 2009-06-24 2015-08-05 华为技术有限公司 信号处理方法、数据处理方法及装置
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
US8452606B2 (en) * 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
US20110153337A1 (en) * 2009-12-17 2011-06-23 Electronics And Telecommunications Research Institute Encoding apparatus and method and decoding apparatus and method of audio/voice signal processing apparatus
CN102971789B (zh) 2010-12-24 2015-04-15 华为技术有限公司 用于执行话音活动检测的方法和设备
EP2671323B1 (en) * 2011-02-01 2016-10-05 Huawei Technologies Co., Ltd. Method and apparatus for providing signal processing coefficients
DK2975611T3 (en) * 2011-03-10 2018-04-03 Ericsson Telefon Ab L M FILLING OF UNCODED SUBVECTORS IN TRANSFORM CODED AUDIO SIGNALS
US8990074B2 (en) 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
WO2012177067A2 (ko) * 2011-06-21 2012-12-27 삼성전자 주식회사 오디오 신호 처리방법 및 장치와 이를 채용하는 단말기
US20130110522A1 (en) 2011-10-21 2013-05-02 Samsung Electronics Co., Ltd. Energy lossless-encoding method and apparatus, audio encoding method and apparatus, energy lossless-decoding method and apparatus, and audio decoding method and apparatus
KR20130093783A (ko) * 2011-12-30 2013-08-23 한국전자통신연구원 오디오 객체 전송 장치 및 방법
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
PL2922052T3 (pl) * 2012-11-13 2021-12-20 Samsung Electronics Co., Ltd. Sposób ustalania trybu kodowania
CN103915097B (zh) * 2013-01-04 2017-03-22 中国移动通信集团公司 一种语音信号处理方法、装置和系统
CN104517612B (zh) * 2013-09-30 2018-10-12 上海爱聊信息科技有限公司 基于amr-nb语音信号的可变码率编码器和解码器及其编码和解码方法
CN105096958B (zh) 2014-04-29 2017-04-12 华为技术有限公司 音频编码方法及相关装置
GB2526128A (en) * 2014-05-15 2015-11-18 Nokia Technologies Oy Audio codec mode selector
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
US10186276B2 (en) * 2015-09-25 2019-01-22 Qualcomm Incorporated Adaptive noise suppression for super wideband music
CN106160944B (zh) * 2016-07-07 2019-04-23 广州市恒力安全检测技术有限公司 一种超声波局部放电信号的变速率编码压缩方法
CN108932944B (zh) * 2017-10-23 2021-07-30 北京猎户星空科技有限公司 解码方法及装置
CN110390939B (zh) * 2019-07-15 2021-08-20 珠海市杰理科技股份有限公司 音频压缩方法和装置
US11715477B1 (en) * 2022-04-08 2023-08-01 Digital Voice Systems, Inc. Speech model parameter estimation and quantization

Family Cites Families (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3633107A (en) 1970-06-04 1972-01-04 Bell Telephone Labor Inc Adaptive signal processor for diversity radio receivers
JPS5017711A (ko) 1973-06-15 1975-02-25
US4076958A (en) 1976-09-13 1978-02-28 E-Systems, Inc. Signal synthesizer spectrum contour scaler
US4214125A (en) 1977-01-21 1980-07-22 Forrest S. Mozer Method and apparatus for speech synthesizing
CA1123955A (en) 1978-03-30 1982-05-18 Tetsu Taguchi Speech analysis and synthesis apparatus
DE3023375C1 (ko) 1980-06-23 1987-12-03 Siemens Ag, 1000 Berlin Und 8000 Muenchen, De
USRE32580E (en) 1981-12-01 1988-01-19 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech coder
JPS6011360B2 (ja) 1981-12-15 1985-03-25 ケイディディ株式会社 音声符号化方式
US4535472A (en) 1982-11-05 1985-08-13 At&T Bell Laboratories Adaptive bit allocator
EP0111612B1 (fr) 1982-11-26 1987-06-24 International Business Machines Corporation Procédé et dispositif de codage d'un signal vocal
US4764963A (en) * 1983-04-12 1988-08-16 American Telephone And Telegraph Company, At&T Bell Laboratories Speech pattern compression arrangement utilizing speech event identification
EP0127718B1 (fr) 1983-06-07 1987-03-18 International Business Machines Corporation Procédé de détection d'activité dans un système de transmission de la voix
US4672670A (en) 1983-07-26 1987-06-09 Advanced Micro Devices, Inc. Apparatus and methods for coding, decoding, analyzing and synthesizing a signal
US4937873A (en) 1985-03-18 1990-06-26 Massachusetts Institute Of Technology Computationally efficient sine wave synthesis for acoustic waveform processing
US4885790A (en) 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
US4856068A (en) 1985-03-18 1989-08-08 Massachusetts Institute Of Technology Audio pre-processing methods and apparatus
US4827517A (en) 1985-12-26 1989-05-02 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech processor using arbitrary excitation coding
US4797929A (en) 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates
JPH0748695B2 (ja) 1986-05-23 1995-05-24 株式会社日立製作所 音声符号化方式
US4899384A (en) 1986-08-25 1990-02-06 Ibm Corporation Table controlled dynamic bit allocation in a variable rate sub-band speech coder
US4771465A (en) 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
US4797925A (en) 1986-09-26 1989-01-10 Bell Communications Research, Inc. Method for coding speech at low bit rates
US5054072A (en) 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
US4890327A (en) 1987-06-03 1989-12-26 Itt Corporation Multi-rate digital voice coder apparatus
US4899385A (en) 1987-06-26 1990-02-06 American Telephone And Telegraph Company Code excited linear predictive vocoder
US4852179A (en) 1987-10-05 1989-07-25 Motorola, Inc. Variable frame rate, fixed bit rate vocoding method
US4896361A (en) 1988-01-07 1990-01-23 Motorola, Inc. Digital speech coder having improved vector excitation source
EP0331858B1 (en) 1988-03-08 1993-08-25 International Business Machines Corporation Multi-rate voice encoding method and device
EP0331857B1 (en) 1988-03-08 1992-05-20 International Business Machines Corporation Improved low bit rate voice coding method and system
US5023910A (en) 1988-04-08 1991-06-11 At&T Bell Laboratories Vector quantization in a harmonic speech coding arrangement
US4864561A (en) 1988-06-20 1989-09-05 American Telephone And Telegraph Company Technique for improved subjective performance in a communication system using attenuated noise-fill
US5222189A (en) 1989-01-27 1993-06-22 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
GB2235354A (en) 1989-08-16 1991-02-27 Philips Electronic Associated Speech coding/encoding using celp
JPH0398318A (ja) * 1989-09-11 1991-04-23 Fujitsu Ltd 音声符号化方式
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
BR9206143A (pt) 1991-06-11 1995-01-03 Qualcomm Inc Processos de compressão de final vocal e para codificação de taxa variável de quadros de entrada, aparelho para comprimir im sinal acústico em dados de taxa variável, codificador de prognóstico exitado por córdigo de taxa variável (CELP) e descodificador para descodificar quadros codificados
US5657418A (en) * 1991-09-05 1997-08-12 Motorola, Inc. Provision of speech coder gain information using multiple coding modes
JPH05130067A (ja) * 1991-10-31 1993-05-25 Nec Corp 可変閾値型音声検出器
US5884253A (en) * 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
US5341456A (en) * 1992-12-02 1994-08-23 Qualcomm Incorporated Method for determining speech encoding rate in a variable rate vocoder
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
IT1270438B (it) * 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce
JP3353852B2 (ja) * 1994-02-15 2002-12-03 日本電信電話株式会社 音声の符号化方法
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
TW271524B (ko) 1994-08-05 1996-03-01 Qualcomm Inc
JP3328080B2 (ja) * 1994-11-22 2002-09-24 沖電気工業株式会社 コード励振線形予測復号器
US5751903A (en) * 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
US5956673A (en) * 1995-01-25 1999-09-21 Weaver, Jr.; Lindsay A. Detection and bypass of tandem vocoding using detection codes
JPH08254998A (ja) * 1995-03-17 1996-10-01 Ido Tsushin Syst Kaihatsu Kk 音声符号化/復号化装置
JP3308764B2 (ja) * 1995-05-31 2002-07-29 日本電気株式会社 音声符号化装置
JPH0955665A (ja) * 1995-08-14 1997-02-25 Toshiba Corp 音声符号化装置
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
FR2739995B1 (fr) * 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
JP3092652B2 (ja) * 1996-06-10 2000-09-25 日本電気株式会社 音声再生装置
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
JP3531780B2 (ja) * 1996-11-15 2004-05-31 日本電信電話株式会社 音声符号化方法および復号化方法
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
JP3331297B2 (ja) * 1997-01-23 2002-10-07 株式会社東芝 背景音/音声分類方法及び装置並びに音声符号化方法及び装置
JP3296411B2 (ja) * 1997-02-21 2002-07-02 日本電信電話株式会社 音声符号化方法および復号化方法
US5995923A (en) * 1997-06-26 1999-11-30 Nortel Networks Corporation Method and apparatus for improving the voice quality of tandemed vocoders
US6104994A (en) * 1998-01-13 2000-08-15 Conexant Systems, Inc. Method for speech coding under background noise conditions
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
EP1279167B1 (en) * 2000-04-24 2007-05-30 QUALCOMM Incorporated Method and apparatus for predictively quantizing voiced speech
US6477502B1 (en) * 2000-08-22 2002-11-05 Qualcomm Incorporated Method and apparatus for using non-symmetric speech coders to produce non-symmetric links in a wireless communication system
US6804218B2 (en) * 2000-12-04 2004-10-12 Qualcomm Incorporated Method and apparatus for improved detection of rate errors in variable rate receivers
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
US8355907B2 (en) * 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
US8155965B2 (en) * 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
US20070026028A1 (en) 2005-07-26 2007-02-01 Close Kenneth B Appliance for delivering a composition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012002768A3 (ko) * 2010-07-01 2012-05-03 엘지전자 주식회사 오디오 신호 처리 방법 및 장치

Also Published As

Publication number Publication date
EP1141947A2 (en) 2001-10-10
US6691084B2 (en) 2004-02-10
HK1040807B (zh) 2008-08-01
AU2377500A (en) 2000-07-12
JP2013178545A (ja) 2013-09-09
US20040102969A1 (en) 2004-05-27
CN102623015B (zh) 2015-05-06
JP5373217B2 (ja) 2013-12-18
ATE424023T1 (de) 2009-03-15
EP1141947B1 (en) 2009-02-25
EP2085965A1 (en) 2009-08-05
CN100369112C (zh) 2008-02-13
JP4927257B2 (ja) 2012-05-09
CN1331826A (zh) 2002-01-16
DE69940477D1 (de) 2009-04-09
JP2002533772A (ja) 2002-10-08
US7496505B2 (en) 2009-02-24
ES2321147T3 (es) 2009-06-02
CN101178899A (zh) 2008-05-14
KR100679382B1 (ko) 2007-02-28
CN101178899B (zh) 2012-07-04
US20020099548A1 (en) 2002-07-25
WO2000038179A2 (en) 2000-06-29
CN102623015A (zh) 2012-08-01
WO2000038179A3 (en) 2000-11-09
JP2011123506A (ja) 2011-06-23
US20070179783A1 (en) 2007-08-02
US7136812B2 (en) 2006-11-14
HK1040807A1 (en) 2002-06-21

Similar Documents

Publication Publication Date Title
KR100679382B1 (ko) 가변 속도 음성 코딩
KR100615113B1 (ko) 주기적 음성 코딩
JP5412463B2 (ja) 音声信号内の雑音様信号の存在に基づく音声パラメータの平滑化
JP4270866B2 (ja) 非音声のスピーチの高性能の低ビット速度コード化方法および装置
US6081776A (en) Speech coding system and method including adaptive finite impulse response filter
KR20020052191A (ko) 음성 분류를 이용한 음성의 가변 비트 속도 켈프 코딩 방법
JP4874464B2 (ja) 遷移音声フレームのマルチパルス補間的符号化
EP1204968B1 (en) Method and apparatus for subsampling phase spectrum information
KR100550003B1 (ko) 상호부호화기에서 개회로 피치 추정 방법 및 그 장치
Drygajilo Speech Coding Techniques and Standards
JPH01258000A (ja) 音声信号符号化復号化方法並びに音声信号符号化装置及び音声信号復号化装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121227

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20131227

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20141230

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20151230

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20161229

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20171228

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20181227

Year of fee payment: 13