KR100804461B1 - 보이스화된 음성을 예측적으로 양자화하는 방법 및 장치 - Google Patents

보이스화된 음성을 예측적으로 양자화하는 방법 및 장치 Download PDF

Info

Publication number
KR100804461B1
KR100804461B1 KR1020027014234A KR20027014234A KR100804461B1 KR 100804461 B1 KR100804461 B1 KR 100804461B1 KR 1020027014234 A KR1020027014234 A KR 1020027014234A KR 20027014234 A KR20027014234 A KR 20027014234A KR 100804461 B1 KR100804461 B1 KR 100804461B1
Authority
KR
South Korea
Prior art keywords
component
error vector
target error
speech
quantized
Prior art date
Application number
KR1020027014234A
Other languages
English (en)
Other versions
KR20020093943A (ko
Inventor
아난싸파드마나브한아라사니팔라이케이
만주나쓰샤라쓰
후앙펑쥔
초이에디-룬티크
데자코앤드류피
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20020093943A publication Critical patent/KR20020093943A/ko
Application granted granted Critical
Publication of KR100804461B1 publication Critical patent/KR100804461B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/097Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Abstract

보이스화된 음성을 예측적으로 양자화하는 방법 및 장치는 파라미터 생성기와 양자화기를 구비한다. 파라미터 생성기는 보이스화된 음성과 같은 예측 음성의 프레임들로부터 파라미터들을 추출하고, 그 추출된 정보를 주파수-영역 표현으로 변환시키도록 구성되어 있다. 양자화기는 현재 프레임의 파라미터로부터 이전 프레임들의 파라미터들의 가중 합을 감산하도록 구성되어 있다. 양자화기는 차이 값을 양자화하도록 구성되어 있다. 프로토타입 추출기는 파라미터 생성기에 의해 처리되는 피치 주기 프로토타입을 먼저 추출하도록 부가될 수도 있다.
보이스화된 음성

Description

보이스화된 음성을 예측적으로 양자화하는 방법 및 장치{METHOD AND APPARATUS FOR PREDICTIVELY QUANTIZING VOICED SPEECH}
본 발명은 일반적으로 음성 처리 분야에 관한 것으로, 특히 보이스화된 음성을 예측적으로 양자화하는 방법 및 장치에 관한 것이다.
디지털 기술들에 의한 보이스 전송은 보편화되어 있으며, 특히 장거리 및 디지털 무선 전화 애플리케이션들에 있어서 그러하다. 이것은, 차례로, 재구성된 음성의 인지된 품질을 유지하면서 채널을 통하여 전송될 수 있는 최소 정보량을 결정하는 것에 관심을 불러일으켰다. 음성을 단순히 샘플링 및 계수화하여 전송하는 경우에, 종래의 아날로그 전화의 음성 품질을 얻는데 초 당 64 kilobit (kbps) 정도의 데이터 레이트가 요구된다. 그러나, 음성 분석에 후속하여, 수신기에서 적절하게 코딩하고, 전송하고 재합성하면, 데이터 레이트를 현저하게 감소시킬 수 있다.
음성 압축용 장치들은 많은 원격통신 분야에서 사용되고 있다. 예시적인 분야는 무선 통신이다. 무선 통신의 분야는 예를 들어, 무선 전화기, 페이징, 무선 로컬 루프, 셀룰라 및 PCS 전화 시스템과 같은 무선 텔레포니, 모바일 인터넷 프로토콜 (IP) 텔레포니, 및 위성 통신 시스템들 포함한 많은 애플리케이션들을 가 진다. 특히 중요한 애플리케이션은 이동 가입자용 무선 텔레포니이다.
예를 들어 FDMA (frequency division multiple access), TDMA (time division multiple access), 및 CDMA (code division multiple access) 를 포함한 무선 통신 시스템들에 대하여 다양한 공중 인터페이스들이 개발되고 있다. 이들과의 접속에 있어서, 예를 들어 AMPS (Advanced Mobile Phone Service), GSM (Global System for Mobile Communications), 및 IS-95 (Interim Standard 95) 를 포함한 다양한 국내 및 국제 표준들이 설정되어 있다. 예시적인 무선 텔레포니 통신 시스템은 CDMA (code division multiple access) 시스템이다. IS-95 표준 및 그 파생물들 즉, IS-95A, ANSI J-STD-008, IS-95B, 제안된 3 세대 표준 IS-95C, 및 IS-2000 등 (여기서는 집합적으로 IS-95 이라함) 은, TIA (Telecommunication Industry Association), 및 셀룰라 또는 PCS 텔레포니 통신 시스템들의 CDMA 공중 인터페이스의 사용을 특정하는 다른 공지의 표준화 단체들에 의해 보급되어 있다. IS-95 표준의 사용에 따라 실질적으로 구성되는 예시적인 무선 통신 시스템들은, 본 발명의 양수인에게 양도되며, 여기서 참조되는 미국 특허 제 5,103,459 호 및 제 4,901,307 호에 기재되어 있다.
인간의 음성 발생의 모델에 관한 파라미터들을 추출함으로써 음성을 압축하는 기술들을 사용하는 장치들을 음성 코더라 한다. 음성 코더는 입력 음성 신호를 시간 블록들, 즉 분석 프레임들로 분할한다. 통상적으로, 음성 코더들은 인코더와 디코더를 구비한다. 인코더는 입력 음성 프레임을 분석하여 임의의 관련 파라미터들을 추출한 후, 그 파라미터들을 2진화 표현, 즉 일련의 비트들 또 는 2 진 데이터 패킷으로 양자화한다. 상기 데이터 패킷들을 통신 채널을 통하여 수신기 및 디코더로 전송한다. 디코더는 그 데이터 패킷들을 처리하고, 이들을 비양자화하여 파라미터들을 생성하고, 그 비양자화된 파라미터들을 이용하여 음성 프레임들을 재합성한다.
음성 코더의 기능은 음성에 내재된 모든 자연적인 리던던시들을 제거함으로써, 상기 계수화된 음성 신호를 낮은 비트 레이트 신호로 압축하는 것이다. 디지털 압축은, 일련의 파라미터들을 이용하여 입력 음성 프레임을 나타내고 그리고 양자화를 이용하여 일련의 비트들을 가진 파라미터들을 나타냄으로써 달성된다. 입력 음성 프레임이 Ni 의 비트 수를 가지며, 음성 코더에 의해 생성된 데이터 패킷이 No 의 비트 수를 가지는 경우에, 음성 코더에 의해 달성되는 압축비는 Cr =Ni /No 이다. 문제는 타겟 압축비를 달성하면서 디코딩된 음성의 높은 보이스 품질을 유지하는 것이다. 음성 코더의 성능은, (1) 음성 모델, 또는 상술된 분석 및 합성 처리의 결합이 얼마나 잘 수행되느냐, 그리고 (2) 파라미터 양자화 처리가 프레임 당 No 비트의 타겟 비트 레이트에서 얼마나 잘 수행되는냐에 의존한다. 따라서, 음성 모델의 목적은 각 프레임의 작은 세트의 파라미터들을 이용하여 음성 신호의 실체 또는 타겟 보이스 품질을 포착하는 것이다.
아마도, 음성 코더의 설계시에 있어서 가장 중요한 것은 음성 신호를 기술하기 위하여 양호한 세트의 파라미터들 (벡터들을 포함) 을 검색하는 것이다. 양호한 세트의 파라미터들은 인지가능한 정확한 음성 신호를 재구성하기 위하여 작은 시스템 대역폭을 필요로한다. 피치, 신호 전력, 스펙트럼 엔벨로프 (또는 포르만트(formant)), 진폭 스펙트럼, 및 위상 스펙트럼들은 음성 코딩 파라미터들의 일례이다.
음성 코더들은 시간 영역 코더들로 구현될 수 있으며, 상기 시간 영역 코더들은 큰 시간 해상도 처리를 이용하여 한 번에 음성의 작은 세그먼트들 (통상적으로 5 밀리초 (ms) 의 서브프레임들) 을 인코딩함으로써, 시간-영역 음성 파형을 포착한다. 각 서브프레임에 있어서, 코드북 스페이스로부터 높은 정밀도의 대표원소가 종래 기술에 공지된 다양한 검색 알고리즘들에 의해 발견된다. 선택적으로, 음성 코더들은 주파수 영역 코더들로서 구현될 수 있으며, 상기 주파수 영역 코더는 일련의 파라미터들 (분석) 을 이용하여 입력 음성 프레임의 단기 음성 스펙트럼을 포착하고, 해당 합성 처리를 이용하여 스펙트럼 파라미터들로부터 음성 파형을 재 생성하려 한다. 파라미터 양자화기는 A. Gersho & R.M. Gray 에 의해 기고된 논문 "Vector Quantization and Signal Compression (1992)" 에 기재되어 있는 공지의 양자화 기술들에 따라, 파라미터들을 코드 벡터들의 기억된 표현으로 나타냄으로써 상기 파라미터들을 보존한다.
공지된 시간-영역 음성 코더는, 여기서 참조되며 L.B. Rabiner & R.W. Schafer 에 의해 기고된 논문 "Digital Processing of Speech Signals 396-453 (1978)" 에 기재되어 있는 CELP (Code Excited Linear Predictive) 코더이다. CELP 코더에 있어서, 음성 신호내의 단기 상관 (correlation)들 또는 리던던시들은 단기 포르만트 필터의 계수들을 찾는 LP (linear prediction) 분석에 의해 제거된 다. 입력 음성 프레임에 단기 예측 필터를 인가하여 LP 잔여 신호를 생성하고, 이 LP 잔여 신호를 장기 예측 필터 파라미터들 및 후속 확률 코드북을 이용하여 추가적으로 모델링하고 양자화한다. 따라서, CELP 코딩은 시간-영역 음성 파형을 인코딩하는 작업을 개별적으로 LP 단기 필터 계수들을 인코딩하는 작업과 LP 잔여를 인코딩하는 작업으로 분리한다. 시간-영역 코딩은 고정된 레이트 (즉, 각 프레임에 대하여 동일한 비트 수 N0 를 이용하여) 또는 가변 레이트 (서로 다른 타입들의 프레임 컨텐츠에 대하여 서로 다른 비트 레이트들을 사용하여) 에서 수행될 수 있다. 가변-레이트 코더들은 타겟 품질을 얻기에 적당한 레벨로 코덱 파라미터들을 인코딩할 필요가 있는 비트량만을 이용하려 한다. 예시적인 가변 레이트 CELP 코더는 본 발명의 양수인에게 양도되며, 여기서 참조되는 미국 특허 제 5,414,796 호에 기재되어 있다.
통상적으로, CELP 코더와 같은 시간 영역 코더들은 시간 영역 음성 파형의 정밀도를 유지하기 위하여 프레임 당 비트 수 N0 에 의존한다. 통상적으로, 이러한 코더들은 프레임 당 비트 수 N0 를 비교적 크게 제공하여 우수한 보이스 품질을 나타낸다. 그러나, 낮은 비트 레이트 (4 kbps 이하) 에서, 시간-영역 코더들은 제한된 개수의 이용가능한 비트들에 의해, 높은 품질과 견고한 성능을 유지하지는 못 한다. 낮은 비트 레이트들에 있어서, 제한된 코드북 스페이스는 더 높은 레이트의 상업 애플리케이션들에 성공적으로 배치되는 종래의 시간-영역 코더들의 파형-매치 능력을 제한한다. 그러므로, 시간에 대한 개선사항에도 불구하 고, 낮은 비트 레이트들에서 동작하는 많은 CELP 코딩 시스템들은 인식가능하게 현저히 왜곡되며, 상기 왜곡은 통상적으로 노이즈로서 특성화된다.
따라서, 매체에서 낮은 비트 레이트 (즉, 2.4 내지 4 kbps 이하의 범위에서) 로 동작하는 높은 품질의 음성 코더를 개발하기 위한 연구 의욕과 강한 상업적 필요성이 고조된다. 상기 애플리케이션 영역들은 무선 텔레포니, 위성 통신, 인터넷 텔레포니, 다양한 멀티미디어와 보이스-스트리밍 애플리케이션들, 보이스 메일, 및 그 밖의 보이스 저장 시스템들을 포함한다. 패킷 손실 상태하에서의 견고한 성능에 대한 요구 및 큰 용량에 대한 필요성이 추진력이 된다. 다양한 최근의 음성 코딩 표준화 운동은 낮은 레이트의 음성 코딩 알고리즘들의 연구 및 발전을 추진하는 또 다른 직접적인 추진력이된다. 낮은 레이트의 음성 코더는 허용가능한 애플리케이션 대역폭 당 더 많은 채널들 또는 사용자들을 생성하고, 채널 코딩에 적합한 부가적인 층과 연결되는 낮은 레이트의 음성 코더는 코더 명세들의 전체 비트 예산을 적합하게 하고, 채널 에러 조건들 하에서 견고한 성능을 제공한다.
낮은 비트 레이트들에서 효과적으로 음성을 인코딩하는 유효한 하나의 기술은 멀티모드 코딩이다. 예시적인 멀티모드 코딩 기술은 명칭이 "VARIABLE RATE SPEECH CODING" 으로, 1998년 12월 21일자로 출원되고, 본 발명의 양수인에게 양도되며, 여기서 참조되는 미국 특허 출원 제 09/217,341 호에 기재되어 있다. 종래의 멀티모드 코더들은 서로 다른 타입들의 입력 음성 프레임들에 서로 다른 모드들 또는 인코딩-디코딩 알고리즘들을 적용한다. 각각의 모드 또는 인코딩-디코딩 처리는 가장 효과적인 방식으로 예를 들어 보이스화된 음성, 비보이스화된 음성, 과도 음성 (예를 들어, 보이스화된 음성과 비보이스화된 음성 사이의 음성), 및 백그라운드 노이즈 (침묵 즉, 비음성) 와 같은 소정의 타입의 음성 세그먼트를 최적으로 나타내도록 맞추어진다. 외부, 오픈-루프 모드 결정 메카니즘은 입력 음성 프레임을 조사하고, 상기 프레임에 어떤 모드를 인가할 것인가에 관한 결정을 행한다. 통상적으로, 오픈-루프 모드 결정은 입력 프레임으로부터 다수의 파라미터들을 추출하고, 임의의 시간 및 스펙트럼 특성들에 대한 파라미터들을 추정하고, 그리고 추정시의 모드 결정에 기초하여 수행된다.
일반적으로, 2.4 kbps 정도의 레이트에서 동작하는 코딩 시스템들은 실제로 파라메트릭하다. 즉, 이러한 코딩 시스템들은 정규 간격들로 음성 신호의 스펙트럼 엔벨로프 (또는 포르만트) 및 피치-주기를 기술하는 파라미터들을 전송함으로써 동작한다. 이러한 소위 파라메트릭 코더들의 일례는 LP 보코더 시스템이다.
LP 보코더들은 피치 주기 당 단일 펄스를 가진 보이스화된 음성 신호를 모델링한다. 이러한 기본 기술은 그 중에서도 스펙트럼 엔벨로프에 대한 전송 정보를 포함하도록 증대될 수 있다. 통상적으로, LP 보코더들이 적합한 성능을 제공하지만, 이들은 인식가능하게 현저히 왜곡되고, 상기 왜곡은 통상적으로 버즈 (buzz) 로서 특성화된다.
최근에, 파형 코더들 및 파라메트릭 코더들의 합성물인 코더들이 등장하였다. 이러한 소위 하이브리드 코더들의 일례는 PWI (prototype-waveform interpolation) 음성 코딩 시스템이다. 또한, PWI 코딩 시스템은 PPP (prototype pitch period) 음성 코더로서 공지되어 있다. PWI 코딩 시스템은 보이스화된 음성을 코딩하는 효과적인 방법을 제공한다. PWI의 기본 컨셉은 고정된 간격들로 대표적인 피치 사이클 (프로토타입 파형) 을 추출하고, 이에 대한 설명을 전송하고, 그리고 프로토타입 파형들 사이를 보간함으로써 음성 신호를 재구성하는 것이다. PWI 방법은 LP 잔여 신호 또는 음성 신호 중 어느 한 쪽으로 동작할 수 있다. 예시적인 PWI, 즉 PPP, 음성 코더는 명칭이 "PERIODIC SPEECH CODING"으로, 1998 년 12월 21 일자로 출원되고, 본 발명의 양수인에게 양도되며, 여기서 참조되는 미국 특허 출원 제 09/217,494 호에 기재되어 있다. 그 밖의 PWI, 즉 PPP, 음성 코더들은 W. Bastiaan Kleijn & Wolfgang Granzow 에 의해 기고된 논문 "Methods for Waveform Interpolation in Speech Coding, in 1 Digital Signal Processing 215-230 (1991)" 및 미국 특허 제 5,884, 253 호에 기재되어 있다.
종래의 음성 코더들에 있어서, 소정의 피치 프로토타입 또는 소정의 프레임의 파라미터들은 각각 개별적으로 양자화되어, 인코더에 의해 전송된다. 또한, 각각의 파라미터에 대한 차이 값을 전송한다. 차이 값은 현재 프레임 또는 프로토타입에 대한 파라미터 값과 이전의 프레임 또는 프로토타입에 대한 파라미터 값 사이의 차이를 특정한다. 그러나, 파라미터 값들 및 차이 값들을 양자화하는데 비트들 (이하, 대역폭) 을 이용해야 한다. 낮은 비트 레이트의 음성 코더에 있어서, 만족스런 보이스 품질을 유지할 수 있는 최소 비트들을 전송하는 것이 바람직하다. 이러한 이유 때문에, 종래의 낮은 비트 레이트의 음성 코더들에 있어서는, 단지 순수 파라미터 값들만을 양자화하여 전송한다. 또한, 정보 값을 감소시키지 않고 전송된 비트 수를 감소시키는 것이 바람직하다. 따라서, 음성 코더의 비트 레이트를 감소시키는, 보이스화된 음성을 양자화하는 에측 방식이 요구된다.
본 발명은 음성 코더의 비트 레이트를 감소시키는 보이스화된 음성을 양자화하는 예측 방식에 관한 것이다. 따라서, 본 발명의 일 태양에 있어서, 음성의 파라미터에 대한 정보를 양자화하는 방법을 제공한다. 상기 방법은 바람직하게도 적어도 하나의 이전에 처리된 음성의 프레임에 대하여 적어도 하나의 상기 파라미터의 가중값을 생성하는 단계로서, 사용되는 모든 가중값들의 합이 1 되는 상기 생성 단계; 현재 처리되는 음성의 프레임에 대한 파라미터의 값으로부터 상기 적어도 하나의 가중값을 감산하여 차이 값을 산출하는 단계; 및 상기 차이 값을 양자화하는 단계를 포함한다.
본 발명의 또 다른 태양에 있어서, 음성의 파라미터에 대한 정보를 양자화하도록 구성되는 음성 코더를 제공한다. 음성 코더는 바람직하게도 적어도 하나의 이전에 처리된 음성의 프레임에 대하여 적어도 하나의 상기 파라미터의 가중값을 생성하는 수단으로서, 사용되는 모든 가중값들의 합은 1 이 되는, 상기 생성 수단; 현재 처리되는 음성의 프레임에 대한 파라미터의 값으로부터 상기 적어도 하나의 가중값을 감산하여 차이 값을 산출하는 수단; 및 상기 차이 값을 양자화하는 수단을 포함한다.
본 발명의 또 다른 태양에 있어서, 음성의 파라미터에 대한 정보를 양자화하도록 구성되는 인프라스트럭쳐 엘리먼트를 제공한다. 인프라스트럭쳐 엘리먼트는 바람직하게도 적어도 하나의 이전에 처리된 음성의 프레임에 대하여 적어도 하나의 파라미터의 가중값을 생성하도록 구성되는 파라미터 생성기로서, 사용되는 모든 가중값들의 합은 1 이 되는 상기 파라미터 생성기; 및 현재 처리되는 음성의 프레임에 대한 파라미터의 값으로부터 상기 적어도 하나의 가중값을 감산하고 차이 값을 산출하여, 상기 차이 값을 양자화하도록 구성되며 상기 파라미터 생성기에 연결되는 양자화기를 구비한다.
본 발명의 또 다른 태양에 있어서, 음성의 파라미터에 대한 정보를 양자화하도록 구성되는 가입자 유닛을 제공한다. 가입자 유닛은 바람직하게도 프로세서; 적어도 하나의 이전에 처리된 음성의 프레임에 대하여 적어도 하나의 상기 파라미터의 가중값을 생성하며, 현재 처리되는 음성의 프레임에 대한 상기 파라미터의 값으로부터 상기 적어도 하나의 가중값을 감산하고 차이 값을 생성하여 상기 차이 값을 양자하도록, 상기 프로세서에 의해 실행되는 일련의 명령들을 포함하며 상기 프로세서에 연결되는 저장 매체를 포함하며, 여기서 사용되는 모든 가중값들의 합은 1 이 된다.
본 발명의 또 다른 태양에 있어서, 음성의 위상 파라미터에 대한 정보를 양자화하는 방법을 제공한다. 상기 방법은 바람직하게도 적어도 하나의 이전에 처리된 음성의 프레임에 대하여 적어도 하나의 위상 파라미터의 변경된 값을 생성하는 단계; 상기 적어도 하나의 변경된 값에 0 과 동일하거나 그 보다 큰 수의 위 상 시프트들을 인가하는 단계; 현재 처리되는 음성의 프레임에 대한 위상 파라미터의 값으로부터 상기 적어도 하나의 변경된 값을 감산하여 차이 값을 산출하는 단계; 및 상기 차이 값을 양자화하는 단계를 포함한다.
본 발명의 또 다른 태양에 있어서, 음성의 위상 파라미터에 대한 정보를 양자화하도록 구성되는 음성 코더를 제공한다. 음성 코더는 바람직하게도 적어도 하나의 이전에 처리된 음성의 프레임에 대하여 적어도 하나의 상기 위상 파라미터의 변경된 값을 생성하는 수단; 상기 적어도 하나의 변경된 값에 0 과 동일하거나 그 보다 큰 수의 위상 시프트들을 인가하는 수단; 현재 처리되는 음성의 프레임에 대한 위상 파라미터의 값으로부터 상기 적어도 하나의 변경된 값을 감산하여 차이 값을 산출하는 수단; 및 상기 차이 값을 양자화하는 수단을 포함한다.
본 발명의 또 다른 태양에 있어서, 음성의 위상 파라미터에 대한 정보를 양자화하도록 구성되는 가입자 유닛을 제공한다. 가입자 유닛은 바람직하게도 프로세서; 적어도 하나의 이전에 처리된 음성의 프레임에 대하여 적어도 하나의 상기 위상 파라미터의 변경된 값을 생성하고, 상기 적어도 하나의 변경된 값에 0 과 동일하거나 그 보다 큰 수의 위상 시프트들을 인가하고, 현재 처리되는 음성의 프레임에 대한 파라미터의 값으로부터 적어도 하나의 변경된 값을 감산하고 차이 값을 산출하여 상기 차이 값을 양자화하도록 상기 프로세서에 의해 실행되는 일련의 명령들을 포함하며 상기 프로세서에 연결되는 저장 매체를 포함한다.
도 1 은 무선 전화 시스템의 블록도이다.
도 2 는 음성 코더들의 각 단부에서 종료되는 통신 채널의 블록도이다.
도 3 은 음성 인코더의 블록도이다.
도 4 는 음성 디코더의 블록도이다.
도 5 는 인코더/송신기 및 디코더/수신기 부분들을 포함하는 음성 코더의 블록도이다.
도 6 은 보이스화된 음성의 세그먼트에 있어서, 신호 진폭 대 시간의 그래프이다.
도 7 은 음성 인코더에 사용될 수 있는 양자화기의 블록도이다.
도 8 은 저장 매체에 연결되는 프로세서의 블록도이다.
이하에 설명된 예시적인 실시예들은 CDMA 공중 인터페이스를 사용하도록 구성되어 있는 무선 텔레포니 통신에 포함된다. 그럼에도 불구하고, 당업자라면 본 발명의 특징들을 구현하여 보이스화된 음성을 예측적으로 코딩하기 위한 방법 및 장치가, 당업자에게 공지된 넓은 기술 범위를 이용하는 임의의 다양한 통신 시스템들에 포함된다고 알 수 있을 것이다.
도 1 에 나타낸 바와 같이, CDMA 무선 전화 시스템은 일반적으로 복수의 이동 가입자 유닛 (10), 복수의 기지국 (12), BSC (base station controller) (14), 및 MSC (mobile switching center)(16) 를 구비한다. MSC (16) 는 종래의 PSTN (public switch telephone network) (18) 와 인터페이스화하도록 구성되어 있다. 또한, MSC (16) 는 BSC (14) 들과 인터페이스화하도록 구성되어 있다. BSC (14) 들은 백홀 (back haul) 라인들을 통하여 기지국 (12) 들에 연결된다. 백홀 라인들은 예를 들어 E1/T1, ATM, IP, PPP, 프레임 릴레이, HDSL, ADSL, 또는 xDSL을 포함한 임의의 일부 공지된 인터페이스들을 지원하도록 구성될 수도 있다. 시스템내에 2 개 이상의 BSC (14) 가 존재할 수 있음을 알 수 있다. 각 기지국 (12) 은 바람직하게도 하나 이상의 섹터 (도시되지 않음) 를 포함하는데, 각 섹터는 기지국 (12) 으로부터 방사상으로 떨어져 특정 방향에 표시되는 안테나 또는 전방향성 안테나를 포함한다. 선택적으로, 각 섹터는 다이버시티 수신을 위하여 2 개의 안테나를 구비할 수도 있다. 각 기지국 (12) 은 바람직하게도 복수의 주파수 할당을 지원하도록 설계될 수 있다. 섹터의 교차점 및 주파수 할당은 CDMA 채널로서 지칭될 수도 있다. 또한, 기지국 (12) 들은 BTS (base station transceiver subsystem) (12) 들로도 공지되어 있다. 선택적으로, 산업계에서 BSC (14) 및 하나 이상의 BTS (12) 를 집합적으로 "기지국" 으로 지칭하도록 사용할 수도 있다. 또한, BTS (12) 들을 "셀 사이트" (12) 들로 나타낼 수도 있다. 선택적으로, 소정의 BTS (12) 의 개별 섹터들은 셀 사이트로 지칭될 수도 있다. 통상적으로, 이동 가입자 유닛 (10) 들은 셀룰라 또는 PCS 전화기 (10) 이다. 시스템은 바람직하게도 IS-95 표준에 따라 사용되도록 구성되어 있다.
셀룰라 전화 시스템의 통상의 동작시에, 기지국 (12) 은 일련의 이동 유닛 (12) 들로부터 일련의 역방향 링크 신호들을 수신한다. 이동 유닛 (10) 들은 전화 호출들 또는 그 밖의 통신들을 수행한다. 소정의 기지국 (12) 에 의해 수신된 각각의 역방향 링크 신호를 그 기지국 (12) 내에서 처리한다. 그 결과로 발생된 데이터를 BSC (14) 들로 포워드한다. BSC (14) 는 기지국 (12) 들간의 소프트 핸드오프들의 조정을 포함하여 호 자원 할당 및 이동 관리 기능을 제공한다. 또한, BSC (14) 는 수신된 데이터를 MSC (16) 로 라우팅하고, 상기 MSC (16) 는 PSTN (18) 과의 인터페이스화를 위하여 부가적인 라우팅 서비스들을 제공한다. 유사하게도, PSTN (18) 은 MSC (16) 와 인터페이스화하고, MSC (16) 는 BSC (14) 들과 인터페이스화하며, 상기 BSC (14) 들은 일련의 순방향 링크 신호들을 일련의 이동 유닛 (10) 들로 전송하기 위하여 기지국 (12) 들을 교대로 제어한다. 당업자라면 가입자 유닛 (10) 들이 선택적인 실시예들에 있어서 고정된 유닛들임을 알 수 있을 것이다.
도 2 에 있어서, 제 1 인코더 (100) 는 계수화된 음성 샘플들 s(n) 을 수신하고 그 샘플들 s(n) 을 인코딩하여 전송 매체 (102) 즉, 통신 채널 (102) 을 통하여 제 1 디코더 (104) 에 전송한다. 디코더 (104) 는 인코딩된 음성 샘플들을 디코딩하고, 출력 음성 신호 sSYNTH(n) 을 합성한다. 반대 방향으로 전송하기 위하여, 제 2 인코더 (106) 는 계수화된 음성 샘플들 s(n) 을 인코딩하고, 이를 통신 채널 (108) 상에 전송한다. 제 2 디코더 (110) 는 인코딩된 음성 샘플들을 수신하고 디코딩하여, 합성된 출력 음성 신호 sSYNTH(n) 를 생성한다.
음성 샘플들 s(n) 은 예를 들어 PCM (pulse code modulation), 압신 (companded) μlaw 또는 A-law 를 포함한 종래 기술에 공지된 임의의 다양한 방법들에 따라 계수화되고 양자화된 음성 신호들을 나타낸다. 당해 분야에 공지된 바와 같이, 음성 샘플들 s(n) 은 입력 데이터의 프레임들로 조직화되며, 여기서 각 프레임은 소정 수의 계수화된 음성 샘플들 s(n) 을 포함한다. 예시적인 실시예에 있이서, 20 ms 마다 160 개의 샘플들을 포함하는 프레임에 대하여, 8 ㎑ 의 샘플링 레이트를 사용한다. 이하에 기술된 실시예들에 있어서, 데이터 전송 레이트는 바람직하게도 풀 레이트에서부터 1/2 레이트 또는 1/4 레이트 또는 1/8 레이트로 프레임간 기초에 따라 변동될 수 있다. 비교적 작은 음성 정보를 포함하는 프레임들에 대하여 더 낮은 비트 레이트들을 선택적으로 사용할 수 있으므로, 데이터 전송 레이트를 변동시키는 것이 바람직하다. 당업자라면 알 수 있는 바와 같이, 다른 샘플링 레이트들 및/또는 프레임 크기들을 사용할 수도 있다. 또한, 이하에 기술되는 실시예들에 있어서, 음성 인코딩 (또는 코딩) 모드는 음성 정보 또는 프레임의 에너지에 응답하여 프레임간 기초에 따라 변동될 수도 있다.
제 1 인코더 (100) 와 제 2 디코더 (110) 는 모두 제 1 음성 코더 (인코더/디코더) 또는 음성 코덱을 구비한다. 음성 코더는 예를 들어 도 1 을 참조하여 상술한 바와 같이 가입자 유닛들, BTS들, 또는 BSC 들을 포함하는 음성 신호들을 전송하는 임의의 통신 장치에 사용될 수도 있다. 유사하게도, 제 2 인코더 (106) 와 제 1 디코더 (104) 는 모두 제 2 음성 코더를 구비한다. 음성 코더들은 DSP (digital signal processor), ASIC (application-specific integrated circuit), 이산 게이트 로직, 펌웨어, 또는 임의의 종래 프로그램가능한 소프트웨어 모듈 및 마이크로프로세서를 사용하여 구현될 수도 있음을 당업자라면 알 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, 레지스터들 또는 당해 분 야에 공지된 임의의 다른 형태의 저장 매체에 포함될 수 있다. 선택적으로, 임의의 종래 프로세서, 제어기, 또는 상태 머신은 마이크로프로세서로 대체될 수 있다. 음성 코딩을 위하여 특별히 설계된 예시적인 ASIC 들은 본 발명의 양수인에게 양도되며, 여기서 참조되는 미국 특허 제 5,727,123 호 및 명칭이 "VOCODER ASIC" 으로 1994 년 2 월 16 일에 출원되고 본 발명의 양수인에게 양도되며 여기서 참조되는 미국 특허출원 제 08/197,417 호에 기재되어 있다.
도 3 에 있어서, 음성 코더에 사용될 수 있는 인코더 (200) 는 모드 결정 모듈 (202), 피치 추정 모듈 (204), LP 분석 모듈 (206), LP 분석 필터 (208), LP 양자화 모듈 (210), 및 잔여 양자화 모듈 (212) 을 포함한다. 입력 음성 프레임 s(n) 들은 모드 결정 모듈 (202), 피치 추정 모듈 (204), LP 분석 모듈 (206), 및 LP 분석 필터 (208) 에 제공된다. 모드 결정 모듈 (202) 는 각각의 입력 음성 프레임 s(n) 의 다른 특징들중에서 주기성, 에너지, 신호 대 잡음비 (SNR), 또는 부호 변환 레이트에 기초하여, 모드 인덱스 IM 와 모드 M 을 생성한다. 주기성에 따라 음성 프레임들을 분류하는 다양한 방법들이, 본 발명의 양수인에게 양도되며, 여기서 참조되는 미국 특허 제 5,911,128 호에 기재되어 있다. 또한, 이러한 방법들은 원격통신 산업협회 잠정 표준들 TIA/EIA IS-127 및 TIA/EIA IS-733 에 통합되어 있다. 또한, 모드 결정 방식의 예가 상술한 미국 특허출원 제 09/217,341 호에 기재되어 있다.
피치 추정 모듈 (204) 은 각각의 입력 음성 프레임 s(n) 에 기초하여 피치 인덱스 Ip 와 래그 (lag) 값 P0 을 생성한다. LP 분석 모듈 (206) 은 각각의 입력 음성 프레임 s(n) 에 대한 선형 예측 분석을 수행하여 LP 파라미터 a 를 생성한다. LP 파라미터 a 를 LP 양자화 모듈 (210) 에 제공한다. 또한, LP 양자화 모듈 (210) 은 모드 M 을 수신하여, 모드 의존 방식으로 양자화 처리를 수행한다. LP 양자화 모듈 (210) 은 LP 인덱스 ILP 및 양자화된 LP 파라미터
Figure 112002034820586-pct00001
를 생성한다. LP 분석 필터 (208) 는 입력 음성 프레임 s(n) 에 더하여 상기 양자화된 LP 파라미터
Figure 112002034820586-pct00002
를 수신한다. LP 분석 필터 (208) 는 상기 양자화된 선형 예측 파라미터
Figure 112002034820586-pct00003
들에 기초하여 재구성된 음성과 입력 음성 프레임들 s(n) 사이의 에러를 나타내는 LP 잔여 신호 R[n] 를 생성한다. LP 잔여 신호 R[n], 모드 M, 및 양자화된 LP 파라미터
Figure 112002034820586-pct00004
를 잔여 양자화 모듈 (212) 에 제공한다. 이러한 값들에 기초하여, 잔여 양자화 모듈 (212) 은 잔여 인덱스 IR 및 양자화된 잔여 신호
Figure 112002034820586-pct00005
를 생성한다.
도 4 에 있어서, 음성 코더내에 사용되는 디코더 (300) 는 LP 파라미터 디코딩 모듈 (302), 잔여 디코딩 모듈 (304), 모드 디코딩 모듈 (306), 및 LP 합성 필터 (308) 를 포함한다. 모드 디코딩 모듈 (306) 은 모드 인덱스 IM 을 수신하고 디코딩하여, 모드 M 을 생성한다. LP 파라미터 디코딩 모듈 (302) 은 모드 M 과 LP 인덱스 ILP 를 수신한다. LP 파라미터 디코딩 모듈 (302) 은 그 수신된 값 들을 디코딩하여 양자화된 LP 파라미터
Figure 112002034820586-pct00006
를 생성한다. 잔여 디코딩 모듈 (304) 은 잔여 인덱스 IR, 피치 인덱스 IP, 및 모드 인덱스 IM 를 수신한다. 잔여 디코딩 모듈 (304) 은 그 수신된 값들을 디코딩하여 양자화된 잔여 신호
Figure 112002034820586-pct00007
를 생성한다. 양자화된 잔여 신호
Figure 112002034820586-pct00008
와 양자화된 LP 파라미터
Figure 112002034820586-pct00009
를 LP 합성 필터 (308) 에 제공하여, 디코딩된 출력 음성 신호
Figure 112002034820586-pct00010
를 합성한다.
도 3 의 인코더 (200) 와 도 4 의 디코더 (300) 의 다양한 모듈들의 동작 및 구현은, 당해 분야에 공지되어 있으며, 상술한 미국 특허 제 5,414,796 호 및 L.B Rabiner & R.W. Schafer 에 의해 기고된 논문 "Digital Processing of Speech Signals 396-453 (1978)" 에 기재되어 있다.
일 실시예에 있어서, 다중모드 음성 인코더 (400) 는 통신 채널 즉, 전송 매체 (404) 를 통하여 다중모드 음성 디코더 (402) 와 통신한다. 통신 채널 (404) 은 바람직하게도 IS-95 표준에 따라 구성되는 RF 인터페이스이다. 당업자라면 인코더 (400) 가 연관 디코더 (도시되지 않음) 를 가짐을 알 수 있다. 인코더 (400) 및 그 연관 디코더는 함께 제 1 음성 코더를 형성한다. 또한, 당업자라면 디코더 (402) 가 연관 인코더 (도시되지 않음) 를 가짐을 알 수 있다. 디코더 (402) 와 그 연관 인코더는 함께 제 2 음성 코더를 형성한다. 제 1 및 제 2 음성 코더들은 바람직하게도 제 1 및 제 2 DSP의 부분으로서 구현될 수 있으며, 예를 들어 PCS 또는 셀룰라 전화 시스템내의 가입자 유닛 및 기지국, 또는 위 성 시스템내의 가입자 유닛 및 게이트웨이에 포함될 수도 있다.
인코더 (400) 는 파라미터 계산기 (406), 모드 분류 모듈 (408), 복수의 인코딩 모드 (410), 및 패킷 포맷팅 모듈 (412) 을 포함한다. 인코딩 모듈 (410) 들의 개수를 n 으로 나타내며, 당업자라면 임의의 적당한 개수의 인코딩 모드 (410) 들을 나타낼 수 있음을 알 수 있다. 간략화를 위하여, 그 밖의 인코딩 모드 (410) 들의 존재를 점선을 사용하여 나타내고, 단지 3 개의 인코딩 모드 (410) 만을 도시하였다. 디코더 (402) 는 패킷 역 어셈블러와 패킷 손실 검출기 모듈 (414), 복수의 디코딩 모드 (416), 소거 디코더 (418), 및 포스트 필터 즉, 음성 합성기 (420) 를 포함한다. 디코딩 모드 (416) 의 개수를 n 으로 나타내며, 당업자라면 임의의 적당한 개수의 디코딩 모드 (416) 들을 나타낼 수 있음을 알 수 있다. 간략화를 위해, 그 밖의 디코딩 모드 (416) 들의 존재를 점선을 사용하여 나타내고, 단지 3 개의 디코딩 모드 (416) 만을 도시하였다.
음성 신호 s(n) 는 파라미터 계산기 (406) 에 제공된다. 음성 신호는 프레임으로 지칭되는 샘플들의 블록으로 분할된다. 상기 값 n 은 프레임 개수를 나타낸다. 선택적인 실시예에 있어서, LP (linear prediction) 잔여 에러 신호를 음성 신호 대신에 사용한다. 상기 LP 잔여 신호는 예를 들어 CELP 코더와 같은 음성 코더들에 의해 사용된다. 상기 LP 잔여의 계산은 바람직하게도 음성 신호를 역방향 LP 필터 (도시되지 않음) 에 제공함으로써 수행된다. 역방향 LP 필터의 전송 함수 A(z) 는 다음의 방정식에 따라 계산된다:
Figure 112002034820586-pct00011
여기서, 계수 aI 들은 상술한 미국 특허 제 5,414,796 호 및 미국 특허출원 제 09/217,494 호에 기재된 바와 같이, 공지의 방법들에 따라 선택된 소정의 값들을 가지는 필터 탭들이다. 숫자 p 는 예측 목적을 위해 상기 역방향 LP 필터가 사용하는 이전의 샘플들의 개수를 나타낸다. 특정 실시예에 있어서, p 는 10 으로 설정된다.
파라미터 계산기 (406) 는 현재의 프레임에 기초하여 다양한 파라미터들을 얻는다. 일 실시예에 있어서, 이러한 파라미터들은 다음 중에서 적어도 하나를 포함한다 : LPC (linear predictive coding) 필터 계수, LSP (line spectral pair) 계수, NACF (normalized autocorrelation function) 들, 오픈-루프 래그 (lag), 부호 변환 레이트, 밴드 에너지, 및 포르만트 잔여 신호. LPC 계수들, LSP 계수들, 오픈-루프 래그, 밴드 에너지, 및 포르만트 잔여 신호의 계산은 상술한 미국 특허 제 5,414,796 호에 상세히 기재되어 있다. NACF 및 부호 변환 레이트의 계산은 상술한 미국 특허 제 5,911,128 호에 상세히 기재되어 있다.
파라미터 계산기 (406) 는 모드 분류 모듈 (408) 에 연결되어 있다. 파라미터 계산기 (406) 는 파라미터들을 모드 분류 모듈 (408) 에 제공한다. 모드 분류 모듈 (408) 은 현재의 프레임에 대한 최적의 인코딩 모드 (410) 을 선택하기 위하여, 프레임간 기초에 따라 인코딩 모드 (410) 들 사이를 다이나믹하게 전환 하도록 연결되어 있다. 모드 분류 모듈 (408) 은 상기 파라미터들을 소정의 임계값 및/또는 최대값과 비교함으로써 현재의 프레임에 대한 특정 인코딩 모드 (410) 를 선택한다. 프레임의 에너지 컨텐츠에 기초하여, 모드 분류 모듈 (408) 은 프레임을 비음성 즉, 인액티브 음성 (예를 들어, 침묵 (silence), 백그라운드 노이즈, 또는 대화 중의 단절), 또는 음성으로서 분류한다. 프레임의 주기성에 기초하여, 모드 분류 모듈 (408) 은 그 후에 음성 프레임들을 예를 들어 보이스화된 음성, 비보이스화된 음성 또는 과도 상태의 음성과 같은 특정 타입의 음성으로 분류한다.
보이스화된 음성은 비교적 높은 정도의 주기성을 나타내는 음성이다. 보이스화된 음성의 세그먼트를 도 6 의 그래프에 나타낸다. 예시한 바와 같이, 피치 주기는 프레임의 컨텐츠들을 분석하고 재구성하는데 효과적으로 사용될 수 있는 음성 프레임의 구성요소이다. 통상적으로, 비보이스화된 음성은 공진 사운드들을 포함한다. 통상적으로, 과도 음성 프레임들은 보이스화된 음성과 비보이스화된 음성 사이의 과도상태에 있다. 보이스화된 음성도 비보이스화된 음성도 아닌 것으로 분류되는 프레임들은 과도 음성으로 분류된다. 당업자라면 임의의 합리적인 분류 방식을 사용할 수 있음을 알 수 있다.
음성 프레임들을 분류하는 것은, 서로 다른 타입들의 음성을 인코딩하기 위해 서로 다른 인코딩 모드 (410) 들을 이용함으로써 통신 채널 (404) 과 같은 공유 채널의 대역폭을 더욱 효과적으로 사용할 수 있으므로 바람직하다. 예를 들어, 보이스화된 음성이 주기적이고 크게 예측가능하므로, 낮은 비트 레이트의 보이스 음성을 인코딩하기 위하여 크게 예측가능한 인코딩 모드 (410) 를 사용할 수 있다. 분류 모듈 (408) 과 같은 분류 모듈들은 명칭이 "CLOSED-LOOP MULTIMODEMIXED-DOMAIN LINEAR PREDICTION (MDLP) SPEECH CODER" 로 1999 년 2 월 26일자로 출원되고, 본 발명의 양수인에게 양도되며, 여기서 참조되는 미국 특허 출원 제 09/259,151 호와 상술한 미국 특허 출원 제 09/217,341 호에 상세히 기재되어 있다.
모드 분류 모듈 (408) 은 프레임의 분류에 기초하여 현재 프레임의 인코딩 모드 (410) 를 선택한다. 다양한 인코딩 모드 (410) 들을 병렬로 연결한다. 임의의 소정의 시간 동안에 하나 이상의 인코딩 모드 (410) 를 동작시킬 수도 있다. 그럼에도 불구하고, 단지 하나의 인코딩 모드 (410) 만을 현재의 프레임의 분류에 따라 선택하고, 임의의 소정의 시간에 동작시키는 것이 바람직하다.
서로 다른 인코딩 모드 (410) 들은 바람직하게도 서로 다른 코딩 비트 레이트들, 서로 다른 코딩 방식들, 또는 코딩 비트 레이트 및 코딩 방식의 서로 다른 결합들에 따라 동작한다. 사용되는 다양한 코딩 레이트들은 풀 레이트, 1/2 레이트, 1/4 레이트, 및/또는 1/8 레이트일 수 있다. 사용되는 다양한 코딩 방식들은 CELP 코딩, PPP (prototype pitch period) 코딩 (또는 WI (waveform interpolation) 코딩), 및/또는 NELP (noise excited linear prediction) 코딩일 수 있다. 따라서, 예를 들어, 특정 인코딩 모드 (410) 는 풀 레이트 CELP 인코딩 모드일 수 있고, 또 다른 인코딩 모드 (410) 는 1/2 레이트 CELP 인코딩 모드일 수 있고, 또 다른 인코딩 모드 (410) 는 1/4 레이트 PPP 인코딩 모드일 수 있고, 또 다른 인코딩 모드 (410) 는 NELP 인코딩 모드일 수 있다.
CELP 인코딩 모드 (410) 에 따르면, 선형 예측 보컬 트랙 모델은 LP 잔여 신호의 양자화된 버전에 의해 여기된다. 이전 프레임 전체에 대하여 양자화된 파라미터들을 사용하여 현재 프레임을 재구성한다. 따라서, CELP 인코딩 모드 (410) 는 비교적 정확하게 음성을 재생할 수 있지만, 코딩 비트 레이트가 비교적 커진다. CELP 인코딩 모드 (410) 는 바람직하게도 과도 음성으로 분류되는 프레임들을 인코딩하는데 사용될 수 있다. 예시적인 가변 레이트 CELP 음성 코더는 상술한 미국 특허 제 5,414,796 호에 상세히 기재되어 있다.
NELP 인코딩 모드 (410) 에 따르면, 필터링된 의사-랜덤 노이즈 신호를 음성 프레임을 모델링하는데 사용한다. NELP 인코딩 모드 (410) 는 낮은 비트 레이트를 얻는 비교적 간단한 기술이다. NELP 인코딩 모드 (410) 를 비보이스화된 음성으로서 분류되는 프레임들을 인코딩하는데 효과적으로 사용할 수도 있다. 예시적인 NELP 인코딩 모드는 상술한 미국 특허 출원 제 09/217,494 호에 상세히 기재되어 있다.
PPP 인코딩 모드 (410) 에 따르면, 각 프레임내의 피치 주기들의 서브세트만을 인코딩한다. 이러한 프로토타입 주기들 사이를 보간함으로써, 나머지 주기들의 음성 신호들을 재구성한다. PPP 코딩의 시간-영역 구현에 있어서, 이전의 프로토타입 주기를 변경하여 현재의 프로토타입 주기에 근사화하는 방법을 기술하는 제 1 세트의 파라미터들을 계산한다. 합산시에, 현재의 프로토타입 주기와 변경된 이전의 프로토타입 주기 사이의 차이를 근사화하는 하나 이상의 코드벡터들 을 선택한다. 제 2 세트의 파라미터들은 이렇게 선택된 코드벡터들을 기술한다. PPP 코딩의 주파수-영역 구현에 있어서, 일련의 파라미터들을 계산하여 프로토타입의 진폭 및 위상 스펙트럼들을 기술한다. 이는 아래에 기술된 바와 같이 절대 감각으로 또는 예측적으로 행해질 수 있다. PPP 코딩 중 어느 하나의 구현에 있어서, 디코더는 제 1 및 제 2 세트의 파라미터들에 기초하여 현재의 프로토타입을 재구성함으로써 출력 음성 신호를 합성한다. 그 후에, 음성 신호는 현재 재구성된 프로토타입 주기와 이전에 재구성된 프로토타입 주기 사이의 영역에 걸쳐 보간된다. 따라서, 상기 프로토타입은 디코더에서 음성 신호 또는 LP 잔여 신호를 재구성하기 위하여, 프레임내에 유사하게 위치되는 이전 프레임들로부터의 프로토타입과 선형적으로 보간되는 현재 프레임의 일부가 된다 (즉, 과거의 프로토타입의 주기를 현재의 프로토타입의 주기의 예측자로서 사용한다). 예시적인 PPP 음성 코더는 상술한 미국 특허 출원 제 09/217,494 호에 상세히 기재되어 있다.
전체 음성 프레임 보다는 오히려 프로토타입 주기를 코딩하면 요구되는 코딩 비트 레이트를 감소시킬 수 있다. 보이스화된 음성으로서 분류되는 프레임들은 바람직하게도 PPP 인코딩 모드 (410) 와 코딩될 수 있다. 도 6 에 나타낸 바와 같이, 보이스화된 음성은 PPP 인코딩 모드 (410) 에 의해 효과적으로 이용되는, 서서히 시간 변화하는 주기적인 구성요소들을 포함한다. 보이스화된 음성의 주기성을 이용함으로써, PPP 인코딩 모드 (410) 는 CELP 인코딩 모드 (410) 보다 오히려 더 낮은 비트 레이트를 얻을 수 있다.
선택된 인코딩 모드 (410) 는 패킷 포맷팅 모듈 (412) 에 연결된다. 선택된 인코딩 모드 (410) 는 현재 프레임을 인코딩 즉, 양자화하고, 그 양자화된 프레임 파라미터들을 패킷 포맷팅 모듈 (412) 에 제공한다. 패킷 포맷팅 모듈 (412) 은 바람직하게도 그 양자화된 정보를 통신 채널 (404) 을 통해 전송하기 위한 패킷들로 집합시킨다. 일 실시예에 있어서, 패킷 포맷팅 모듈 (412) 은 IS-95 표준에 따라 에러 교정 코딩을 제공하고 패킷을 포맷화하도록 구성되어 있다. 패킷은 송신기 (도시되지 않음) 에 제공되어 아날로그 포맷으로 변환되고, 변조되고, 그리고 통신 채널 (404) 을 통하여 수신기 (또한, 도시되지 않음) 에 전송되며, 수신기는 그 패킷을 수신하고, 복조하고, 계수화하여 디코더 (402) 에 그 패킷을 제공한다.
디코더 (402) 에 있어서, 패킷 역 어셈블러 및 패킷 손실 검출기 모듈 (414) 은 수신기로부터 패킷을 수신한다. 패킷 역 어셈블러 및 패킷 손실 검출기 모듈 (414) 은 패킷간의 기초에 대하여 디코딩 모드 (416) 들 사이를 다이나믹하게 전환하도록 연결되어있다. 디코딩 모드 (416) 들의 개수는 인코딩 모드 (410) 들의 개수와 동일하며, 당업자라면 각각의 넘버화된 인코딩 모드 (410) 는 동일한 코딩 비트 레이트와 코딩 방식을 사용하도록 구성되어 있는 각각 유사하게 넘버링된 디코딩 모드 (416) 과 연관됨을 알 수 있다.
만일 패킷 역 어셈블러 및 패킷 손실 검출기 모듈 (414) 이 패킷을 검출하는 경우에, 패킷을 역 어셈블링하여 연관된 디코딩 모드 (416) 에 제공한다. 패킷 역 어셈블러 및 패킷 손실 검출기 모듈 (414) 이 패킷을 검출하지 못 하는 경우에, 패킷 손실이 나타나며, 소거 디코더 (418) 는 바람직하게도 명칭이 "FRAME ERASURE COMPENSATION METHOD IN A VARIABLE RATE SPEECH CODER" 로, 본 발명의 양수인에게 양도되며, 여기서 참조되는 관련 특허 출원에 기재된 바와 같이, 프레임 소거 처리를 수행한다.
디코딩 모드 (416) 들과 소거 디코더 (418) 의 병렬 어레이는 포스트 (post) 필터 (420) 에 연결된다. 연관 디코딩 모드 (416) 는 패킷을 디코딩 즉, 역-양자화하여 정보를 포스트 필터 (420) 에 제공한다. 포스트 필터 (420) 는 음성 프레임을 재구성 즉, 합성하여 합성된 음성 프레임들
Figure 112002034820586-pct00012
을 출력한다. 예시적인 디코딩 모드들 및 포스트 필터들은 상술한 미국 특허 제 5,414,796 호 및 미국 특허 출원 제 09/217,494 호에 상세히 기재되어 있다.
일 실시예에 있어서, 양자화된 파라미터들 그 자신은 전송되지 않는다. 그 대신에, 디코더 (402) 내의 다양한 LUT (lookup table)(도시되지 않음) 들의 어드레스들을 특정하는 코드북 인덱스들을 전송한다. 디코더 (402) 는 코드북 인덱스들을 수신하고, 적절한 파라미터 값들에 대하여 다양한 코드북 LUT 들을 검색한다. 따라서, 예를 들어 피치 래그, 적응형 코드북 이득, 및 LSP 와 같은 파라미터들에 대한 코드북 인덱스들을 전송할 수 있고, 디코더 (402) 에 의해 3 개의 관련 코드북 LUT 들을 검색할 수 있다.
CELP 인코딩 모드 (410) 에 따르면, 피치 래그, 진폭, 위상, 및 LSP 파라미터들을 전송한다. LP 잔여 신호가 디코더 (402) 에서 합성되기 때문에, LSP 코 드북 인덱스들을 전송한다. 또한, 현재 프레임에 대한 피치 래그 값과 이전 프레임에 대한 피치 래그 값 사이의 차이를 전송한다.
음성 신호가 디코더에서 합성되는 종래의 PPP 인코딩 모드에 따르면, 피치 래그, 진폭, 및 위상 파라미터들만을 전송한다. 종래의 PPP 음성 코딩 기술들에 의해 사용되는 낮은 비트 레이트로는 절대적인 피치 래그 정보와 상대적인 피치 래그 차이 값들을 전송할 수 없었다.
일 실시예에 따르면, 전송을 위하여 현재 프레임의 피치 래그 값을 양자화하지 않고, 전송을 위하여 현재의 프레임의 피치 래그 값과 이전 프레임의 피치 래그 값 사이의 차이를 양자화하는 낮은 비트 레이트의 PPP 인코딩 모드 (410) 를 사용하여 보이스화된 음성 프레임들과 같은 크게 주기적인 프레임들을 전송할 수 있다. 왜냐하면 보이스화된 프레임들은 실제로 크게 주기적임으로, 절대적인 피치 래그 값과 대립되는 차이 값을 전송하여 더 낮은 코딩 비트 레이트를 얻을 수 있다. 일 실시예에서, 이러한 양자화는 이전 프레임들의 파라미터 값들의 가중 합을 계산하도록 정규화되며, 여기서 가중 합은 1 이며, 그 가중 합은 현재의 프레임의 파라미터 값으로부터 감산된다. 그 후에, 그 차이를 양자화한다.
일 실시예에 있어서, LPC 파라미터들의 예측 양자화는 다음의 설명에 따라 수행된다. LPC 파라미터들은 양자화에 더욱 적합한 것으로 알려져 있는 LSI (line spectral information)(또는 LSP) 로 변환된다. M 번째 프레임의 N-차 LSI 벡터를
Figure 112002034820586-pct00013
으로 나타낼 수 있다. 예측 양자화 방식에 있어 서, 양자화의 타겟 에러 벡터는 다음의 방정식에 따라 계산된다 :
Figure 112002034820586-pct00014
여기서,
Figure 112002034820586-pct00015
값들은 M 번째 프레임 직전의, P 개의 프레임들의 LSI 파라미터들의 컨트리뷰션 (contribution) 이며,
Figure 112002034820586-pct00016
값들은
Figure 112002034820586-pct00017
이 되는 각각의 가중값들이다.
컨트리뷰션
Figure 112002034820586-pct00018
은 과거의 해당 프레임의 양자화된 또는 비양자화된 LSI 파라미터들과 동일할 수 있다. 이러한 방식은 AR (auto regressive) 방법으로 공지되어 있다. 선택적으로, 컨트리뷰션
Figure 112002034820586-pct00019
은 과거의 해당 프레임의 LSI 파라미터들에 대응하여 양자화된 또는 비양자화된 에러 벡터와 동일할 수 있다. 이러한 방식은 MA (moving average) 방법으로 공지되어 있다.
그 후에, 예를 들어 스플릿 VQ (vector quantization) 또는 멀티스테이지 VQ 를 포함하는 임의의 다양한 공지의 VQ 기술들을 이용하여 타겟 에러 벡터 T 를
Figure 112002034820586-pct00020
으로 양자화한다. 다양한 VQ 기술들은 A.Gersho & R.M. Gray 에 의해 기고된 논문 "Vector Quantization and Signal Compression (1992)" 에 기재되어 있다. 그 후에, 다음의 방정식을 이용하여 양자화된 타겟 에러 벡터
Figure 112002034820586-pct00021
로부터 상기 양 자화된 LSI 벡터를 재구성한다 :
Figure 112002034820586-pct00022
일 실시예에 있어서, 상술된 양자화 방식은 P=2, N=10 으로 구현되며, 그리고
Figure 112002034820586-pct00023
이 된다. 상기 리스트화된 타겟 벡터 T 는 바람직하게도 공지된 스플릿 VQ 방법을 통한 16 개의 비트들을 이용하여 양자화될 수 있다.
이들의 주기적인 성질에 의해, 공지의 길이의 프레임에 대하여, 일 프로토타입 피치 주기 또는 한정된 세트의 프로토타입 피치 주기들을 양자화하는데 전체 세트의 비트들을 사용하는 방식을 이용하여, 보이스화된 프레임들을 코딩할 수 있다. 이러한 프로토타입 피치 주기의 길이를 피치 래그라고 한다. 그 후에, 이러한 프로토타입 피치 주기들 및 바람직하게는 인접 프레임들의 프로토타입 피치 주기들을 인식가능한 품질의 손실 없이 전체 음성 프레임을 재구성하는데 사용할 수 있다. 음성의 프레임으로부터 프로토타입 피치 주기를 추출하고, 전체 프레임을 재구성하기 위하여 이러한 프로토타입들을 이용하는 이러한 PPP 방식은, 상술한 미국 특허 출원 제 09/217,494 호에 기재되어 있다.
일 실시예에 있어서, 양자화기 (500) 는 도 7 에 나타낸 바와 같이 PPP 코딩 방식에 따라 보이스화된 프레임들과 같은 크게 주기적인 프레임들을 양자화하는데 사용된다. 양자화기 (500) 는 프로토타입 추출기 (502), 주파수 영역 컨버터 (504), 진폭 양자화기 (506), 및 위상 양자화기 (508) 를 포함한다. 프로토타입 추출기 (502) 는 주파수 영역 컨버터 (504) 에 연결되어 있다. 주파수 영역 컨버터 (504) 는 진폭 양자화기 (506) 와 위상 양자화기 (508) 에 연결되어 있다.
프로토타입 추출기 (502) 는 음성의 프레임 s(n) 으로부터 피치 주기 프로토타입을 추출한다. 선택적인 실시예에 있어서, 프레임은 LP 잔여의 프레임이다. 프로토타입 추출기 (502) 는 피치 주기 프로토타입을 주파수 영역 컨버터 (504) 에 제공한다. 주파수 영역 컨버터 (504) 는 예를 들어 DFT (Discrete Fourier transform) 또는 FFT (Fast Fourier transform) 를 포함하는 임의의 다양한 공지의 방법들에 따라, 프로토타입을 시간-영역 표현으로부터 주파수-영역 표현으로 변환한다. 주파수 영역 컨버터 (504) 는 진폭 벡터와 위상 벡터를 생성한다. 진폭 벡터는 진폭 양자화기 (506) 에 제공되고, 위상 벡터는 위상 양자화기 (508) 에 제공된다. 진폭 양자화기 (506) 는 일련의 진폭들을 양자화하여 양자화된 진폭 벡터
Figure 112002034820586-pct00024
를 생성하고, 위상 양자화기 (508) 는 일련의 위상들을 양자화하여 양자화된 위상 벡터
Figure 112002034820586-pct00025
를 생성한다.
예를 들어 MBE (multiband excitation) 음성 코딩 및 하모닉 코딩과 같은 보이스화된 프레임들을 코딩하기 위한 그 밖의 방식들은, 음성으로 합성하기 위해 사용되며 디코더 (도시되지 않음) 에서 양자화되는 진폭들 및 위상들을 포함하는 푸리에 변환 표현들을 통하여, 전체 프레임 (LP 잔여 또는 음성 중 어느 하나) 또는 이들의 부분들을 주파수-영역 값들로 변환한다. 이러한 코딩 방식들을 가진 도 7 의 양자화기를 이용하기 위하여, 프로토타입 추출기 (502) 를 생략하고, 주파수 영역 컨버터 (504) 에 의해 프레임의 복잡한 단기 주파수 스펙트럼 표현들을 진폭 벡터와 위상 벡터로 분해한다. 어느 한쪽의 코딩 방식에 있어서, 예를 들어 해밍 윈도우와 같은 적절한 윈도우 기능을 먼저 적용할 수 있다. 예시적인 MBE 음성 코딩 방식은 D.W. Griffin & J.S. Lim 에 의해 기고된 논문 "Multiband Excitation Vocoder" 36(8) IEE Trans. on ASSP (Aug.1988) 에 기재되어 있다. 예시적인 하모닉 음성 코딩 방식은 L.B. Almeida & J.M. Tribolet 에 의해 기고된 "Harmonic Coding: A Low Bit-Rate, Good Quality, Speech Coding Technique" Proc. ICASSP '82 1664-1667 (1982) 에 기재되어 있다.
소정의 파라미터들은 임의의 상기 보이스화된 프레임 코딩 방식들에 대하여 양자화되어야 한다. 이러한 파라미터들은 피치 래그 또는 피치 주파수, 프로토타입 피치 주기 파형의 피치 래그 길이, 또는 전체 프레임 또는 그것의 일부의 단기 스펙트럼 표현들 (예를 들어, 푸리에 표현) 이다.
일 실시예에 있어서, 피치 래그 또는 피치 주파수의 예측 양자화는 다음의 설명에 따라 수행된다. 피치 주파수와 피치 래그는 고정된 스케일 인자를 사용하여 다른 것과 상반되는 것을 스케일링함으로써 서로로 부터 유일하게 얻을 수 있다. 따라서, 다음의 방법을 이용하여 이러한 값들 중 하나를 양자화할 수 있다. 프레임 'm' 에 대한 피치 래그 (또는 피치 주파수) 를 Lm 으로 나타낸다. 피치 래그 Lm 은 다음의 방정식에 따라 양자화된 값
Figure 112002034820586-pct00026
으로 양자화될 수 있다.
Figure 112002034820586-pct00027
여기서,
Figure 112002034820586-pct00028
값들은 각각 프레임들
Figure 112002034820586-pct00029
에 대한 피치 래그들 (또는 피치 주파수들) 이며,
Figure 112002034820586-pct00030
값들은 해당 가중값들이며,
Figure 112002034820586-pct00031
는 다음의 방정식으로부터 얻을 수 있고,
Figure 112002034820586-pct00032
임의의 다양한 공지의 스칼라 또는 벡터 양자화 기술들을 이용하여 양자화된다. 특정 실시예에 있어서, 단지 4 비트만을 이용하여
Figure 112002034820586-pct00033
을 양자화하는 낮은 비트 레이트의 보이스 음성 코딩 방식을 구현한다.
일 실시예에 있어서, 전체 프레임 또는 이들의 일부들의 단기 스펙트럼 또는 프로토타입 피치 주기의 양자화는 다음의 설명에 따라 수행된다. 상술한 바와 같이, 시간-영역 파형을 주파수 영역으로 먼저 변환시킴으로써 (음성 영역 또는 LP 잔여 영역 중 어느 한 쪽으로) 보이스화된 프레임의 프로토타입 피치 주기를 효과적으로 양자화할 수 있으며, 여기서 신호를 진폭 및 위상들의 벡터로서 나타낼 수 있다. 그 후에, 진폭 및 위상 벡터들의 모든 또는 일부 구성 요소들을 아래에 기술된 방법들을 결합하여 개별적으로 양자화할 수 있다. 또한, 상술한 바와 같이, MBE 또는 하모닉 코딩 방식들과 같은 다른 방식들에 있어서, 프레임의 복잡 한 단기 주파수 스펙트럼 표현을 진폭 및 위상 벡터들로 분해할 수 있다. 따라서, 다음의 양자화 방법들 또는 이들의 적절한 인터프리테이션 (interpretation) 들을 임의의 상술한 코딩 기술들에 적용할 수 있다.
일 실시예에 있어서, 진폭 값들을 다음과 같이 양자화할 수 있다. 진폭 스펙트럼은 고정된 크기의 벡터 또는 가변 크기의 벡터일 수 있다. 또한, 진폭 스펙트럼을 작은 치수의 전력 벡터와, 상기 전력 벡터를 이용하여 원래의 진폭 스펙트럼을 정규화함으로써 얻어지는 정규화된 진폭 스펙트럼 벡터를 결합하여 나타낼 수 있다. 다음의 방법을 상술한 구성요소들 (즉, 진폭 스펙트럼, 전력 스펙트럼, 또는 정규화된 진폭 스펙트럼) 중 임의의 것 또는 이들의 일부에 적용할 수 있다. 프레임 'm'에 대한 진폭 (또는 전력 즉, 정규화된 진폭) 벡터의 서브세트를 Am 으로 나타낼 수 있다. 진폭 (또는 전력 즉, 정규화된 진폭) 예측 에러 벡터는 먼저 다음의 방정식을 이용하여 계산된다:
Figure 112002034820586-pct00034
여기서,
Figure 112002034820586-pct00035
값들은 각각 프레임들
Figure 112002034820586-pct00036
에 대한 진폭 (또는 전력 즉, 정규화된 진폭) 벡터의 서브세트이고,
Figure 112002034820586-pct00037
값들은 해당 가중 벡터들의 전치행렬이다.
그 후에,
Figure 112002034820586-pct00038
으로 표시된 양자화 에러 벡터에 임의의 다양한 공지의 VQ 방 법들을 이용하여 예측 에러 벡터를 양자화할 수 있다. 그 후에, Am 의 양자화된 버전은 다음의 방정식에 의해 구해진다:
Figure 112002034820586-pct00039
가중값들
Figure 112002034820586-pct00040
은 양자화 방식으로 예측량을 설정한다. 특정 실시예에 있어서, 상술된 예측 방식은 6 비트를 이용하여 2 차의 전력 벡터를 양자화하며 그리고 12 비트를 이용하여 19 차의 정규화된 진폭 벡터를 양자화하도록 구현되었다. 이러한 방식으로, 전체 18 비트를 이용하여 프로토타입 피치 주기의 진폭 스펙트럼을 양자화할 수 있다.
일 실시예에 있어서, 위상 값들을 다음과 같이 양자화할 수 있다. 프레임 'm'의 위상 벡터의 서브세트를
Figure 112002034820586-pct00041
으로 나타낼 수 있다. 참조 파형 (전체 프레임 또는 그것의 일부의 시간 영역 또는 주파수 영역) 의 위상과 동일한 것으로
Figure 112002034820586-pct00042
을 양자화할 수 있으며, 변환된 참조 파형의 하나 이상의 대역들에 0 또는 그 이상의 선형 시프트들을 인가할 수 있다. 이러한 양자화 기술은 명칭이 "METHOD AND APPARATUS FOR SUBSAMPLING PHASE SPECTRUM INFORMATION" 으로, 1999년 7월 19일에 출원되고, 본 발명의 양수인에게 양도되며, 여기서 참조되는 미국 특허 출원 제 09/365,491 호에 기재되어 있다. 이러한 참조 파형은 프레임 mN 의 파형 또는 임의의 다른 소정의 파형의 변환형태일 수 있다.
예를 들어, 낮은 비트 레이트의 보이스 음성 코딩 방식을 사용하는 일 실시 예에 있어서, 'm-1' 프레임의 LP 잔여는 먼저 소정의 피치 컨투어 (contour) (원격통신 산업협회 잠정 표준 TIA/EIA IS-127에 통합된 바와 같이) 에 따라 'm' 프레임으로 연장된다. 그 후에, 프로토타입 피치 주기는 'm' 프레임의 비양자화된 프로토타입의 추출과 유사한 방식으로 상기 연장된 파형으로부터 추출된다. 그 후에, 그 추출된 프로토타입의 위상들
Figure 112002034820586-pct00043
을 얻는다. 그 후에, 다음의 값들을 균등화한다:
Figure 112002034820586-pct00044
. 이러한 방식으로, 어떤 비트도 이용하지 않고 'm-1' 프레임의 변환 파형의 위상들을 예측함으로써, 'm' 프레임의 프로토타입의 위상들을 양자화할 수 있다.
특정 실시예에 있어서, 단지 38 비트를 이용하여, 보이스화된 음성 프레임의 LP 잔여 및 LPC 파라미터들을 코딩하도록 상술된 예측 양자화 방식들을 구현하였다.
이와 같이, 보이스화된 음성을 예측적으로 양자화하는 신규하고 개선된 방법 및 장치를 기술하였다. 당업자라면 상세한 설명 전반에 걸쳐 참조되는 데이터, 지시, 명령, 정보, 신호, 비트, 심볼, 및 칩들을 바람직하게도 전압, 전류, 전자기파, 자계 또는 입자들, 광학 필드 또는 입자들, 또는 이들의 임의의 결합에 의해 나타낼 수 있음을 알 수 있다. 또한, 당업자라면 여기에 기술되는 실시예들과 관련하여 기술되는 다양한 예시적인 논리 블록, 모듈, 회로, 및 알고리즘 단계들을 전자 하드웨어, 컴퓨터 소프트웨어, 또는 이들의 결합으로 구현할 수 있음을 알 수 있다. 다양한 예시적인 구성 요소, 블록, 모듈, 회로, 및 단계들은 일반적으로 이들의 기능에 관하여 기술된다. 상기 기능이 하드웨어 또는 소프트웨어로 구현되는지의 여부는 전체 시스템에 부가되는 특정 애플리케이션 및 설계 제약들에 따른다. 당업자라면 이러한 환경하에서의 하드웨어 및 소프트웨어의 호환성, 및 각각의 특정 애플리케이션에 대하여 기술된 기능을 최적으로 구현할 수 있는 방법을 인지한다. 예를 들어, 여기에 기술되는 실시예들과 관련하여 기술되는 다양한 예시적인 논리 블록, 모듈, 회로, 및 알고리즘 단계를 DSP (digital signal processor); ASIC (application specific integrated circuit); FPGA (field programmable gate array) 또는 다른 프로그램가능한 논리 장치; 이산 게이트 또는 트랜지스터 로직; 예를 들어 레지스터 및 FIFO 와 같은 이산 하드웨어 구성요소; 일련의 펌웨어 명령들을 실행하는 프로세서; 임의의 종래의 프로그램가능한 소프트웨어 모듈 및 프로세서; 또는 여기에 기술되는 기능들을 수행하기 위해 설계되는 이들의 임의의 결합체를 이용하여 구현하거나 수행할 수 있다. 프로세서는 바람직하게도 마이크로프로세서일 수 있지만, 선택적인 실시예에서, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로프로세서, 또는 상태 머신일 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈가능한 디스크, CD-ROM, 또는 당해 분야에 공지된 저장 매체의 임의의 다른 형태에 포함될 수 있다. 도 8 에 나타낸 바와 같이, 예시적인 프로세서 (600) 는 바람직하게도 저장 매체 (602) 로부터 정보를 판독하고 상기 저장 매체에 정보를 기록하도록 저장 매체 (602) 에 연결되어 있다. 선택적인 실시예에서, 저장 매체 (602) 는 프로세서 (600) 의 구성요소일 수 있다. 프로세서 (600) 와 저장 매체 (602) 는 ASIC (도시되지 않음) 에 포함될 수 있다. ASIC 는 전화기 (도시되지 않음) 에 포함될 수 있다. 선택적인 실시예에 있어서, 프로세서 (600) 및 저장 매체 (602) 는 전화기에 포함될 수 있다. 프로세서 (600) 는 DSP 와 마이크로프로세서의 결합체, 또는 DSP 코어 등과 관련되는 2 개의 마이크로프로세서로서 구현될 수 있다.
이와 같이, 본 발명의 바람직한 실시예들을 도시하고 설명하였다. 그러나, 당업자라면 본 발명의 사상 및 범위를 벗어나지 않고 여기서 기술되는 실시예들을 다양하게 변경시킬 수 있음을 알 수 있다. 따라서, 본 발명은 다음의 청구범위에 의해서만 한정된다.

Claims (31)

  1. 피치 래그 컴포넌트의 양자화된 타겟 에러 벡터;
    진폭 컴포넌트의 양자화된 타겟 에러 벡터;
    위상 컴포넌트의 양자화된 타겟 에러 벡터; 및
    선형 스펙트럼 정보 컴포넌트의 양자화된 타겟 에러 벡터를 포함하며,
    상기 피치 래그 컴포넌트, 상기 진폭 컴포넌트, 상기 위상 컴포넌트, 및 상기 선형 스펙트럼 정보 컴포넌트는 보이스화된 음성 (voiced speech) 프레임으로부터 추출되는, 음성 코더 출력 프레임.
  2. 제 1 항에 있어서,
    상기 피치 래그 컴포넌트의 양자화된 타겟 에러 벡터는 방정식,
    Figure 112006027616383-pct00053
    으로 표현되는 피치 래그 컴포넌트의 타겟 에러 벡터 (
    Figure 112006027616383-pct00054
    ) 에 기초하며,
    Figure 112006027616383-pct00055
    은 프레임 (m1, m2,...,mN) 각각에 대한 피치 래그이고, 값
    Figure 112006027616383-pct00056
    는 프레임 (m1, m2,...,mN) 각각에 대응하는 가중값인, 음성 코더 출력 프레임.
  3. 제 1 항에 있어서,
    상기 진폭 컴포넌트의 양자화된 타겟 에러 벡터는 방정식,
    Figure 112006027616383-pct00057
    으로 표현되는 진폭 컴포넌트의 타겟 에러 벡터 (
    Figure 112006027616383-pct00058
    ) 에 기초하며,
    Figure 112006027616383-pct00059
    은 프레임 (m1, m2,...,mN) 각각에 대한 진폭 벡터의 서브세트이고, 값
    Figure 112006027616383-pct00060
    는 대응하는 가중 벡터의 전치행렬인, 음성 코더 출력 프레임.
  4. 제 1 항에 있어서,
    상기 위상 컴포넌트의 양자화된 타겟 에러 벡터는 방정식,
    Figure 112006027616383-pct00061
    으로 표현되는 위상 컴포넌트의 타겟 에러 벡터 (
    Figure 112006027616383-pct00062
    ) 에 기초하며,
    상기
    Figure 112006027616383-pct00063
    는 추출된 프로토타입 (prototype) 의 위상인, 음성 코더 출력 프레임.
  5. 제 1 항에 있어서,
    상기 선형 스펙트럼 정보 컴포넌트의 양자화된 타겟 에러 벡터 (
    Figure 112006027616383-pct00064
    ) 는 방정식,
    Figure 112006027616383-pct00065
    로 표현되는 선형 스펙트럼 정보 컴포넌트의 타겟 에러 벡터에 기초하며,
    Figure 112006027616383-pct00066
    은 프레임 M 직전의 다수의 프레임 (P) 의 선형 스펙트럼 정보 파라미터의 컨트리뷰션 (contribution) 이고, 값
    Figure 112006027616383-pct00067
    Figure 112006027616383-pct00068
    이 되는 각각의 가중값인, 음성 코더 출력 프레임.
  6. 피치 래그 컴포넌트의 타겟 에러 벡터를 양자화하는 단계;
    진폭 컴포넌트의 타겟 에러 벡터를 양자화하는 단계;
    위상 컴포넌트의 타겟 에러 벡터를 양자화하는 단계; 및
    선형 스펙트럼 정보 컴포넌트의 타겟 에러 벡터를 양자화하는 단계를 포함하며,
    상기 피치 래그 컴포넌트, 상기 진폭 컴포넌트, 상기 위상 컴포넌트, 및 상기 선형 스펙트럼 정보 컴포넌트는 보이스화된 음성 프레임으로부터 추출되는, 음성 코더 출력 프레임을 형성하는 방법.
  7. 제 6 항에 있어서,
    상기 피치 래그 컴포넌트의 양자화된 타겟 에러 벡터는 방정식,
    Figure 112006027616383-pct00069
    으로 표현되는 피치 래그 컴포넌트의 타겟 에러 벡터 (
    Figure 112006027616383-pct00070
    ) 에 기초하며,
    Figure 112006027616383-pct00071
    은 프레임 (m1, m2,...,mN) 각각에 대한 피치 래그이고, 값
    Figure 112006027616383-pct00072
    는 프레임 (m1, m2,...,mN) 각각에 대응하는 가중값인, 음성 코더 출력 프레임을 형성하는 방법.
  8. 제 6 항에 있어서,
    상기 진폭 컴포넌트의 양자화된 타겟 에러 벡터는 방정식,
    Figure 112006027616383-pct00073
    으로 표현되는 진폭 컴포넌트의 타겟 에러 벡터 (
    Figure 112006027616383-pct00074
    ) 에 기초하며,
    Figure 112006027616383-pct00075
    은 프레임 (m1, m2,...,mN) 각각에 대한 진폭 벡터의 서브세트이고, 값
    Figure 112006027616383-pct00076
    는 대응하는 가중 벡터의 전치행렬인, 음성 코더 출력 프레임을 형성하는 방법.
  9. 제 6 항에 있어서,
    상기 위상 컴포넌트의 양자화된 타겟 에러 벡터는 방정식,
    Figure 112006027616383-pct00077
    으로 표현되는 위상 컴포넌트의 타겟 에러 벡터 (
    Figure 112006027616383-pct00078
    ) 에 기초하며,
    상기
    Figure 112006027616383-pct00079
    는 추출된 프로토타입 (prototype) 의 위상인, 음성 코더 출력 프레임을 형성하는 방법.
  10. 제 6 항에 있어서,
    상기 선형 스펙트럼 정보 컴포넌트의 양자화된 타겟 에러 벡터 (
    Figure 112006027616383-pct00080
    ) 는 방정식,
    Figure 112006027616383-pct00081
    로 표현되는 선형 스펙트럼 정보 컴포넌트의 타겟 에러 벡터에 기초하며,
    상기 값
    Figure 112006027616383-pct00082
    은 프레임 M 직전의 다수의 프레임 (P) 의 선형 스펙트럼 정보 파라미터의 컨트리뷰션 (contribution) 이고, 값
    Figure 112006027616383-pct00083
    Figure 112006027616383-pct00084
    이 되는 각각의 가중값인, 음성 코더 출력 프레임을 형성하는 방법.
  11. 제 6 항에 있어서,
    복수의 보이스화된 음성 프레임으로부터 상기 피치 래그 컴포넌트, 상기 진폭 컴포넌트, 상기 위상 컴포넌트, 및 상기 선형 스펙트럼 정보 컴포넌트를 추출하는 단계를 더 포함하는, 음성 코더 출력 프레임을 형성하는 방법.
  12. 제 6 항에 있어서,
    무선 통신 채널을 통해 상기 음성 코더 출력 프레임을 송신하는 단계를 더 포함하는, 음성 코더 출력 프레임을 형성하는 방법.
  13. 피치 래그 컴포넌트의 타겟 에러 벡터를 양자화하는 수단;
    진폭 컴포넌트의 타겟 에러 벡터를 양자화하는 수단;
    위상 컴포넌트의 타겟 에러 벡터를 양자화하는 수단; 및
    선형 스펙트럼 정보 컴포넌트의 타겟 에러 벡터를 양자화하는 수단을 구비하며,
    상기 피치 래그 컴포넌트, 상기 진폭 컴포넌트, 상기 위상 컴포넌트, 및 상기 선형 스펙트럼 정보 컴포넌트는 보이스화된 음성 프레임으로부터 추출되는, 가입자 유닛.
  14. 제 14 항에 있어서,
    무선 통신 채널을 통해 음성 코더 출력 프레임을 송신하는 단계를 더 포함하며,
    상기 음성 코더 출력 프레임은 양자화된 피치 래그, 양자화된 진폭, 양자화된 위상 및 양자화된 선형 스펙트럼 정보를 포함하는, 가입자 유닛.
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
KR1020027014234A 2000-04-24 2001-04-20 보이스화된 음성을 예측적으로 양자화하는 방법 및 장치 KR100804461B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US55728200A 2000-04-24 2000-04-24
US09/557,282 2000-04-24

Publications (2)

Publication Number Publication Date
KR20020093943A KR20020093943A (ko) 2002-12-16
KR100804461B1 true KR100804461B1 (ko) 2008-02-20

Family

ID=24224775

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020027014234A KR100804461B1 (ko) 2000-04-24 2001-04-20 보이스화된 음성을 예측적으로 양자화하는 방법 및 장치

Country Status (13)

Country Link
US (2) US7426466B2 (ko)
EP (3) EP1279167B1 (ko)
JP (1) JP5037772B2 (ko)
KR (1) KR100804461B1 (ko)
CN (2) CN100362568C (ko)
AT (3) ATE420432T1 (ko)
AU (1) AU2001253752A1 (ko)
BR (1) BR0110253A (ko)
DE (2) DE60128677T2 (ko)
ES (2) ES2318820T3 (ko)
HK (1) HK1078979A1 (ko)
TW (1) TW519616B (ko)
WO (1) WO2001082293A1 (ko)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6493338B1 (en) 1997-05-19 2002-12-10 Airbiquity Inc. Multichannel in-band signaling for data communications over digital wireless telecommunications networks
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
ES2318820T3 (es) 2000-04-24 2009-05-01 Qualcomm Incorporated Procedimiento y aparatos de cuantificacion predictiva del habla de voces.
US6584438B1 (en) 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
EP1241663A1 (en) * 2001-03-13 2002-09-18 Koninklijke KPN N.V. Method and device for determining the quality of speech signal
CN100370828C (zh) * 2002-04-26 2008-02-20 诺基亚有限公司 用于将参数值映像到码字索引的自适应方法和系统
CA2392640A1 (en) 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
JP4178319B2 (ja) * 2002-09-13 2008-11-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理におけるフェーズ・アライメント
US7835916B2 (en) * 2003-12-19 2010-11-16 Telefonaktiebolaget Lm Ericsson (Publ) Channel signal concealment in multi-channel audio systems
US7830900B2 (en) 2004-08-30 2010-11-09 Qualcomm Incorporated Method and apparatus for an adaptive de-jitter buffer
US8085678B2 (en) 2004-10-13 2011-12-27 Qualcomm Incorporated Media (voice) playback (de-jitter) buffer adjustments based on air interface
US7508810B2 (en) 2005-01-31 2009-03-24 Airbiquity Inc. Voice channel control of wireless packet data communications
US8355907B2 (en) 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
US8155965B2 (en) * 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
JP2009501353A (ja) * 2005-07-14 2009-01-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号合成
US8483704B2 (en) * 2005-07-25 2013-07-09 Qualcomm Incorporated Method and apparatus for maintaining a fingerprint for a wireless network
US8477731B2 (en) 2005-07-25 2013-07-02 Qualcomm Incorporated Method and apparatus for locating a wireless local area network in a wide area network
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
JP5096474B2 (ja) * 2006-10-10 2012-12-12 クゥアルコム・インコーポレイテッド オーディオ信号を符号化及び復号化する方法及び装置
CN101578508B (zh) 2006-10-24 2013-07-17 沃伊斯亚吉公司 用于对语音信号中的过渡帧进行编码的方法和设备
US8279889B2 (en) * 2007-01-04 2012-10-02 Qualcomm Incorporated Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate
KR101293069B1 (ko) * 2007-10-20 2013-08-06 에어비퀴티 인코포레이티드. 차량내 시스템들에 의한 무선 인―밴드 시그널링
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
KR20090122143A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8594138B2 (en) 2008-09-15 2013-11-26 Airbiquity Inc. Methods for in-band signaling through enhanced variable-rate codecs
US7983310B2 (en) * 2008-09-15 2011-07-19 Airbiquity Inc. Methods for in-band signaling through enhanced variable-rate codecs
WO2010036739A1 (en) * 2008-09-26 2010-04-01 Telegent Systems, Inc. Devices and methods of digital video and/or audio reception and/or output having error detection and/or concealment circuitry and techniques
US8073440B2 (en) 2009-04-27 2011-12-06 Airbiquity, Inc. Automatic gain control in a personal navigation device
US8418039B2 (en) 2009-08-03 2013-04-09 Airbiquity Inc. Efficient error correction scheme for data transmission in a wireless in-band signaling system
TWI455114B (zh) * 2009-10-20 2014-10-01 Fraunhofer Ges Forschung 多模式音訊編解碼器及其適用碼簿激發線性預測編碼技術
US8249865B2 (en) 2009-11-23 2012-08-21 Airbiquity Inc. Adaptive data transmission for a digital in-band modem operating over a voice channel
MY176188A (en) 2010-07-02 2020-07-24 Dolby Int Ab Selective bass post filter
US8848825B2 (en) 2011-09-22 2014-09-30 Airbiquity Inc. Echo cancellation in wireless inband signaling modem
US9070356B2 (en) * 2012-04-04 2015-06-30 Google Technology Holdings LLC Method and apparatus for generating a candidate code-vector to code an informational signal
US9263053B2 (en) * 2012-04-04 2016-02-16 Google Technology Holdings LLC Method and apparatus for generating a candidate code-vector to code an informational signal
US9041564B2 (en) * 2013-01-11 2015-05-26 Freescale Semiconductor, Inc. Bus signal encoded with data and clock signals
IL278164B (en) * 2013-04-05 2022-08-01 Dolby Int Ab Audio encoder and decoder
MX371425B (es) * 2013-06-21 2020-01-29 Fraunhofer Ges Forschung Aparato y metodo para la ocultacion mejorada del libro de codigo adaptativo en la ocultacion similar a acelp mediante la utilizacion de una estimacion mejorada del retardo de tono.
WO2014202535A1 (en) 2013-06-21 2014-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pulse resynchronization
PL3413306T3 (pl) * 2014-03-24 2020-04-30 Nippon Telegraph And Telephone Corporation SPOSÓB KODOWANIA, KODER, PROGRAM i NOŚNIK ZAPISU
CN110503964B (zh) * 2014-04-24 2022-10-04 日本电信电话株式会社 编码方法、编码装置以及记录介质
CN107731238B (zh) * 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
CN108074586B (zh) * 2016-11-15 2021-02-12 电信科学技术研究院 一种语音问题的定位方法和装置
CN108280289B (zh) * 2018-01-22 2021-10-08 辽宁工程技术大学 基于局部加权c4.5算法的冲击地压危险等级预测方法
CN109473116B (zh) * 2018-12-12 2021-07-20 思必驰科技股份有限公司 语音编码方法、语音解码方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0696026A2 (en) * 1994-08-02 1996-02-07 Nec Corporation Speech coding device
WO2001006495A1 (en) * 1999-07-19 2001-01-25 Qualcomm Incorporated Method and apparatus for interleaving line spectral information quantization methods in a speech coder

Family Cites Families (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4270025A (en) * 1979-04-09 1981-05-26 The United States Of America As Represented By The Secretary Of The Navy Sampled speech compression system
US4901307A (en) 1986-10-17 1990-02-13 Qualcomm, Inc. Spread spectrum multiple access communication system using satellite or terrestrial repeaters
JP2653069B2 (ja) * 1987-11-13 1997-09-10 ソニー株式会社 ディジタル信号伝送装置
US5023910A (en) * 1988-04-08 1991-06-11 At&T Bell Laboratories Vector quantization in a harmonic speech coding arrangement
JP3033060B2 (ja) * 1988-12-22 2000-04-17 国際電信電話株式会社 音声予測符号化・復号化方式
JPH0683180B2 (ja) 1989-05-31 1994-10-19 松下電器産業株式会社 情報伝送装置
JPH03153075A (ja) 1989-11-10 1991-07-01 Mitsubishi Electric Corp ショットキー型撮像素子
US5103459B1 (en) 1990-06-25 1999-07-06 Qualcomm Inc System and method for generating signal waveforms in a cdma cellular telephone system
US5247579A (en) * 1990-12-05 1993-09-21 Digital Voice Systems, Inc. Methods for speech transmission
ZA921988B (en) 1991-03-29 1993-02-24 Sony Corp High efficiency digital data encoding and decoding apparatus
US5265190A (en) * 1991-05-31 1993-11-23 Motorola, Inc. CELP vocoder with efficient adaptive codebook search
DE69233794D1 (de) 1991-06-11 2010-09-23 Qualcomm Inc Vocoder mit veränderlicher Bitrate
US5255339A (en) * 1991-07-19 1993-10-19 Motorola, Inc. Low bit rate vocoder means and method
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5884253A (en) * 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
EP0577488B9 (en) * 1992-06-29 2007-10-03 Nippon Telegraph And Telephone Corporation Speech coding method and apparatus for the same
JPH06259096A (ja) * 1993-03-04 1994-09-16 Matsushita Electric Ind Co Ltd 音声符号化装置
IT1270439B (it) * 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la quantizzazione dei parametri spettrali in codificatori numerici della voce
SG43128A1 (en) * 1993-06-10 1997-10-17 Oki Electric Ind Co Ltd Code excitation linear predictive (celp) encoder and decoder
WO1995010760A2 (en) * 1993-10-08 1995-04-20 Comsat Corporation Improved low bit rate vocoders and methods of operation therefor
US5784532A (en) * 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
JP2907019B2 (ja) * 1994-09-08 1999-06-21 日本電気株式会社 音声符号化装置
JP3153075B2 (ja) * 1994-08-02 2001-04-03 日本電気株式会社 音声符号化装置
JP3003531B2 (ja) * 1995-01-05 2000-01-31 日本電気株式会社 音声符号化装置
TW271524B (ko) 1994-08-05 1996-03-01 Qualcomm Inc
JPH08179795A (ja) * 1994-12-27 1996-07-12 Nec Corp 音声のピッチラグ符号化方法および装置
US5699478A (en) * 1995-03-10 1997-12-16 Lucent Technologies Inc. Frame erasure compensation technique
US5710863A (en) * 1995-09-19 1998-01-20 Chen; Juin-Hwey Speech signal quantization using human auditory models in predictive coding systems
JP3653826B2 (ja) * 1995-10-26 2005-06-02 ソニー株式会社 音声復号化方法及び装置
TW321810B (ko) * 1995-10-26 1997-12-01 Sony Co Ltd
US5809459A (en) * 1996-05-21 1998-09-15 Motorola, Inc. Method and apparatus for speech excitation waveform coding using multiple error waveforms
JP3335841B2 (ja) * 1996-05-27 2002-10-21 日本電気株式会社 信号符号化装置
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
JPH10124092A (ja) * 1996-10-23 1998-05-15 Sony Corp 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置
DE69712538T2 (de) * 1996-11-07 2002-08-29 Matsushita Electric Ind Co Ltd Verfahren zur Erzeugung eines Vektorquantisierungs-Codebuchs
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
JPH113099A (ja) * 1997-04-16 1999-01-06 Mitsubishi Electric Corp 音声符号化復号化システム、音声符号化装置及び音声復号化装置
US6073092A (en) * 1997-06-26 2000-06-06 Telogy Networks, Inc. Method for speech coding based on a code excited linear prediction (CELP) model
EP0925580B1 (en) * 1997-07-11 2003-11-05 Koninklijke Philips Electronics N.V. Transmitter with an improved speech encoder and decoder
US6385576B2 (en) * 1997-12-24 2002-05-07 Kabushiki Kaisha Toshiba Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch
JPH11224099A (ja) * 1998-02-06 1999-08-17 Sony Corp 位相量子化装置及び方法
FI113571B (fi) * 1998-03-09 2004-05-14 Nokia Corp Puheenkoodaus
US6973424B1 (en) * 1998-06-30 2005-12-06 Nec Corporation Voice coder
US6301265B1 (en) 1998-08-14 2001-10-09 Motorola, Inc. Adaptive rate system and method for network communications
US6507814B1 (en) * 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US6260010B1 (en) * 1998-08-24 2001-07-10 Conexant Systems, Inc. Speech encoder using gain normalization that combines open and closed loop gains
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
DE69939086D1 (de) * 1998-09-17 2008-08-28 British Telecomm Audiosignalverarbeitung
EP0987680B1 (en) * 1998-09-17 2008-07-16 BRITISH TELECOMMUNICATIONS public limited company Audio signal processing
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6640209B1 (en) * 1999-02-26 2003-10-28 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
US6377914B1 (en) * 1999-03-12 2002-04-23 Comsat Corporation Efficient quantization of speech spectral amplitudes based on optimal interpolation technique
EP1095370A1 (en) * 1999-04-05 2001-05-02 Hughes Electronics Corporation Spectral phase modeling of the prototype waveform components for a frequency domain interpolative speech codec system
US6324505B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Amplitude quantization scheme for low-bit-rate speech coders
US6397175B1 (en) * 1999-07-19 2002-05-28 Qualcomm Incorporated Method and apparatus for subsampling phase spectrum information
US6574593B1 (en) * 1999-09-22 2003-06-03 Conexant Systems, Inc. Codebook tables for encoding and decoding
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
CN1187735C (zh) * 2000-01-11 2005-02-02 松下电器产业株式会社 多模式话音编码装置和解码装置
ES2318820T3 (es) 2000-04-24 2009-05-01 Qualcomm Incorporated Procedimiento y aparatos de cuantificacion predictiva del habla de voces.
US6584438B1 (en) * 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
JP2002229599A (ja) * 2001-02-02 2002-08-16 Nec Corp 音声符号列の変換装置および変換方法
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
US20040176950A1 (en) * 2003-03-04 2004-09-09 Docomo Communications Laboratories Usa, Inc. Methods and apparatuses for variable dimension vector quantization
US7613607B2 (en) * 2003-12-18 2009-11-03 Nokia Corporation Audio enhancement in coded domain
CN1950883A (zh) * 2004-04-30 2007-04-18 松下电器产业株式会社 可伸缩性解码装置及增强层丢失的隐藏方法
US20100185442A1 (en) * 2007-06-21 2010-07-22 Panasonic Corporation Adaptive sound source vector quantizing device and adaptive sound source vector quantizing method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0696026A2 (en) * 1994-08-02 1996-02-07 Nec Corporation Speech coding device
WO2001006495A1 (en) * 1999-07-19 2001-01-25 Qualcomm Incorporated Method and apparatus for interleaving line spectral information quantization methods in a speech coder

Also Published As

Publication number Publication date
EP2040253A1 (en) 2009-03-25
KR20020093943A (ko) 2002-12-16
HK1078979A1 (en) 2006-03-24
ATE553472T1 (de) 2012-04-15
BR0110253A (pt) 2006-02-07
EP1796083A3 (en) 2007-08-01
EP1279167A1 (en) 2003-01-29
US7426466B2 (en) 2008-09-16
CN1432176A (zh) 2003-07-23
ATE420432T1 (de) 2009-01-15
ATE363711T1 (de) 2007-06-15
US20080312917A1 (en) 2008-12-18
US8660840B2 (en) 2014-02-25
TW519616B (en) 2003-02-01
US20040260542A1 (en) 2004-12-23
WO2001082293A1 (en) 2001-11-01
JP5037772B2 (ja) 2012-10-03
EP2040253B1 (en) 2012-04-11
EP1796083B1 (en) 2009-01-07
DE60128677D1 (de) 2007-07-12
ES2287122T3 (es) 2007-12-16
DE60128677T2 (de) 2008-03-06
JP2003532149A (ja) 2003-10-28
ES2318820T3 (es) 2009-05-01
DE60137376D1 (de) 2009-02-26
CN100362568C (zh) 2008-01-16
EP1279167B1 (en) 2007-05-30
EP1796083A2 (en) 2007-06-13
CN1655236A (zh) 2005-08-17
AU2001253752A1 (en) 2001-11-07

Similar Documents

Publication Publication Date Title
KR100804461B1 (ko) 보이스화된 음성을 예측적으로 양자화하는 방법 및 장치
JP4870313B2 (ja) 可変レート音声符号器におけるフレーム消去補償方法
KR100898323B1 (ko) 음성 코더용 스펙트럼 크기 양자화 방법
JP4861271B2 (ja) 位相スペクトル情報をサブサンプリングする方法および装置
KR100752797B1 (ko) 음성 코더에서 선 스펙트럼 정보 양자화법을 인터리빙하는 방법 및 장치
KR100756570B1 (ko) 음성 코더의 프레임 프로토타입들 사이의 선형 위상시프트들을 계산하기 위해 주파수 대역들을 식별하는 방법및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130130

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140129

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150129

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20151230

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20161229

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20171228

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20190107

Year of fee payment: 12