KR100898324B1 - 음성 코더용 스펙트럼 크기 양자화 방법 - Google Patents

음성 코더용 스펙트럼 크기 양자화 방법 Download PDF

Info

Publication number
KR100898324B1
KR100898324B1 KR1020077017220A KR20077017220A KR100898324B1 KR 100898324 B1 KR100898324 B1 KR 100898324B1 KR 1020077017220 A KR1020077017220 A KR 1020077017220A KR 20077017220 A KR20077017220 A KR 20077017220A KR 100898324 B1 KR100898324 B1 KR 100898324B1
Authority
KR
South Korea
Prior art keywords
vector
quantized
subvectors
delete delete
produce
Prior art date
Application number
KR1020077017220A
Other languages
English (en)
Other versions
KR20070087222A (ko
Inventor
에디 룬 틱 초이
사라스 만주나스
Original Assignee
콸콤 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 콸콤 인코포레이티드 filed Critical 콸콤 인코포레이티드
Publication of KR20070087222A publication Critical patent/KR20070087222A/ko
Application granted granted Critical
Publication of KR100898324B1 publication Critical patent/KR100898324B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Spectrometry And Color Measurement (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Interface Circuits In Exchanges (AREA)

Abstract

본 발명은 프레임으로부터 스펙트럼 정보 벡터를 추출하는 제 1 단계를 포함하는 낮은 비트율 음성 코더용 진폭 양자화 방법에 관한 것이다. 상기 벡터의 에너지는 이득 인자를 생성하기 위해 정규화된다(1301). 상기 이득 인자는 차동적으로 벡터 양자화된다. 상기 정규화된(1301) 이득 인자는 비균일 주파수 대역의 세트와 관련된 고정 디멘죤 벡터를 생성하도록 비균일하게 다운샘플링된다. 상기 고정 디멘죤 벡터는 두 개 이상의 서브벡터로 분할된다. 상기 서브벡터는 고조파 클로닝 프로세스의 최상의 장점을 갖도록 차동적으로 양자화된다.

Description

음성 코더용 스펙트럼 크기 양자화 방법{SPECTRAL MAGNITUDE QUANTIZATION FOR A SPEECH CODER}
본 발명은 일반적으로 음성 처리 분야에 관한 것이며, 더욱 구체적으로 음성 코더에서의 파라미터 양자화 방법에 관한 것이다.
디지털 기술에 의한 음성 전송은 특히 장거리 및 디지털 무선전화 분야에서 널리 보급되었다. 또한, 상기 음성전송에 있어서, 재구성된 음성의 인지된 품질을 유지하면서 채널을 통해 전송될 수 있는 최소량의 정보를 결정하는데 관심이 집중되고 있다. 만일 음성이 단순하게 샘플링 및 디지타이징에 의하여 전송된다면, 종래의 아날로그 전화기의 음성품질을 달성하는데 초당 64킬로 비트(kbps) 정도의 데이터율이 요구될 것이다. 그러나, 적당한 코딩, 송신 및 수신기 측에서의 재합성에 의한 음성 분석을 이용하면 데이터율을 상당히 감소시킬 수 있다.
음성압축용 장치는 원격 통신의 여러 분야에서 사용된다. 전형적인 분야는 무선통신이다. 무선통신 분야는 예컨대 무선전화기, 페이징, 무선 로컬 루프, 셀룰러 및 PCS 전화기와 같은 무선전화기, 모바일 인터넷 프로토콜(IP) 전화기 및 위상 통신 시스템등을 포함하는 여러 응용분야들을 포함한다. 특히 중요한 응용분야 는 이동 가입자용 무선전화기이다.
주파수분할 다중액세스(FDMA), 시분할 다중액세스(TDMA) 및 코드분할 다중액세스(CDMA)를 포함하는 무선통신 시스템을 위하여 다양한 무선(over-the-air) 인터페이스가 다수 개발되었다. 이와 관련하여, 수개의 국내 및 국제 표준, 예를 들어 개선된 이동 전화 서비스(AMPS), 이동통신용 글로벌 시스템(GSM) 및 잠정 표준 95(IS-95)등이 제정되었다. 전형적인 무선 전화통신 시스템은 코드분할 다중액세스(CDMA) 시스템이다. IS-95 표준 및 그 파생인 IS-95A, ANSI J-STD-008, IS-95B, 제3세대 표준 IS-95C 및 IS-2000등(통칭으로 모두 IS-95로 언급됨)은 미국통신산업협회(TIA) 및 셀룰러 또는 PCS 전화통신 시스템용 CDMA 무선 인터페이스를 사용하기 위한 공지된 다른 표준단체에 의하여 공표되었다. IS-95 표준을 사용하도록 구성된 전형적인 무선통신 시스템은 미국특허번호 제5,103,459호 및 제4,901,307호에 개시되어 있으며, 이 모두는 본 발명의 양수인에게 양도되고, 본 명세서에서 상호참조된다.
인간의 음성생성 모델과 관련된 파라미터를 추출하여 음성을 압축하는 기술을 이용하는 장치를 음성코더라 한다. 음성코더는 입력 음성 신호를 시간블록 또는 분석프레임으로 분할한다. 음성코더는 전형적으로 엔코더 및 디코더를 포함한다. 엔코더는 입력 음성 프레임을 분석하여 임의의 관련 파라미터를 추출한 다음, 이 파라미터를 2진 표현, 즉 비트 세트 또는 2진 데이터 패킷으로 양자화한다. 데이터 패킷은 통신채널을 통하여 수신기 및 디코더로 전송된다. 디코더는 데이터 패킷을 처리하고 파라미터를 생성하기 위하여 이들을 역양자화하며, 역양자화 파라미터를 사용하여 음성 프레임을 재합성한다.
음성 코더의 기능은 음성에 고유한 모든 기본적인 리던던시(redundancy)를 제거함으로써 디지털화된 음성 신호를 저비트율 신호로 압축하는 것이다. 디지털 압축은 입력 음성 프레임을 파라미터 세트로 나타내고, 양자화를 이용하여 파라미터를 비트 세트로 나타냄으로써 달성된다. 만일 입력 음성 프레임이 다수의 비트(Ni)를 가지며 음성 코더에 의하여 생성된 데이터 패킷이 다수의 비트(N0)를 가진다면, 음성 코더에 의하여 달성되는 압축율은 Cr=Ni/N0가 된다. 문제는 목표 압축율을 성취하면서 디코딩된 음성의 높은 음성품질을 유지하는 것이다. 음성 코더의 성능은 (1) 음성 모델 또는 상술한 분석 및 합성 처리의 조합이 얼마나 잘 수행되는가, (2) 파라미터 양자화 처리가 프레임당 N0의 목표 비트율에서 얼마나 잘 수행되는가에 달려있다. 따라서, 음성 모델의 목적은 각각의 프레임에 대하여 적은 파라미터 세트를 이용하여 목표 음성 품질 또는 음성 신호의 특성을 포착하는 것이다.
아마도 음성 코더의 설계시 가장 중요한 것은 음성 신호를 기술하는 가장 양호한 파라미터 세트(벡터 포함)를 검색하는 것이다. 이러한 양호한 파라미터 세트는 지각적으로(perceptually) 정확한 음성 신호의 재구성을 위하여 낮은 시스템 대역폭을 요구한다. 피치, 신호전력, 스펙트럼 엔벨로프(또는 포르만트(formant)), 진폭 및 위상 스펙트럼등이 음성 코딩 파라미터의 예이다.
음성 코더는 높은 시간-분해능 처리를 사용하여 작은 음성 세그먼트(전형적 으로 5 밀리초(ms)의 서브프레임)를 동시에 인코딩함으로써 시간-영역 음성 파형을 포착하는 시간-영역 코더로서 실행될 수 있다. 각각의 서브프레임에 대하여, 코드북 공간으로부터의 높은-정밀도 대표값은 공지된 여러 탐색 알고리즘에 의하여 발견된다. 선택적으로, 음성 코더는 파라미터 세트(분석)를 이용하여 입력 음성 프레임의 짧은 구간 음성 스펙트럼을 포착하고 대응하는 합성 처리를 이용하여 상기 스펙트럼 파라미터들로부터 음성 파형을 재구성하는 주파수 영역 코더로서 실행될 수 있다. 파라미터 양자화기는 A. Gersho & R.M. Gray, Vector Quantization and Signal Compression(1992)에 개시된 공지된 양자화 기술에 따라 코드 벡터의 저장된 대표값을 이용하여 파라미터를 나타냄으로써 파라미터를 유지한다.
공지된 시간 영역 음성코더는 L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals 396-453(1978)에 개시된 코드 여기 선형 예측(CELP) 코더이며, 이 문헌은 참조를 위하여 본 명세서에 통합된다. CELP 코더에서, 음성 신호의 단구간의 상관 또는 리던던시는 선형 예측(LP) 분석에 의하여 제거되며, LP 분석은 단구간의 포르만트 필터 계수를 찾는다. 단구간 예측 필터를 입력 음성 프레임에 적용하는 것은 LP 잔여 신호를 생성하며, LP 잔여 신호는 모델링되어 장구간 예측 필터 파라미터 및 후속된 확률적 코드북을 이용하여 양자화된다. 그러므로 CELP 코딩은 시간-영역 음성 파형을 인코딩하는 작업을 LP 단구간 필터 계수를 인코딩하는 작업과 LP 잔여신호를 인코딩하는 각각의 작업으로 분리한다. 시간-영역 코딩은 고정율(즉, 각 프레임에 대하여 동일한 수의 N0 비트를 이용) 또는 가변 율(서로 다른 비트율이 서로 다른 타입의 프레임에 사용되는)로 수행될 수 있다. 가변율 코더는 목표 품질을 획득하는데 적당한 레벨로 코덱 파라미터를 인코딩하는데 필요한 양의 비트만을 이용한다. 전형적인 가변율 CELP 코더는 미국 특허번호 제5,414,796호에 개시되어 있으며, 이는 본 발명의 양수인에게 양도되고, 참조를 위하여 본 명세서에 통합된다.
CELP 코더와 같은 시간-영역 코더는 전형적으로 시간-영역 음성파형의 정확도를 유지하기 위하여 프레임당 높은 N0비트수에 의존한다. CELP 코더는 일반적으로 프레임당 N0의 비트수가 상대적으로 큰 경우(예를 들어 8kbps이상), 양호한 음성 품질을 전달한다. 그러나 낮은 비트율에서(4kbps이하), 시간-영역 코더는 제한된 수의 이용가능한 비트들로 인해 고품질 및 일관된 성능을 유지할 수 없다. 낮은 비트율에서, 제한된 코드북 공간은 높은 비트율의 상업적 응용에서 성공적으로 이용되는 종래의 시간-영역 코더의 파형 매칭 능력을 제한한다. 따라서, 시간상의 개선에도 불구하고, 낮은 비트율에서 동작하는 여러 CELP 코딩 시스템은 잡음으로 인한 지각적으로 큰 왜곡을 겪는다.
결국, 낮은 비트율(즉, 2.4내지 4kbps이하의 범위)의 중간쯤에서 동작하는 높은 품질의 음성 코더를 개발할 필요성이 제기되었다. 응용 영역은 무선 전화기, 위성 통신, 인터넷 전화기, 여러 멀티미디어 및 음성-스트리밍 응용, 음성 메일 및 다른 음성 저장 시스템을 포함한다. 중요한 것은 패킷 손실 상황하에서 높은 품질과 일관된 성능이 요구된다. 최근의 여러 음성 코딩 표준화 작업은 저비율의 음성 코딩 알고리즘을 개발하는 쪽으로 이루어진다. 저비트율의 음성 코더는 허용가능한 응용 대역폭에 대하여 더 많은 채널 또는 사용자를 생성하며, 적당한 채널 코딩의 추가 레이어와 결합된 저비트율 음성 코더는 코더 명세 사항(specification)의 전체 비트 버젯(budget)에 적합할 수 있으며, 채널에러 상황하에서 일관된 성능을 전달할 수 있다.
낮은 비트율에서 효율적으로 음성을 인코딩하기 위한 하나의 효과적인 기술은 멀티모드 코딩이다. 전형적인 멀티모드 코딩 기술은 본 발명의 양수인에게 양수되고 여기서 참조로 통합되며 "가변 레이트 음성 코딩"이라는 명칭의 미국 특허 출원 번호 No. 09/217,341에 기술된다. 종래의 멀티모드 코더는 입력 음성 프레임의 여러 유형에 여러 모드, 또는 인코딩-디코딩 알고리즘을 적용한다. 각 모드, 또는 인코딩-디코딩 프로세스는 예를 들어, 유성음된 음성, 유성음되지 않은 음성, 전환 음성(예를 들어, 유성음 또는 무성음간에) 및 배경 잡음(비음성)의 소정의 음성 유형을 최적으로 나타내는데 가장 효율적인 방법을 맞춤 제공한다. 외부의, 개방루프 모드 결정 메카니즘은 입력 음성 프레임을 검사하고 어느 모드를 상기 프레임에 적용할지를 고려하여 결정을 한다. 상기 개방루프 모드 결정은 일반적으로 상기 입력 프레임으로부터 다수의 파라미터들을 추출하고, 소정의 시간 및 스펙트럼 특성에 따라 파라미터를 평가하며 상기 평가에 따른 모드 결정에 기초하여 수행된다.
2.4 kbps의 속도로 동작하는 코딩 시스템은 일반적으로 본질이 파라메트릭 (parametric)하다. 즉, 상기 코딩 시스템은 일정한 간격으로 음성 신호의 피치 (pitch) 주기 및 스펙트럼 엔벨로프(또는 포르만트)를 기술하는 파라미터들을 전송함으로써 동작한다. 예시적인 파라메트릭 코더는 LP 보코더 시스템이다.
LP 보코더는 유성음된 음성 신호를 피치 주기당 단일 펄스로 모델링한다. 상기 기본 기술은 여러가지 중 스펙트럼 엔벨로프에 대한 송신 정보를 포함하도록 확장될 수 있다. 비록 LP 보코더가 일반적으로 적절한 성능을 제공하지만, 상기 보코더는 버즈(buzz)라 특성화되는 상당한 왜곡을 발생시킬 수 있다.
최근 몇년에 걸쳐, 코더는 파형 코더 및 파라메트릭 코더 양쪽의 하이브리드로 대두되었다. 상기 하이브리드 코더의 예시는 프로토타입 파형 보간(PWI) 음성 코딩 시스템이다. 상기 PWI 코딩 시스템은 또한 프로토타입 피치 주기(PPP) 음성 코더로 공지되어있다. PWI 코딩 시스템은 유성음된 음성을 코딩하는 효율적인 방법을 제공한다. PWI의 기본 개념은 자신의 기술을 전송하기 위해, 그리고 프로토타입 파형간에 보간을 통해 음성 신호를 재구성하도록 고정된 간격에서 대표하는 피치 사이클(프로토타입 파형)을 추출하는 것이다. PWI 방법은 LP 나머지 신호 또는 음성 신호 상에 동작할 수 있다. 예시적인 PWI, 또는 PPP 음성 코더는 본 발명의 양수인에게 양수되고 여기서 참조로 통합되는 1998년 12월 21일 출원된 "주기적 음성 코딩"이란 명칭의 미국 특허 출원 No. 09/217,494에 기술된다. 다른 PWI, 또는 PPP 음성 코더는 미국 특허 No. 5,884,253 및 W. Bastiaan Kleijin & Wolfgan Granzow에 의한 "1 디지털 신호 처리시 음성 코딩의 파형 보간 방법(1991)" 215-230에 기술된다.
음성에서 구현된 스펙트럼 정보는 특히 유성음된 음성 인식의 측면에서 매우 중요하다. 프로토타입 파형 보간(PWI) 코더 또는 프로토타입 피치 주기(PPP) 코더, 다중대역 여기(MBE) 코더 및 사인 변환 코더(STC)와 같은 여러 최첨단 음성 코더들은 명시적 인코딩 파라미터와 같은 스펙트럼 크기를 이용한다. 그러나, 상기 스펙트럼 정보의 효율적인 인코딩은 여전히 도전 과제로 남아있다. 이것은 주로 고조파 진폭의 세트에 의해 공통으로 나타난 스펙트럼 벡터가 추정된 피치 주기에 비례하는 디멘죤(dimension)을 갖기 때문이다. 상기 피치가 프레임간에 변동함에 따라, 진폭 벡터의 디멘죤 또한 변동한다. 따라서, 가변-디멘죤 입력 벡터를 처리하는 VQ 방법은 스펙트럼 벡터를 인코딩하는데 요구된다. 그럼에도 불구하고, 효율적인 가변-디멘죤 VQ 방법(비트 및 메모리의 소모가 적은)은 여전히 존재하지 않는다.
당업자에게 공지된 바와 같이, 인간의 귀에 대한 주파수 분해능은 주파수의 비선형 함수(예를 들어, 멜 스케일(mel-scale) 및 바크 스케일(bark-scale))이며 인간의 귀는 낮은 주파수에서 보다 높은 주파수에서의 스펙트럼 상세 부분에 덜 민감하다. 인간의 인식력을 고려하는 상기의 지식은 효율적인 진폭 양자화기를 설계할 때 완전하게 이용되는 것이 바람직하다.
종래의 낮은 비트율 음성 코더에서, 상기 진폭 및 위상 파라미터는 각 프레임의 각 프로토타입에 대해 개별적으로 양자화되고 송신될 수 있다. 선택적으로, 상기 파라미터들은 자신들을 나타내는데 필요한 비트 수를 감소시키기 위해 직접 벡터 양자화될 수 있다. 그러나, 상기 프레임 파라미터를 양자화하기 위해 필요한 비트수를 더욱 감소시키는 것이 바람직하다. 따라서, 음성 신호 또는 선형 예측 잔여 신호의 진폭 스펙트럼을 인식적으로 나타내기 위한 효율적인 양자화 방법을 제공하는 것이 유용할 것이다. 따라서, 채널 용량을 개선하기 위해 낮은 속도의 비트 스트림으로 진폭 스펙트럼을 효율적으로 양자화하는 음성 코더가 요구된다.
본 발명은 채널 용량을 개선하기 위해 낮은 속도의 비트 스트림으로 진폭 스펙트럼을 효율적으로 양자화하는 음성 코더에 관한 것이다. 따라서, 본 발명의 일 측면에서, 음성 코더에서 스펙트럼 정보를 양자화하는 방법은 프레임으로부터 벡터 에너지 값을 갖는 스펙트럼 정보 벡터를 추출하는 단계; 다수의 이득 인자를 생성하기 위해 상기 벡터를 정규화하는 단계; 상기 다수의 이득 인자를 차동적으로 벡터 양자화하는 단계; 각각 다수의 비균일 주파수 대역과 관련된 다수의 엘리먼트를 갖는 고정 디멘죤의 벡터를 생성하기 위해 상기 다수의 정규화된 이득 인자를 비균일하게 다운샘플링하는 단계; 상기 고정 디멘죤 벡터를 다수의 서브벡터로 분할하는 단계; 및 상기 다수의 서브벡터를 차동적으로 양자화하는 단계를 포함한다.
본 발명의 또다른 측면에서, 음성 코더는 유용하게 프레임으로부터 벡터 에너지 값을 갖는 스펙트럼 정보 벡터를 추출하는 수단; 다수의 이득 인자를 생성하기 위해 상기 벡터를 정규화하는 수단; 상기 다수의 이득 인자를 차동적으로 벡터 양자화하는 수단; 각각 다수의 비균일 주파수 대역과 관련된 다수의 엘리먼트를 갖는 고정 디멘죤 벡터를 생성하기 위해 상기 다수의 정규화된 이득 인자를 비균일하게 다운샘플링하는 수단; 상기 고정 디멘죤 벡터를 다수의 서브벡터로 분할하는 수단; 및 상기 다수의 서브벡터를 차동적으로 양자화하는 수단을 포함한다.
본 발명의 또 다른 측면에서, 음성 코더는 프레임으로부터 벡터 에너지 값을 갖는 스펙트럼 정보 벡터를 추출하도록 구성된 추출 모듈; 상기 추출 모듈에 연결되고 다수의 이득 인자를 생성하기 위해 상기 벡터를 정규화하도록 구성된 정규화 모듈; 상기 정규화 모듈에 연결되고 상기 다수의 이득 인자를 차동적으로 벡터 양자화하도록 구성된 차동 벡터 양자화 모듈; 상기 정규화 모듈에 연결되고 다수의 비균일 주파수 대역 각각에 관련된 다수의 엘리먼트를 갖는 고정 디멘죤 벡터를 생성하기 위해 상기 다수의 정규화된 이득 인자를 비균일하게 다운샘플링하도록 구성된 다운샘플러; 상기 고정 디멘죤 벡터를 고대역 서브벡터 및 저대역 서브벡터로 분할하는 분할 메카니즘; 및 상기 분할 메카니즘에 연결되고 상기 고대역 서브벡터 및 저대역 서브벡터를 차동적으로 양자화하도록 구성된 차동 양자화 모듈을 포함한다.
본 명세서에 기술된 전형적인 실시예들은 CDMA 무선(over-the-air) 인터페이스를 이용하도록 구성된 무선 전화통신 시스템과 관련된다. 그럼에도 불구하고 당업자들은 본 발명의 특징을 이용하는 서브샘플링 방법 및 장치가 당업자에게 공지된 기술을 이용하는 여러 통신 시스템들과 관련된다는 것을 이해할 것이다.
도 1에 도시된 바와 같이, CDMA 무선 전화시스템은 일반적으로 다수의 이동가입자 유니트(10), 다수의 기지국(12), 기지국 제어기(BSC;14) 및 이동교환센터(MSC;16)를 포함한다. MSC(16)는 통상적인 공중 전화망(PSTN;18)과 인터페이스하도록 구성된다. MSC(16)는 또한 BSC(14)와 인터페이스하도록 구성된다. BSC(14)는 귀항(backhall) 라인을 통하여 기지국(12)에 접속된다. 귀항 라인은 예를 들어 E1/T1, ATM, IP, PPP, 프레임 릴레이, HDSL, ADSL, 또는 xDSL을 포함하는 공지된 여러 인터페이스를 지원하도록 구성될 수 있다. 시스템에는 두 개 이상의 BSC(14)가 상주한다. 각각의 기지국(12)은 적어도 하나의 섹터(도시되지 않음)를 포함하며, 각각의 섹터는 기지국(12)으로부터 특정한 방사방향으로 떨어진 안테나 또는 무지향성 안테나를 포함한다. 선택적으로, 각각의 섹터는 다이버시티 수신을 위하여 두 개의 안테나를 포함할 수 있다. 각각의 기지국(12)은 다수의 주파수 할당을 지원하도록 설계될 수 있다. 섹터의 교차 및 주파수 할당은 CDMA 채널로 언급될 수 있다. 기지국(12)은 기지국 트랜시버 서브시스템(BTS;12)으로서 공지될 수 있다. 선택적으로, "기지국"은 당업계에서 통상적으로 하나의 BSC(14) 및 하나 이상의 BTS(12)로 언급된다. BTS(12)는 또한 "셀 사이트"(12)로서 표시될 수 있다. 선택적으로, 주어진 BTS(12)의 개별 섹터들이 셀 사이트로서 언급될 수 있다. 이동 가입자 유니트(10)는 전형적으로 셀룰러 또는 PCS 전화기(10)이다. 이 시스템은 유리하게 IS-95 표준에 따라 이용되도록 구성된다.
셀룰러 전화 시스템의 일반적인 동작 동안, 기지국(12)은 이동 유니트(10) 세트로부터 역방향 링크 신호 세트를 수신한다. 이동 유니트(10)는 전화기 호출 또는 다른 통신을 수행한다. 주어진 기지국(12)에 의하여 수신된 각각의 역방향 링크 신호는 기지국(12) 내에서 처리된다. 최종 데이터는 BSC(14)로 전송된다. BSC(14)는 기지국(12) 간의 소프트 핸드오프의 조정을 포함하는 이동성 관리 기능 및 호출 자원 할당을 제공한다. BSC(14)는 또한 PSTN(18)과 인터페이스하기 위하여 추가의 라우팅 서비스를 제공하는 MSC(16)에 수신된 데이터를 라우팅한다. 유사하게, PSTN(18)은 MSC(16)와 인터페이스하며, MSC(16)는 BSC(14)와 인터페이스하 고 다음으로 기지국(12)을 제어하여 이동 유니트 세트(10)에 순방향 링크 신호 세트를 전송한다.
도 2에서, 제 1 엔코더(100)는 디지털화된 음성 샘플(s(n))을 수신하고, 전송 매체(102) 또는 통신 채널(102)을 통하여 제 1 디코더(104)로 전송하기 위한 샘플(s(n))을 인코딩한다. 디코더(104)는 인코딩된 음성 샘플을 디코딩하며, 출력 음성 신호(sSYNTH(n))를 합성한다. 반대방향으로의 전송을 위하여, 제 2 엔코더(106)는 통신 채널(108)을 통하여 전송되는 디지털화된 음성 샘플(s(n))을 인코딩한다. 제 2 디코더(110)는 인코딩된 음성 샘플을 수신 및 디코딩하고, 합성된 출력 음성 신호(sSYNTH(n))를 생성한다.
음성 샘플(s(n))은 예를 들어 펄스 코드 변조(PCM), 압신된 μ-법칙, 또는 A-법칙을 포함하는 공지된 여러 방법 중 임의의 방법에 따라 디지털화 및 양자화된 음성 신호를 나타낸다. 공지된 바와 같이, 음성 샘플(s(n))은 입력 데이터 프레임으로 구성되고, 각각의 프레임은 미리 결정된 개수의 디지털화된 음성 샘플(s(n))을 포함한다. 전형적인 실시예에서, 8kHz의 샘플링율이 사용되며, 각각의 20ms 프레임은 160개의 샘플을 포함한다. 이하 개시되는 실시예에서, 데이터 전송율은 13.2kbps(전체 데이터율)에서 6.2kbps(1/2데이터율), 2.6kbps(1/4데이터율), 1kbps(1/8데이터율)로 프레임단위로 변경될 수 있다. 데이터 전송율을 변경하는 것은 낮은 비트율이 상대적으로 적은 음성 정보를 포함하는 프레임에 선택적으로 이용될 수 있기 때문에 유리하다. 당업자에 의하여 이해되는 바와 같이, 다른 샘플링율, 프레임 크기 및 데이터 전송율이 사용될 수 있다.
제 1 엔코더(100) 및 제 2 디코더(110)는 모두 제 1 음성 코더 또는 음성 코덱을 포함한다. 음성 코더는 예를 들면 도 1을 참조로 하여 앞서 기술된 바와 같이 가입자 유니트, BTS, 또는 BSC를 포함하는 음성 신호를 전송하는 임의의 통신 장치에 사용될 수 있다. 유사하게, 제 2 엔코더(106) 및 제 1 디코더(104)는 모두 제 2 음성 코더를 포함한다. 음성 코더가 디지털 신호 처리기(DSP), 주문형 집적회로(ASIC), 이산 게이트 로직, 펌웨어, 또는 임의의 통상적인 프로그램 가능한 모듈 및 마이크로프로세서를 이용하여 수행될 수 있다는 것은 당업자에 의하여 이해될 것이다. 소프트웨어 모듈은 RAM 메모리, 플래쉬 메모리, 레지스터 또는 임의의 다른 형태의 기록가능한 공지된 저장매체에 상주할 수 있다. 선택적으로, 임의의 통상적인 프로세서, 제어기 또는 상태 머신이 마이크로프로세서를 대체할 수 있다. 음성 코딩을 위하여 특별히 설계된 전형적인 ASIC은 본 발명의 양수인에게 양도되고 여기에서 참조로서 통합된 미국 특허번호 제5,727,123호 및 본 발명의 양수인에게 양도되며 여기에서 참조로서 통합된 VOCODER ASIC으로 명명되고 1994년 2월 16일에 출원된 미국 특허출원 번호 제08/197,417호에 개시되어 있다.
도 3에서, 음성 코더에서 사용될 수 있는 엔코더(200)는 모드 결정 모듈(202), 피치 추정 모듈(204), LP 분석 모듈(206), LP 분석 필터(208), LP 양자화 모듈(210) 및 잔여 양자화 모듈(212)을 포함한다. 입력된 음성 프레임(s(n))은 모드 결정 모듈(202), 피치 추정 모듈(204), LP 분석 모듈(206) 및 LP 분석 필터(208)에 제공된다. 모드 결정 모듈(202)은 각각의 입력된 음성 프레임(s(n)) 중에서 무엇보다도 주기성, 에너지, 신호대잡음비(SNR) 또는 제로크로싱율을 기초로 모드 인덱스(IM) 및 모드(M)를 생성한다. 주기성과 관련되어 음성 프레임을 분류하는 여러 방법들은 미국 특허번호 제5,911,128호에 개시되어 있으며, 이 모두는 본 발명의 양수인에게 양도되고, 본 명세서에서 상호참조된다. 이와 같은 방법들은 또한 무선 통신산업 협회 잠정 표준 TIA/EIA IS-127 및 TIA/EIA IS-733에 구체화되어 있다. 전형적인 모드 결정 계획은 전술한 미국 특허출원번호 제09/217,341호에 개시되어 있다.
피치 추정 모듈(204)은 각각의 입력된 음성 프레임(s(n))을 기초로 피치 인덱스(IP) 및 래그값(P0)을 생성한다. LP 분석 모듈(206)은 LP 파라미터(a)를 생성하기 위하여 각각의 입력된 음성 프레임(s(n))에 대하여 선형 예측 분석을 수행한다. LP 파라미터(a)는 LP 양자화 모듈(210)에 제공된다. LP 양자화 모듈(210)은 또한 모드 M을 수신하며, 이에 따라 모드종속 방식으로 양자화 처리를 수행하게 된다. LP 양자화 모듈(210)은 LP 인덱스(ILP) 및 양자화된 LP 파라미터(
Figure 112008090524394-pat00001
)를 생성한다. LP 분석 필터(208)는 입력된 음성 프레임(s(n))외에 양자화된 LP 파라미터(
Figure 112008090524394-pat00002
)를 수신한다. LP 분석 필터(208)는 LP 잔여 신호(R[n])를 생성하며, 이는 양자화된 선형 예측 파라미터(
Figure 112008090524394-pat00003
)를 기초로 하는 재구성된 음성과 입력된 음성 프레임(s(n)) 사이의 에러를 나타낸다. LP 잔여 R[n], 모드 M 및 양자화된 LP 파라미터()는 잔여 양자화 모듈(212)에 제공된다. 이러한 값들을 기초로, 잔여 양자화 모듈(212)은 잔여 인덱스(IR) 및 양자화된 잔여 신호(
Figure 112008090524394-pat00005
)를 생성한다.
도 4에서, 음성 코더에 사용될 수 있는 디코더(300)는 LP 파라미터 디코딩 모듈(302), 잔여 디코딩 모듈(304), 모드 디코딩 모듈(306) 및 LP 합성 필터(308)를 포함한다. 모드 디코딩 모듈(306)은 모드 인덱스(IM)를 수신하여 디코딩하며, 이로부터 모드 M을 생성한다. LP 파라미터 디코딩 모듈(302)은 모드 M 및 LP 인덱스(ILP)를 수신한다. LP 파라미터 디코딩 모듈(302)은 수신된 값들을 디코딩하여 양자화된 LP 파라미터(
Figure 112007054326618-pat00006
)를 생성한다. 잔여 디코딩 모듈(304)은 잔여 인덱스(IR), 피치 인덱스(IP) 및 모드 인덱스(IM)를 수신한다. 잔여 디코딩 모듈(304)은 수신된 값들을 디코딩하여 양자화된 잔여 신호(
Figure 112007054326618-pat00007
)를 생성한다. 양자화된 잔여 신호(
Figure 112007054326618-pat00008
) 및 양자화된 LP 파라미터(
Figure 112007054326618-pat00009
)는 LP 합성 필터(308)에 제공되며, 이로부터 디코딩된 출력 음성 신호(
Figure 112007054326618-pat00010
)를 합성한다.
도 3의 엔코더(200) 및 도 4의 디코더(300)의 여러 모듈의 동작 및 수행은 상술한 미국 특허번호 5,414,796호 및 L.B. Rabiner & R.W.Schafer, Digital Processing of Speech Signals 396-453(1978)에 개시되어 있다.
도 5의 흐름도에 도시된 바와 같이, 일 실시예를 따르는 음성 코더는 전송을 위하여 음성 샘플을 처리하는 여러 단계들을 수행한다. 단계 400에서, 음성 코더는 연속 프레임에서 음성 신호의 디지털 샘플을 수신한다. 주어진 프레임을 수신할 때, 음성 코더는 단계 402로 진행된다. 단계 402에서, 음성 코더는 프레임의 에너지를 검출한다. 에너지는 프레임의 음성 활성도의 측정치이다. 음성 검출은 디지털화된 음성 샘플의 진폭의 제곱을 합산하고 그 결과 에너지를 임계값과 비교함으로써 수행된다. 일 실시예에서, 임계값은 배경잡음의 변화하는 레벨에 기초하여 적용된다. 전형적인 가변 임계 음성 활성 검출기는 상술한 미국 특허번호 제5,414,796호에 개시되어 있다. 어떤 무성음은 배경잡음으로서 잘못 인코딩된 매우 낮은 에너지의 샘플일 수 있다. 이를 방지하기 위하여, 저에너지 샘플의 스펙트럼 기울기가 상술한 미국 특허번호 제5,414,796호에 개시된 바와 같이 배경잡음과 무성음을 구별하는데 사용될 수 있다.
프레임의 에너지를 검출한 후에, 음성 코더는 단계 404로 진행한다. 단계 404에서, 음성 코더는 검출된 프레임 에너지가 프레임을 음성정보를 포함하는 프레임으로 분류하기에 충분한지를 결정한다. 만일 검출된 프레임 에너지가 미리 결정된 임계값 이하로 떨어진다면, 음성 코더는 단계 406으로 진행한다. 단계 406에서, 음성 코더는 배경잡음(즉, 음성이 아니거나 소리가 없는 상태)으로서 프레임을 인코딩한다. 일 실시예에서, 배경잡음 프레임은 1/8비트율 또는 1kbps로 인코딩된다. 만일 단계 404에서, 검출된 프레임 에너지가 미리 결정된 임계레벨을 충족시키거나 초과한다면, 프레임은 음성으로서 분류되고 음성 코더는 단계 408로 진행된다.
단계 408에서, 음성 코더는 프레임이 무성음인지의 여부를 결정한다. 즉, 음성 코더는 프레임의 주기성을 검사한다. 주기성 결정에 관한 여러 공지된 방법들은 예를 들면 제로 크로싱(zero crossing)의 사용 및 정규 자기상관 함수(NACF) 의 사용을 포함한다. 특히, 주기성을 검출하기 위한 제로 크로싱 및 NACF의 사용은 상술한 미국특허번호 제5,911,128호 및 미국특허출원번호 제09/217,341호에 개시되어 있다. 또한, 유성음과 무성음을 구분하는데 사용되는 상술한 방법은 무선통신산업협회 잠정 표준 TIA/EIA IS-127 및 TIA/EIA IS-733호에 통합된다. 만일 프레임이 단계 408에서 무성음인 것으로 결정되었다면, 음성 코더는 단계 410으로 진행된다. 단계 410에서, 음성 코더는 프레임을 무성음으로 인코딩한다. 일 실시예에서, 무성음 프레임은 1/4비트율 또는 2.6kbps로 인코딩된다. 만일 단계 408에서 프레임이 무성음인 것으로 결정되지 않는다면, 음성 코더는 단계 412로 진행된다.
단계 412에서, 음성 코더는 상술한 미국특허번호 제5,911,128호에 개시된 바와 같이 공지된 주기성 검출방법을 이용하여 프레임이 전이 음성인지를 결정한다. 만일 프레임이 전이 음성인 것으로 결정되면, 음성 코더는 단계 414로 진행된다. 단계 414에서, 프레임은 전이 음성으로서 인코딩된다(즉, 무성음에서 유성음으로 전이되는 단계). 일 실시예에서, 전이 음성 프레임은 MULTIPULSE INTERPOLATIVE CODING OF TRANSITION SPEECH FRAMES로 명명되고 1999년 5월 7일 출원된 미국 특허출원번호 제09/307,294호에 개시된 멀티펄스 보간 코딩 방법에 따라 인코딩되며, 상기 출원은 본 발명의 양수인에게 양도되고, 본 명세서에서 상호참조된다. 다른 실시예에서, 전이 음성 프레임은 전체 데이터율(full rate) 또는 13.2kbps로 인코딩된다.
단계 412에서, 음성 코더가 프레임이 무성음성이 아닌 것으로 결정하면, 단계 416으로 진행된다. 단계 416에서, 음성 코더는 유성음으로 프레임을 인코딩한다. 일 실시예에서, 유성음 프레임은 전체 데이터율(full rate) 또는 6.2kbps로 인코딩될 수 있다. 또한, 유성음 프레임을 전체 데이터율 또는 13.2kbps(또는 8k CELP 코더에서 전체 데이터율, 8kbps)로 인코딩할 수 있다. 그러나 당업자는 1/2데이터율로 코딩된 음성 프레임은 코더가 음성 프레임의 안정상태를 이용하여 유효한 대역폭을 절약할 수 있도록 한다는 것을 이해할 것이다. 게다가, 유성음을 인코딩하는데 사용된 인코딩율과는 상관없이, 유성음은 이전 프레임으로부터의 정보를 이용하여 유리하게 코딩되며, 따라서 예측가능하게 코딩될 것이다.
당업자들은 음성 신호 또는 대응되는 LP 잔여 부분 중 하나가 도 5에 도시된 바와 같은 단계들에 의하여 인코딩될 수 있다는 것을 이해할 것이다. 잡음, 무성음, 무성음, 유성음의 파형특성은 도 6A의 그래프에 시간함수로 도시되어 있다. 잡음, 무성음, 무성음, 유성음 LP 잔여치의 파형특성은 도 6B의 그래프에 시간함수로 도시되어 있다.
일 실시예에서 음성 코더는 도 7에 도시된 바와 같이 송신 또는 엔코더 섹션 및 수신 또는 디코더 섹션을 포함한다. 상기 엔코더 섹션은 유성음/무성음 분리 모듈(1101), 피치/스펙트럼 엔벨로프 양자화기(1102), 무성음 양자화 모듈(1103)과 진폭 및 위상 추출 모듈(1104), 진폭 양자화 모듈(1105) 및 위상 양자화 모듈(1106)을 포함한다. 상기 디코더 섹션은 진폭 역양자화 모듈(1107), 위상 역양자화 모듈 (1108), 무성음 역양자화 및 합성 모듈(1109), 유성음 세그먼트 합성 모듈(1110), 음성/잔여 합성 모듈(1111) 및 피치/스펙트럼 엔벨로프 역양자화기 (1112)를 포함한다. 상기 음성 코더는 DSP의 일부로서 실행될 수 있으며, 예를 들어, PCS 또는 셀룰라 전화 시스템의 가입자 유니트 또는 기지국에, 또는 위성 시스템의 가입자 유니트 또는 게이트웨이에 상주할 수 있다.
도 7의 음성 코더에서, 음성 신호 또는 LP 잔여 신호는 종래의 유성음/무성음 분류자인 유성음/무성음 분리 모듈(1101)의 입력에 제공된다. 유성음 및 유성음에 대한 인간의 인식도가 실제적으로 다르기 때문에 상기 분류자는 유용하다. 특히, 상기 무성음에서 내재된 정보의 많은 부분은 인간의 귀에 인식적으로 무관계하다. 결과적으로, 상기 유성음 및 무성음 세그먼트의 진폭 스펙트럼은 최대 코딩 효율을 달성하기 위해 개별적으로 양자화되어야 한다. 여기 기술된 실시예들은 유성음 진폭 스펙트럼의 양자화와 관계가 있는 반면, 본 발명의 특징부는 또한 무성음을 양자화하는데 적용될 수 있다.
상기 피치/스펙트럼 엔벨로프 양자화기(1102)는 도 3의 엘리먼트(204, 206, 210)를 참조하여 기술된 기술과 같은 종래 기술에 따라 피치 및 스펙트럼 엔벨로프 정보를 계산하고 상기 정보를 디코더에 송신한다. 상기 무성음 부분은 각각 무성음 양자화 모듈(1103) 및 무성음 역양자화 모듈(1109)에서 종래의 방법으로 인코딩되고 디코딩된다. 반면에, 상기 유성음 부분은 먼저 진폭 및 위상 추출을 위해 진폭 및 위상 추출 모듈(1104)에 송신된다. 상기 추출 절차는 당업자에게 공지된 종래의 다수의 방법으로 실행될 수 있다. 예를 들어, 진폭 및 위상 추출의 한가지 특정 방법은 미국 특허 No. 5,884,253에 기술된 바와 같은 프로토타입 파형 보간 방법이다. 상기 특정 방법에서, 각 프레임의 진폭 및 위상이 피치 주기의 길이를 갖는 프로토타입 파형으로부터 추출된다. 상기 다중대역 여기 코더(MBE) 및 고조파 음성 코더에서 사용되는 것과 같은 다른 방법들은 또한 진폭 및 위상 추출 모듈(1104)에 의해 사용될 수 있다. 상기 유성음 세그먼트 분석 모듈(1110)은 상기 진폭 및 위상 추출 모듈(1104)의 역 연산을 실행한다.
상기 위상 양자화 모듈(1106) 및 위상 역양자화 모듈(1108)은 종래의 형태로 유용하게 실행된다. 도 8-10을 참조한 다음의 기술은 진폭 양자화 모듈(1105) 및 진폭 역양자화 모듈(1107)을 더 상세히 기술할 것이다.
Ⅰ. 에너지 정규화
도 8에 도시된 바와 같이, 일 실시예에 따른 진폭 양자화 모듈은 대역 에너지 정규화기(1301), 전력 차동 양자화기(1302), 비균일 스펙트럼 다운샘플러 (1303), 저대역 진폭 차동 양자화기(1304), 고대역 진폭 차동 양자화기(1305), 저대역 진폭 차동 역양자화기(1306), 고대역 진폭 차동 역양자화기(1307), 전력 차동 역양자화기 (1308) 및 고조파 클로닝(cloning) 모듈(1309)(도면에서 명확화를 위해 두 개로 도시됨)을 포함한다. 네 개의 유니트 지연 엘리먼트는 또한 진폭 역양자화 모듈에 포함된다. 도 9에 도시된 바와 같이, 일 실시예에 따른 진폭 역양자화 모듈은 저대역 진폭 차동 역양자화기(1401), 고대역 진폭 차동 역양자화기(1402), 스펙트럼 집적기(1403), 비균일 스펙트럼 업샘플러(1404), 대역 에너지 역정규화기 (1405), 전력 차동 역양자화기(1406) 및 고조파 클로닝 모듈(1407)(도면의 명확성을 위해 두 개로 도시됨)을 포함한다. 네 개의 유니트 지연 엘리먼트는 또한 진폭 역양자화 모듈에 포함된다.
진폭 양자화 프로세스의 제 1 단계는 대역 에너지 정규화기(1301)에서 동작되는 이득 정규화 인자들을 결정하는 것이다. 일반적으로, 진폭 스펙트럼이 먼저 정규화되면 상기 진폭 스펙트럼의 형태는 저대역 진폭 차동 양자화기(1304) 및 고대역 진폭 차동 양자화기(1305)에서 더 효율적으로 코딩될 수 있다. 상기 대역 에너지 정규화기(1301)에서, 상기 에너지 정규화는 저대역 및 고대역에서 개별적으로 수행된다. 상기 비정규화 스펙트럼(
Figure 112008090524394-pat00011
로 표시) 및 정규화된 스펙트럼(
Figure 112008090524394-pat00012
으로 표시)간의 관계식은 두 개의 이득 인자, α및 β로 표시된다. 구체적으로,
Figure 112007054326618-pat00013
Figure 112007054326618-pat00014
K1은 저대역에 대응하는 한 세트의 고조파 수를 나타내고, K2는 고대역에 대응하는 한 세트의 고조파 수를 나타낸다. 상기 저대역 및 고대역을 분리하는 경계는 예시적인 실시예에서 1104 Hz로 선택된다. (하기에 기술되는 바와 같이, 상기 특정 주파수 포인트는 실제로 도 10에 나타난 바와 같이, 대역 #11의 오른쪽 에지에 대응한다.) 도 11B의 그래프는 정규화된 진폭 스펙트럼의 예를 도시한다. 본래의 진폭 스펙트럼은 도 11A의 그래프에 도시된다.
Ⅱ. 비균일 스펙트럼 다운샘플링
상기 대역 에너지 정규화기(1301)에 의해 생성된 정규화된 스펙트럼
Figure 112007054326618-pat00015
은 도 10에 도시된 바와 같이 미리 결정된 한 세트의 비균일 대역에 기초하여 동작하는 비균일 스펙트럼 다운샘플러(1303)에 제공된다. 전체 주파수 범위에서 22개의 비균일 대역(주파수 빈으로 공지됨)이 있으며, 상기 빈 에지들은 주파수 스케일(Hz)의 고정 포인트에 대응한다. 첫번째 8개 대역의 크기는 약 95Hz로 고정되며, 나머지 대역의 크기는 주파수에 따라 대수적으로 증가한다. 대역의 수 및 대역의 크기는 상기에 기술된 실시예들에 한정되지 않으며 본 발명의 원리를 벗어나지 않고서 변형될 수 있다.
다운샘플링 프로세스는 다음과 같이 동작한다. 각 고조파
Figure 112008090524394-pat00016
는 먼저 주파수 빈과 결합된다. 그후에 각 빈의 고조파들의 평균 크기가 계산된다. 결과 스펙트럼은 B(i), i=1, 2, ..., 22로 표시되는 22개의 스펙트럼 값을 갖는 벡터가 된다. 몇개의 빈들은 특히 작은 래그(lag) 값들을 대비해 비어있을 수 있다. 스펙트럼의 고조파의 수는 기본 주파수에 따른다. 종래의 음성 코딩 시스템에서 최소 허용가능 피치 값은 20(8 kHz의 샘플링 주파수를 추정)으로 세팅되며, 11개 고조파에만 대응한다. 따라서, 비어있는 빈들을 피할 수 없다.
비어있는 빈이 존재하는지의 탐색 및 코드북 설계를 용이하게 하기 위해, 빈 가중치라 지칭되는 파라미터 W(i), i=1, 2, ..., 22, 는 비어있는 빈들의 위치를 추적하도록 설계된다. 상기 파라미터 W(i)는 유용하게는 비어있는 빈들에 대해 제로로 세팅되고 점유된 빈들에 대해 1로 세팅된다. 상기 빈 가중치 정보는 코드북 탐색 및 트레이닝동안 비어있는 빈들을 제거하기 위해 종래의 VQ 루틴에서 사용될 수 있다. {W(i)}는 상기 기본 주파수만의 함수이다. 따라서, 빈 가중 정보는 디코더에 송신될 필요가 없다.
상기 비균일 다운샘플러(1303)는 두 가지 중요한 목적에 사용된다. 먼저, 가변 디멘죤(dimension)의 진폭 벡터는 대응하는 빈 가중치를 갖는 고정 디멘죤 벡터로 매핑된다. 따라서, 종래의 VQ 기술은 다운샘플링된 벡터를 양자화하도록 적용될 수 있다. 둘째로, 상기 비균일 빈 방식은 인간의 귀가 주파수 스케일의 비선형 함수(바크-스케일과 유사)인 주파수 분해능을 갖는다는 현상에 주목한다. 인식적으로 관계없는 정보의 대부분은 코딩 효율을 강화하기 위한 다운샘플링 프로세스 동안 제거된다.
Ⅲ. 이득 인자의 양자화
기술분야에 공지된 바와 같이, 신호 전력의 로그(logarithm)는 신호 전력 자체보다 인식적으로 더 관련이 있다. 따라서, 상기 두 개의 이득 인자 α및 β의 양자화는 다른 방식으로 로그 영역에서 수행된다. 채널 오류때문에, 적은양의 누설을 차동 양자화기에 주입하는 것이 유용하다. 따라서, α및 β는 다음 식에 따라 각각 전력 차동 양자화기(1302) 및 전력 차동 역양자화기(1308)에 의해 양자화되고 역양자화될 수 있다.
Figure 112007054326618-pat00017
여기서 N-1 및 N은 두 개의 연속하는 추출된 이득 인자의 시간을 표시하고, Q(·)은 차동 양자화 연산을 나타낸다. 상기 파라미터 ρ는 채널 오류가 무한정 전파되는 것을 방지하기 위해 누설 인자로서 기능한다. 종래의 음성 코딩 시스템에서, 상기 값 ρ은 0.6에서 0.99의 범위를 갖는다. 상기에 나타난 식은 자기회귀(AR) 프로세스를 설명한다. 유사하게, 이동평균(MA) 방법은 또한 채널 오류에 대한 민감성을 감소시키기 위해 적용될 수 있다. AR 프로세스와 달리, 상기 오류 전파는 MA 방법의 비순환 디코더 구조에 의해 제한된다.
64 또는 128 크기의 코드북은 최상의 품질로 α및 β를 양자화하는데 충분하다. 상기 결과 코드북 인덱스 Ipower는 상기 디코더에 송신된다. 도 9를 참조하여, 디코더에서의 상기 전력 차동 역양자화기(1406)는 엔코더에서의 전력 차동 역양자화기(1308)와 동일하고, 상기 디코더에서의 대역 에너지 역정규화기(1405)는 엔코더에서의 대역 에너지 정규화기(1301)의 역의 동작을 수행한다.
Ⅳ. 스펙트럼 형태의 양자화
스펙트럼 다운샘플링이 비균일 스펙트럼 다운샘플러(1301)에 의해 수행된 후에, {B(i)}는 양자화되기 전에 두 개의 세트로 분할된다. 상기 저대역 {B(i=1,2, ...,11)}은 저대역 진폭 차동 양자화기(1304)에 제공된다. 상기 고대역 {B(i=12, ...,22)}은 고대역 진폭 차동 양자화기(1305)에 제공된다. 상기 고대역 및 저대역은 각각 다른 방법으로 양자화된다. 상기 차동 벡터는 다음의 식에 따라 계산된다.
Figure 112007054326618-pat00018
여기서
Figure 112007054326618-pat00019
은 이전 벡터의 양자화된 버전을 나타낸다. 상기 두 개의 대응하는 가중 벡터 사이에 불일치(즉, WN ≠WN -1, 이전 및 현재 스펙트럼간의 지연 차이에 의해 발생됨)가 존재할 때, 결과
Figure 112007054326618-pat00020
은 양자화기의 성능을 떨어뜨리는 오류 값들을 포함할 수 있다. 예를 들어, 이전의 래그 Lprev이 43이고 현재 래그 Lcurr은 44라면, 도 10에 도시된 할당 방법에 따라 계산된 상기 대응하는 가중 벡터는,
Figure 112007054326618-pat00021
이 경우에, 오류 값은
Figure 112007054326618-pat00022
의 i = 2,4,6에서 발생하고, 다음의 부울 식은 참이다.
Figure 112007054326618-pat00023
다른 종류의 미스매칭, 즉 이 예에서 i=3,5,7에서 발생하는 WN(i) = 1∩WN -1(i) = 1은 양자화기 성능에 영향을 미치지 않을 것이다. 상기 빈들은 어쨌든 제로의 가중치를 갖기 때문에(즉, WN(i) = 0), 상기 빈들은 종래의 가중 탐색 절차에서 자동으로 무시될 것이다.
일 실시예에서 고조파 클로닝을 나타내는 기술은 미스매칭된 가중 값들을 처리하는데 사용된다. 상기 고조파 클로닝 기술은
Figure 112007054326618-pat00024
Figure 112007054326618-pat00025
로 변조시키고, 상 기
Figure 112007054326618-pat00026
의 비어 있는 빈들 전부는
Figure 112007054326618-pat00027
을 계산하기 전에, 고조파에 의해 일시적으로 충전된다. 상기 고조파는 Lprev < Lcurr이면 오른쪽 편에 인접한 것들로부터 클로닝된다. 상기 고조파는 Lprev > Lcurr이면 왼쪽 편에 인접한 것으로부터 클로닝된다. 상기 고조파 클로닝 프로세스는 다음의 예에 의해 도시된다.
Figure 112007054326618-pat00028
가 첫번째 네 개의 비어있지 않은 빈들에 대한 스펙트럼 값 W, X, Y, Z,...를 갖는다고 가정한다. 상기(Lprev=43 및 Lcurr=44)와 같은 동일한 예를 이용하면
Figure 112007054326618-pat00029
는 오른쪽 편의 인접한 것으로부터(왜냐하면 Lprev < Lcurr) 클로닝함으로써 계산될 수 있다.
오른쪽으로부터 클로닝
Figure 112007054326618-pat00030
여기서 0은 비어있는 빈을 의미한다.
벡터 BN
Figure 112007054326618-pat00031
라면,
Figure 112007054326618-pat00032
고조파 클로닝은 엔코더 및 디코더 양쪽에서, 특히 고조파 클로닝 모듈 (1309, 1407) 양쪽에서 실행된다. 상기 이득 양자화기(1302)의 경우에 유사한 방법으로, 누설 인자 ρ는 채널 오류 존재시 오류가 무한정 전파하는 것을 방지하기 위해 스펙트럼 양자화에 인가될 수 있다. 예를 들어,
Figure 112008090524394-pat00033
은 다음 식에 의해 얻어진다.
Figure 112007054326618-pat00034
또한, 더 우수한 성능을 얻기 위해, 저대역 진폭 차동 양자화기(1304) 및 고대역 진폭 차동 양자화기(1305)는 CELP 코더의 나머지 신호를 양자화하기 위해 종래에 사용된 것과 유사한 방법으로 오류 기준을 계산하는데 있어서 스펙트럼 가중을 이용할 수 있다.
상기 인덱스 Iamp1 및 Iamp2은 상기 디코더에 송신되는 저대역 및 고대역 코드북 인덱스이다. 특정 실시예에서, 양쪽 진폭 차동 양자화기(1304, 1305)는 톨(toll)-품질 출력을 달성하기 위해 총 12개 비트(600 bps)를 요청한다.
디코더에서, 상기 비균일 스펙트럼 업샘플러(1404)는 원래 디멘죤(벡터의 엘리먼트 수는 다운샘플링시 22개로 변하고 업샘플링시 원래 수로 복귀)로 상기 22개 스펙트럼 값들을 업샘플링한다. 계산 복잡성의 상당한 증가 없이, 상기 업샘플링은 종래의 선형 보간 기술에 의해 실행될 수 있다. 도 11A-C의 그래프는 업샘플링된 스펙트럼을 예시한다. 디코더에서의 저대역 진폭 차동 역양자화기(1401) 및 고대역 진폭 차동 역양자화기(1402)는 엔코더에서의 각각의 대응부들인, 상기 저대역 진폭 차동 역양자화기(1306) 및 고대역 진폭 차동 역양자화기(1307)와 동일하다.
상기에 기술된 실시예들은 인간의 귀의 비선형 주파수 분해능의 모든 장점을 갖고 동시에 가변 디멘죤 VQ를 완화시키는 신규한 진폭 양자화 기술을 개발한다. 본 발명의 특징부를 구현하는 코딩 기술은 톨-품질 출력(양자화되지 않은 위상 스펙트럼)을 달성하기 위해 프로토타입 파형의 진폭 스펙트럼을 나타내도록 18 비트/프레임(900 bps)을 필요로 하는 PWI 음성 코딩 시스템에 성공적으로 적용되었다. 당업자는 본 발명의 특징부를 구현하는 양자화 기술이 스펙트럼 정보의 형태로 적용될 수 있으며, 진폭 스펙트럼 정보에 제한되는 것은 아님을 이해할 것이다. 당업자는 본 발명의 원리가 PWI 음성 코딩 시스템에 제한되지 않으며 예를 들어, MBE 및 STC와 같은 명시 인코딩 파라미터로서 진폭 스펙트럼을 갖는 여러 다른 음성 코딩 알고리즘에 적용할 수 있다는 것을 이해할 것이다.
다수의 특정 실시예들이 도시되고 기술되었지만, 상기 실시예들은 본 발명의 원리를 이용하여 고안될 수 있는 여러 가능한 특정 장치들을 도시할 뿐임을 이해할 것이다. 다수의 변형된 다른 장치들은 본 발명의 범위 및 정신을 이탈하지 않고서 당업자에 의해 상기 원리에 따라 고안될 수 있다. 예를 들어, 도 10에 도시된 비균일 대역 표현의 대역 에지(또는 빈 크기)의 약간의 변형은 결과 음성 품질에 별다른 차이를 발생시키지 않을 것이다. 또한, 도 8에 도시된 저대역 진폭 차동 양자화기 및 고대역 차동 진폭 양자화기의 저대역 및 고대역 스펙트럼을 분리하는 분할 주파수(일 실시예에서, 1104 Hz로 세팅)는 결과 인식 품질에 큰 영향을 미치지 않고서 변형될 수 있다. 게다가, 상기에 기술된 실시예들은 음성 또는 나머지 신호들의 진폭 코딩에 사용하는 방법을 개시하였지만, 당업자는 본 발명이 또한 오디오 신호 코딩에도 적용될 수 있음을 명백히 알 것이다.
따라서, 낮은 비트율 음성 코더에 대한 신규한 진폭 양자화 방법이 기술되었다. 당업자는 여기에 개시된 실시예들과 관련하여 기술된 여러 예시적인 논리 블록 및 알고리즘이 디지털 신호 처리기(DSP), 응용 주문형 집적 회로(ASIC), 이산 게이트 또는 트랜지스터 로직, 예를 들어, 레지스터 및 FIFO와 같은 이산 하드웨어 소자, 펌웨어 명령 세트를 실행하는 프로세서 또는 종래의 프로그램가능한 소프트웨어 모듈 및 프로세서로 실행되거나 수행될 수 있다. 상기 프로세서는 마이크로프로세서일 수 있지만, 선택적으로 상기 프로세서는 종래의 프로세서, 제어기, 마이크로제어기 또는 상태 머신일 수 있다. 상기 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, 레지스터 또는 기술분야에 공지된 다른 형태의 기록가능한 저장 매체에 부속할 수 있다. 당업자는 상기 기술을 통해 참조될 수 있는 데이터, 인스트럭션, 명령, 정보, 신호, 비트, 심볼 및 칩들이 유용하게는 전압, 전류, 전자기파, 자기장 또는 자기입자, 광분야, 또는 광입자 또는 그들의 조합으로 나타난다는 것을 이해할 것이다.
본 발명의 바람직한 실시예들이 도시되고 기술되었다. 그러나, 당업자는 본 발명의 정신 및 범위를 이탈하지 않고서 여기에 개시된 실시예들에 수많은 변형이 형성될 수 있음을 명백히 알 것이다. 따라서, 본 발명은 다음의 청구항에 의해서만 제한된다.
도 1은 무선 전화 시스템의 블록선도이다.
도 2는 음성 코더에 의해 각 단부에서 종료되는 통신 채널의 블록선도이다.
도 3은 엔코더의 블록선도이다.
도 4는 디코더의 블록선도이다.
도 5는 음성 코딩 결정 프로세스를 도시하는 흐름도이다.
도 6A는 음성 신호 진폭 대 시간의 그래프이고, 도 6B는 선형 예측(LP) 나머지 진폭 대 시간의 그래프이다.
도 7은 인코딩 파라미터로서 진폭 스펙트럼을 갖는 음성 코더의 블록선도이다.
도 8은 도 7의 음성 코더에 사용될 수 있는 진폭 양자화 모듈의 블록선도이다.
도 9는 도 7의 음성 코더에 사용될 수 있는 진폭 역양자화 모듈의 블록선도이다.
도 10은 도 8의 진폭 양자화 모듈의 스펙트럼 다운샘플러에 의해, 또는 도 9의 진폭 업샘플러의 스펙트럼 업샘플러에 의해 수행될 수 있는 비균일 대역 분할을 도시한다.
도 11A는 나머지 신호 진폭 스펙트럼 대 주파수의 그래프이며, 상기 주파수 축은 도 9의 구획에 따라 분할되며, 도 11B는 도 11A의 에너지 정규화 스펙트럼의 그래프이며, 도 11C는 도 11B의 비균일하게 다운샘플링되고 선형적으로 업샘플링된 스펙트럼의 그래프이다.

Claims (45)

  1. 음성 코더에서 스펙트럼 정보를 양자화하는 방법으로서,
    프레임으로부터 스펙트럼 정보의 벡터를 추출하는 단계;
    다수의 이득 인자를 결정하는 단계;
    정규화된 스펙트럼을 갖는, 대응하는 다수의 정규화된 벡터를 생성하기 위해, 다수의 이득 인자를 이용하여 상기 벡터를 정규화하는 단계;
    상기 다수의 이득 인자를 벡터 양자화하는 단계 -여기서, 상기 벡터 양자화는 로그 영역을 이용함-;
    다수의 비균일 주파수 대역 각각과 관련된 다수의 엘리먼트를 갖는 고정 디멘죤(fixed-dimension) 벡터를 생성하기 위해 상기 다수의 정규화된 벡터를 비균일하게 다운샘플링하는 단계;
    상기 고정 디멘죤 벡터를 다수의 서브벡터로 분할하는 단계; 및
    상기 다수의 서브벡터를 양자화하는 단계를 포함하는,
    양자화 방법.
  2. 제 1 항에 있어서, 상기 추출 단계는 진폭 스펙트럼 정보의 벡터를 추출하는 단계를 포함하는 것을 특징으로 하는 양자화 방법.
  3. 제 1 항에 있어서, 상기 다수의 이득 인자를 결정하는 단계는 저대역 이득 인자 및 고대역 이득 인자를 결정하는 단계를 포함하는 것을 특징으로 하는 양자화 방법.
  4. 제 1 항에 있어서, 상기 다수의 이득 인자를 벡터 양자화하는 단계는 상기 다수의 이득 인자를 차동적으로 벡터 양자화하는 단계를 포함하는 것을 특징으로 하는 양자화 방법.
  5. 제 1 항에 있어서, 상기 다수의 비균일 주파수 대역 각각은 22개의 비균일 주파수 대역을 포함하는 것을 특징으로 하는 양자화 방법.
  6. 제 1 항에 있어서, 상기 다수의 서브벡터를 양자화하는 단계는 상기 다수의 서브벡터를 차동적으로 양자화하는 단계를 포함하는 것을 특징으로 하는 양자화 방법.
  7. 제 1 항에 있어서, 상기 다수의 서브벡터를 양자화하는 단계는 상기 다수의 서브벡터 각각을 개별적으로 양자화하는 단계를 포함하는 것을 특징으로 하는 양자화 방법.
  8. 제 1 항에 있어서, 상기 다수의 서브벡터는 저대역 서브벡터 및 고대역 서브벡터를 포함하는 것을 특징으로 하는 양자화 방법.
  9. 제 1 항에 있어서, 상기 비균일하게 다운샘플링하는 단계는,
    상기 다수의 비균일 주파수 대역 각각을 다수의 고조파와 관련시키는 단계; 및
    다수의 비균일 주파수 대역 각각에서 상기 고조파들의 평균 크기를 계산하는 단계를 포함하며, 상기 고정 디멘죤 벡터의 다수의 엘리먼트는 다수의 비균일 주파수 대역 각각에 대한 상기 고조파들의 평균 크기를 포함하는 것을 특징으로 하는 양자화 방법.
  10. 제1항에 있어서, 상기 다수의 서브벡터를 양자화하는 단계는 고조파 클로닝(harmonic cloning)을 포함하는 것을 특징으로 하는 양자화 방법.
  11. 제 1 항에 있어서, 위상 벡터를 양자화하는 단계를 더 포함하는 것을 특징으로 하는 양자화 방법.
  12. 제 1 항에 있어서, 다수의 비균일 주파수 대역 각각과 관련된 다수의 엘리먼트를 갖는 다수의 양자화된 서브벡터를 수신하는 단계;
    다수의 양자화된 이득 인자를 수신하는 단계;
    다수의 양자화된 이득 인자를 역양자화하는 단계;
    대응하는 다수의 역양자화된 서브벡터들을 생성하기 위해 다수의 양자화된 서브벡터를 역양자화하는 단계;
    고정 디멘죤 벡터를 생성하기 위해 대응하는 다수의 역양자화된 서브벡터를 적분하는 단계;
    가변 디멘죤(variable-dimension) 벡터를 생성하기 위해 상기 고정 디멘죤 벡터를 비균일하게 업샘플링하는 단계; 및
    비균일화된 스펙트럼을 갖는 벡터를 생성하기 위해 다수의 역양자화된 이득 인자를 이용하여 상기 가변 디멘죤 벡터를 역정규화하는 단계를 포함하는 것을 특징으로 하는 양자화 방법.
  13. 음성 코더로서,
    프레임으로부터 스펙트럼 정보의 벡터를 추출하는 수단;
    다수의 이득 인자를 결정하는 수단;
    정규화된 스펙트럼을 갖는, 대응하는 다수의 정규화된 벡터를 생성하기 위해, 다수의 이득 인자를 이용하여 상기 벡터를 정규화하는 수단;
    상기 다수의 이득 인자를 벡터 양자화하는 수단 -여기서, 상기 벡터 양자화 수단은 로그 영역을 이용함-;
    다수의 비균일 주파수 대역 각각과 관련된 다수의 엘리먼트를 갖는 고정 디멘죤 벡터를 생성하기 위해 상기 다수의 정규화된 벡터를 비균일하게 다운샘플링하는 수단;
    상기 고정 디멘죤 벡터를 다수의 서브벡터로 분할하는 수단; 및
    상기 다수의 서브벡터를 양자화하는 수단을 포함하는,
    음성 코더.
  14. 제 13 항에 있어서, 다수의 비균일 주파수 대역 각각과 관련된 다수의 엘리먼트를 갖는 다수의 양자화된 서브벡터를 수신하는 수단;
    다수의 양자화된 이득 인자를 수신하는 수단;
    다수의 양자화된 이득 인자를 역양자화하는 수단;
    대응하는 다수의 역양자화된 서브벡터를 생성하기 위해 다수의 양자화된 서브벡터를 역양자화하는 수단;
    고정 디멘죤 벡터를 생성하기 위해 대응하는 다수의 역양자화된 서브벡터를 적분하는 수단;
    가변 디멘죤 벡터를 생성하기 위해 상기 고정 디멘죤 벡터를 비균일하게 업샘플링하는 수단; 및
    비균일화된 스펙트럼을 갖는 벡터를 생성하기 위해 다수의 역양자화된 이득 인자를 이용하여 상기 가변 디멘죤 벡터를 역정규화하는 수단을 더 포함하는 것을 특징으로 하는 음성 코더.
  15. 프레임으로부터 스펙트럼 정보의 벡터를 추출하고;
    다수의 이득 인자를 결정하고;
    정규화된 스펙트럼을 갖는, 대응하는 다수의 정규화된 벡터를 생성하기 위해, 다수의 이득 인자를 이용하여 상기 벡터를 정규화하고;
    상기 다수의 이득 인자를 벡터 양자화는데, 여기서 상기 벡터 양자화는 로그 영역을 이용하고;
    다수의 비균일 주파수 대역 각각과 관련된 다수의 엘리먼트를 갖는 고정 디멘죤 벡터를 생성하기 위해 상기 다수의 정규화된 벡터를 비균일하게 다운샘플링하고;
    상기 고정 디멘죤 벡터를 다수의 서브벡터로 분할하고; 그리고
    상기 다수의 서브벡터를 양자화하는 명령들의 시퀀스를 포함하는,
    컴퓨터 판독 가능 저장 매체.
  16. 제 15 항에 있어서, 다수의 비균일 주파수 대역 각각과 관련된 다수의 엘리먼트를 갖는 다수의 양자화된 서브벡터를 수신하고;
    다수의 양자화된 이득 인자를 수신하고;
    다수의 양자화된 이득 인자를 역양자화하고;
    대응하는 다수의 역양자화된 서브벡터들을 생성하기 위해 상기 다수의 양자화된 서브벡터를 역양자화하고;
    고정 디멘죤 벡터를 생성하기 위해 대응하는 다수의 역양자화된 서브벡터들을 적분하고;
    가변 디멘죤 벡터를 생성하기 위해 상기 고정 디멘죤 벡터를 비균일하게 업샘플링하고; 그리고
    비정규화된 스펙트럼을 갖는 벡터를 생성하기 위해 다수의 역양자화된 이득 인자를 이용하여 상기 가변 디멘죤 벡터를 역정규화하는 명령들의 추가 시퀀스를 더 포함하는 것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.
  17. 음성 코더로서,
    프레임으로부터 스펙트럼 정보의 벡터를 수신하고, 낮은 이득 인자, 높은 이득 인자, 및 정규화된 스펙트럼을 갖는 다수의 정규화된 벡터를 제공하기 위해 연결된 저대역 및 고대역 에너지 정규화기;
    상기 저대역 및 고대역 에너지 정규화기로부터 상기 낮은 이득 인자 및 상기 높은 이득 인자를 수신하고, 양자화된 낮은 이득 인자와 양자화된 높은 이득 인자를 생성하기 위해 연결된 전력 양자화기;
    저대역 및 고대역 에너지 정규화기로부터 다수의 정규화된 벡터를 수신하고, 다수의 비균일 주파수 대역 각각과 관련된 다수의 엘리먼트를 갖는 고정 디멘죤 벡터를 제공하도록 연결된 비균일 다운샘플러; 및
    상기 고정 디멘죤 벡터를 수신하고, 다수의 양자화된 서브벡터를 제공하도록 연결된 양자화기를 포함하는,
    음성 코더.
  18. 제 17 항에 있어서, 상기 전력 양자화기는 전력 차동 양자화기를 포함하는 것을 특징으로 하는 음성 코더.
  19. 제17항에 있어서, 상기 고정 디멘죤 벡터는 양자화된 저대역 서브벡터 및 양자화된 고대역 서브벡터를 포함하며, 상기 양자화기는,
    상기 양자화된 저대역 서브벡터를 수신하도록 연결된 저대역 양자화기; 및
    상기 양자화된 고대역 서브벡터를 수신하도록 연결된 고대역 양자화기를 포함하는 것을 특징으로 하는 음성 코더.
  20. 제 17 항에 있어서, 상기 고정 디멘죤 벡터는 양자화된 저대역 서브벡터 및 양자화된 고대역 서브벡터를 포함하며, 상기 양자화기는,
    상기 양자화된 저대역 서브벡터를 수신하도록 연결된 저대역 차동 양자화기; 및
    상기 양자화된 고대역 서브벡터를 수신하도록 연결된 고대역 차동 양자화기를 포함하는 것을 특징으로 하는 음성 코더.
  21. 제 17 항에 있어서, 양자화된 낮은 이득 인자 및 양자화된 높은 이득 인자를 수신하고, 역양자화된 낮은 이득 인자 및 역양자화된 높은 이득 인자를 제공하도록 연결된 전력 역양자화기;
    다수의 양자화된 서브벡터를 수신하고, 다수의 비균일 주파수 대역 각각과 관련된 다수의 엘리먼트를 갖는 고정 디멘죤 벡터를 제공하도록 연결된 진폭 역양자화기;
    상기 고정 디멘죤 벡터를 수신하고 정규화된 스펙트럼을 갖는 다수의 정규화된 벡터를 제공하도록 연결된 비균일 스펙트럼 업샘플러; 및
    다수의 정규화된 벡터를 수신하고, 스펙트럼 정보의 벡터를 제공하기 위해, 상기 전력 역양자화기로부터 상기 역양자화된 낮은 이득 인자 및 상기 역양자화된 높은 이득 인자를 수신하도록 결합된 저대역 및 고대역 에너지 역정규화기를 더 포함하는 것을 특징으로 하는 음성 코더.
  22. 제21항에 있어서, 상기 다수의 양자화된 서브벡터는 양자화된 저대역 서브벡터 및 양자화된 고대역 서브벡터를 포함하며, 상기 진폭 역양자화기는,
    상기 저대역 양자화된 서브벡터를 수신하고, 저대역 역양자화된 서브벡터를 제공하도록 연결된 저대역 진폭 역양자화기;
    상기 고대역 양자화된 서브벡터를 수신하고 고대역 역양자화된 서브벡터를 제공하도록 연결된 고대역 진폭 역양자화기; 및
    상기 저대역 역양자화된 서브벡터 및 상기 고대역 역양자화된 서브벡터를 수신하고, 상기 고정 디멘죤 벡터를 제공하도록 연결된 스펙트럼 적분기를 포함하는 것을 특징으로 하는 음성 코더.
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
KR1020077017220A 1999-07-19 2000-07-18 음성 코더용 스펙트럼 크기 양자화 방법 KR100898324B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/356,756 US6324505B1 (en) 1999-07-19 1999-07-19 Amplitude quantization scheme for low-bit-rate speech coders
US09/356,756 1999-07-19

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020027000727A Division KR100898323B1 (ko) 1999-07-19 2000-07-18 음성 코더용 스펙트럼 크기 양자화 방법

Publications (2)

Publication Number Publication Date
KR20070087222A KR20070087222A (ko) 2007-08-27
KR100898324B1 true KR100898324B1 (ko) 2009-05-20

Family

ID=23402824

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020077017220A KR100898324B1 (ko) 1999-07-19 2000-07-18 음성 코더용 스펙트럼 크기 양자화 방법
KR1020027000727A KR100898323B1 (ko) 1999-07-19 2000-07-18 음성 코더용 스펙트럼 크기 양자화 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020027000727A KR100898323B1 (ko) 1999-07-19 2000-07-18 음성 코더용 스펙트럼 크기 양자화 방법

Country Status (13)

Country Link
US (1) US6324505B1 (ko)
EP (1) EP1204969B1 (ko)
JP (1) JP4659314B2 (ko)
KR (2) KR100898324B1 (ko)
CN (1) CN1158647C (ko)
AT (1) ATE324653T1 (ko)
AU (1) AU6353600A (ko)
BR (1) BRPI0012542B1 (ko)
CY (1) CY1106119T1 (ko)
DE (1) DE60027573T2 (ko)
ES (1) ES2265958T3 (ko)
HK (1) HK1047817A1 (ko)
WO (1) WO2001006493A1 (ko)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
WO2000060575A1 (en) * 1999-04-05 2000-10-12 Hughes Electronics Corporation A voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
KR100434538B1 (ko) * 1999-11-17 2004-06-05 삼성전자주식회사 음성의 천이 구간 검출 장치, 그 방법 및 천이 구간의음성 합성 방법
US7260523B2 (en) * 1999-12-21 2007-08-21 Texas Instruments Incorporated Sub-band speech coding system
GB0005515D0 (en) * 2000-03-08 2000-04-26 Univ Glasgow Improved vector quantization of images
CN1432176A (zh) * 2000-04-24 2003-07-23 高通股份有限公司 用于预测量化有声语音的方法和设备
US6937979B2 (en) * 2000-09-15 2005-08-30 Mindspeed Technologies, Inc. Coding based on spectral content of a speech signal
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
US6996523B1 (en) * 2001-02-13 2006-02-07 Hughes Electronics Corporation Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system
US7013269B1 (en) * 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
US6931373B1 (en) * 2001-02-13 2005-08-16 Hughes Electronics Corporation Prototype waveform phase modeling for a frequency domain interpolative speech codec system
US20050234712A1 (en) * 2001-05-28 2005-10-20 Yongqiang Dong Providing shorter uniform frame lengths in dynamic time warping for voice conversion
KR100841096B1 (ko) * 2002-10-14 2008-06-25 리얼네트웍스아시아퍼시픽 주식회사 음성 코덱에 대한 디지털 오디오 신호의 전처리 방법
US7272557B2 (en) * 2003-05-01 2007-09-18 Microsoft Corporation Method and apparatus for quantizing model parameters
CN102280109B (zh) * 2004-05-19 2016-04-27 松下电器(美国)知识产权公司 编码装置、解码装置及它们的方法
EP1814438B8 (en) * 2004-11-08 2009-04-01 Koninklijke Philips Electronics N.V. Safe identification and association of wireless sensors
KR100851970B1 (ko) * 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
CN101317218B (zh) * 2005-12-02 2013-01-02 高通股份有限公司 用于频域波形对准的系统、方法和设备
KR101244310B1 (ko) * 2006-06-21 2013-03-18 삼성전자주식회사 광대역 부호화 및 복호화 방법 및 장치
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
JP5096474B2 (ja) * 2006-10-10 2012-12-12 クゥアルコム・インコーポレイテッド オーディオ信号を符号化及び復号化する方法及び装置
CN101483495B (zh) * 2008-03-20 2012-02-15 华为技术有限公司 一种背景噪声生成方法以及噪声处理装置
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
CN101630509B (zh) * 2008-07-14 2012-04-18 华为技术有限公司 一种编解码方法、装置及系统
KR101301245B1 (ko) * 2008-12-22 2013-09-10 한국전자통신연구원 스펙트럼 계수의 서브대역 할당 방법 및 장치
CN102483916B (zh) * 2009-08-28 2014-08-06 国际商业机器公司 声音特征量提取装置和声音特征量提取方法
CN102598123B (zh) * 2009-10-23 2015-07-22 松下电器(美国)知识产权公司 编码装置、解码装置及其方法
US8990094B2 (en) * 2010-09-13 2015-03-24 Qualcomm Incorporated Coding and decoding a transient frame
US10049685B2 (en) 2013-03-12 2018-08-14 Aaware, Inc. Integrated sensor-array processor
US9443529B2 (en) 2013-03-12 2016-09-13 Aawtend, Inc. Integrated sensor-array processor
US10204638B2 (en) 2013-03-12 2019-02-12 Aaware, Inc. Integrated sensor-array processor
KR20150032390A (ko) * 2013-09-16 2015-03-26 삼성전자주식회사 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
CN111554311B (zh) * 2013-11-07 2023-05-12 瑞典爱立信有限公司 用于编码的矢量分段的方法和设备
US9628266B2 (en) * 2014-02-26 2017-04-18 Raytheon Bbn Technologies Corp. System and method for encoding encrypted data for further processing
JP6724932B2 (ja) * 2018-01-11 2020-07-15 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0666557A2 (en) * 1994-02-08 1995-08-09 AT&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
US5581653A (en) 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0815261B2 (ja) * 1991-06-06 1996-02-14 松下電器産業株式会社 適応変換ベクトル量子化符号化法
SG70558A1 (en) * 1991-06-11 2000-02-22 Qualcomm Inc Variable rate vocoder
JP3237178B2 (ja) * 1992-03-18 2001-12-10 ソニー株式会社 符号化方法及び復号化方法
US5884253A (en) 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
TW295747B (ko) * 1994-06-13 1997-01-11 Sony Co Ltd
JP3353266B2 (ja) * 1996-02-22 2002-12-03 日本電信電話株式会社 音響信号変換符号化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5581653A (en) 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
EP0666557A2 (en) * 1994-02-08 1995-08-09 AT&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation

Also Published As

Publication number Publication date
ES2265958T3 (es) 2007-03-01
JP2003505724A (ja) 2003-02-12
BR0012542A (pt) 2002-11-26
BRPI0012542B1 (pt) 2015-07-07
CY1106119T1 (el) 2011-06-08
KR100898323B1 (ko) 2009-05-20
DE60027573T2 (de) 2007-04-26
KR20070087222A (ko) 2007-08-27
HK1047817A1 (en) 2003-03-07
WO2001006493A1 (en) 2001-01-25
AU6353600A (en) 2001-02-05
DE60027573D1 (de) 2006-06-01
CN1158647C (zh) 2004-07-21
EP1204969B1 (en) 2006-04-26
EP1204969A1 (en) 2002-05-15
US6324505B1 (en) 2001-11-27
KR20020013965A (ko) 2002-02-21
JP4659314B2 (ja) 2011-03-30
ATE324653T1 (de) 2006-05-15
CN1375096A (zh) 2002-10-16

Similar Documents

Publication Publication Date Title
KR100898324B1 (ko) 음성 코더용 스펙트럼 크기 양자화 방법
KR100804461B1 (ko) 보이스화된 음성을 예측적으로 양자화하는 방법 및 장치
JP4870313B2 (ja) 可変レート音声符号器におけるフレーム消去補償方法
KR100754591B1 (ko) 음성 코더에서 목표 비트율을 유지하는 방법 및 장치
JP4861271B2 (ja) 位相スペクトル情報をサブサンプリングする方法および装置
KR100752797B1 (ko) 음성 코더에서 선 스펙트럼 정보 양자화법을 인터리빙하는 방법 및 장치
KR100756570B1 (ko) 음성 코더의 프레임 프로토타입들 사이의 선형 위상시프트들을 계산하기 위해 주파수 대역들을 식별하는 방법및 장치

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130429

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140430

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160330

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170330

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20180329

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20190327

Year of fee payment: 11