KR20060016071A - 대역폭 적응 양자화 - Google Patents

대역폭 적응 양자화 Download PDF

Info

Publication number
KR20060016071A
KR20060016071A KR1020057002341A KR20057002341A KR20060016071A KR 20060016071 A KR20060016071 A KR 20060016071A KR 1020057002341 A KR1020057002341 A KR 1020057002341A KR 20057002341 A KR20057002341 A KR 20057002341A KR 20060016071 A KR20060016071 A KR 20060016071A
Authority
KR
South Korea
Prior art keywords
frequency
region
vector
signal
quantization
Prior art date
Application number
KR1020057002341A
Other languages
English (en)
Other versions
KR101081781B1 (ko
Inventor
칼레드 헬미 엘-마레
아난싸패드마나반 아라사니팔라이 칸다다이
사라스 만주나스
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20060016071A publication Critical patent/KR20060016071A/ko
Application granted granted Critical
Publication of KR101081781B1 publication Critical patent/KR101081781B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Optical Communication System (AREA)

Abstract

벡터 양자화전에 파라미터 정보를 선태적으로 제거하기 위해 음향 신호의 유형 및 음향 신호에 의해 나타나는 주파수 스펙트럼의 유형을 결정하는 방법 및 장치가 제안된다 (430). 그 후, 그렇지 않으면 제거된 파라미터들에 할당되는 비트들이 잔존하는 파라미터들의 양자화에 재할당될 수 있고, 이것은 합성된 음향 신호의 지각 품질의 향상을 가져온다 (450). 다른 방법으로는, 그 제거된 파라미터들에 이미 할당된 비트들이 드롭되어, 전체 비트-게이트 감소를 가져온다 (440).
양자화, 주파수 스펙트럼, 음향 신호, 보코더, 대역폭, 주파수 다이-오프

Description

대역폭 적응 양자화{BANDWIDTH-ADAPTIVE QUANTIZATION}
배경
기술분야
본 발명은 통신 시스템, 보다 자세하게는, 통신 시스템에서의 광대역 신호의 송신에 관한 것이다.
배경
무선 통신 분야는, 예를 들어, 무선 전화, 호출, 무선 가입자 회선 (WLL), 개인휴대 정보단말기 (PDA), 인터넷 전화, 및 위성 통신 시스템을 포함하여 다수의 애플리케이션을 가진다. 특히 중요한 애플리케이션은 원격 가입자를 위한 셀룰러 전화 시스템이다. 여기에서 사용되는 바와 같이, "셀룰러" 시스템이라는 용어는 셀룰러 주파수 및 개인 통신 서비스 (PCS) 주파수 모두를 포함한다. 예를 들어, 주파수 분할 다중접속 (FDMA), 시분할 다중접속 (TDMA), 및 코드분할 다중접속 (CDMA) 을 포함하여, 그 셀룰러 전화 시스템용의 다양한 공중 인터페이스가 개발되었다. 이와 관련하여, 예를 들어, AMPS (Advanced Mobile Phone Service), GSM (Global System for Mobile), 및 IS-95 (Interim Standard 95) 를 포함하여 다양한 국내 및 국제 표준이 확립되었다. IS-95 및 그 파생 표준인 IS-95A, IS-95B, ANSI J-STD-008 (여기에서는, 종종, IS-95 라고 통칭함), 및 제안된 고속 데이터 레이트 (HDR) 시스템이 통신산업 협회 (TIA) 및 기타 널리 공지된 표준단체에 의해 공포되어 있다.
IS-95 표준의 사용에 따라 구성된 셀룰러 전화 시스템은 CDMA 신호 프로세싱 기술을 채택하여 매우 효과적이며 강인한 셀룰러 전화 서비스를 제공한다. IS-95 표준의 사용에 따라 실질적으로 구성된 예시적인 셀룰러 전화 시스템은 본 발명의 양수인에게 양도되며 참조에 의해 여기 포함된, 미국 특허 제 5,103,459 호 및 제 4,901,307 호에 개시되어 있다. CDMA 기술을 이용하는 예시적인 시스템은, TIA 에서 발행된 cdma2000 ITU-R 무선 송신 기술 (RTT) 후보 제출물 (여기에서는 cdma2000 이라고 함) 이다. cdma2000 에 대한 표준은 IS-2000 의 드래프트 버전으로 제출되어 있으며 TIA 에 의해 승인되었다. 또 다른 CDMA 표준은, 제 3 세대 파트너쉽 프로젝트 "3GPP" 의 문서번호 3G TS 25.211, 3G TS 25.212, 3G TS 25.213, 및 3G TS 25.214 에 구현되어 있는 W-CDMA 표준이다.
상술한 통신 표준들은, 구현될 수 있는 다양한 통신 시스템의 오직 일부의 예이다. 이들 시스템중 대부분은 종래의 지상선 (landline) 전화 시스템과 결합되어 동작되도록 구성된다. 종래의 지상선 전화 시스템에서, 송신 매체 및 단말은 4000 Hz 로 대역폭이 제한된다. 일반적으로, 음성은 300 Hz 내지 3400 Hz 의 좁은 범위에서 송신되며, 제어 및 시그널링 오버헤드는 이 범위의 외부에서 수행된다. 지상선 전화 시스템의 물리적인 제약의 관점에서, 셀룰러 전화 시스템내에서의 신호 전달은 셀룰러 가입자 유닛으로부터 발신되는 콜들이 지상선 유닛으로 송신될 수 있도록 이들 동일한 좁은 주파수 제약으로 구현된다. 그러나, 셀룰러 전화 시스템은, 좁은 주파수 대역을 요구하는 물리적 제한이 셀룰러 시스템 내에 존재하지 않으므로, 더 넓은 주파수 범위로 신호를 송신할 수 있다. 광대역 신호의 사용은 셀룰러 전화의 최종 사용자에게 지각적으로 중요한 음향 품질을 제공한다. 따라서, 셀룰러 전화 시스템을 통한 광대역 신호의 송신에 대한 관심은 보다 유행하게 되었다. 더 넓은 주파수 범위로 신호를 생성하기 위한 예시적인 표준은 1989 년 공표되었으며, 명칭이 "64 kBits/s 내에서의 7 kH 오디오 코딩 (7 kHz Audio-Coding within 64 kBits/s" 인, 문서 G.722 ITU-T 에서 공포된다.
셀룰러 시스템을 통한 광대역 신호의 송신은 신호 압축 장치에 대한 개선과 같은 시스템에 대한 조절을 수반한다. 인간 음성 생성의 모델과 관련된 파라미터들을 추출함으로써 음성을 압축하는 기술을 채택하는 장치를 음성 코더 (speech coder) 라 한다. 음성 코더는 입력되는 음성 신호를 시간의 블록, 또는 분석 프레임들로 분할한다. 일반적으로, 음성 코더는 인코더 및 디코더를 포함한다. 인코더는 입력 음성 프레임을 분석하여 소정의 관련 파라미터들을 추출하며, 이후, 파라미터들을 이진 표현으로, 즉, 비트의 세트 또는 이진 데이터 패킷으로, 양자화한다. 데이터 패킷은 통신 채널을 통해 수신기 및 디코더로 송신된다. 디코더는 데이터 패킷을 프로세싱하고, 이들을 양자화해제하여 (unquantize) 파라미터들을 생성하고, 양자화해제된 파라미터들을 이용하여 음성 프레임들을 재합성한다.
음성 코더의 기능은 음성에서 고유한 자연적인 리던던시 (redundancy) 를 모두 제거함으로써 디지털화된 음성 신호를 낮은 비트 레이트의 신호로 압축하는 것 이다. 디지털 압축은 입력된 음성 프레임을 파라미터들의 세트로 표현하고 그 파라미터들을 비트의 세트로 표현하기 위해 양자화를 채택함으로써 달성된다. 입력 음성 프레임이 비트수 Ni 를 갖고 음성 코더에 의해 생성된 데이터 패킷이 비트수 No 를 가지며, 음성 코더에 의해 달성되는 압축비는 Cr = Ni/No 이다. 목표 압축비를 달성하는 가운데, 디코딩된 음성의 높은 보이스 (voice) 품질을 유지하는 것이 목표이다. 음성 코더의 성능은 음성 모델 또는 전술한 분석 및 합성 프로세스의 조합이 얼마나 잘 수행되며, 그리고 파라미터 양자화 프로세스가 프레임당 No 비트의 목표 비트 레이트에서 얼마나 잘 수행되느냐에 의존한다. 따라서, 음성 모델의 목적은 각 프레임에 대한 적은 파라미터 세트로, 음성 신호의 본질 또는 목표 보이스 품질을 획득하는 것이다.
광대역 코더에 대해, 신호의 여분의 대역폭은 종래의 협대역 신호보다 더 높은 코딩 비트 레이트를 요구한다. 따라서, 새로운 비트 레이트 감소 기술은 증대된 대역폭과 관련된 높은 품질을 희생하지 않고 광대역 보이스 코딩 비트 레이트를 감축하기 위해 요구된다.
개요
신호의 지각 품질을 보존하면서 광대역 음성 및 음향 신호의 코딩 레이트를 감소하기 위한 방법 및 장치가 여기에 제공된다. 일 양태에서, 주파수 스펙트럼의 하나 이상의 분석 영역과 연관된 신호 특성을 결정하는 스펙트럼 컨텐트 엘리먼트로서, 신호 특성은 지각적으로 중요하지 않은 신호 존재 (presence) 또는 지각 적으로 중요한 신호 존재를 나타내는, 스펙트럼 컨텐트 엘리먼트; 및 신호 특성이 지각적으로 중요하지 않은 신호 존재를 나타내는 경우, 하나 이상의 분석 영역으로부터 떨어져 양자화 비트들을 선택적으로 할당하기 위해 하나 이상의 분석 영역과 연관된 신호 특성을 이용하도록 구성된 벡터 양자화기 (quantizer) 를 구비한 대역폭-적응 벡터 양자화기가 제공된다.
다른 양태에서, 주파수 스펙트럼 영역에서 주파수 다이-오프 (die-off) 존재를 결정하는 단계; 주파수 다이-오프 영역과 연관된 복수의 계수를 양자화하는 것을 억제하는 단계; 및 소정의 코드북을 이용하여 잔존하는 주파수 스펙트럼을 양자화하는 단계를 포함하는, 보코더 (vocoder) 의 비트 레이트를 감소하는 방법이 제공된다.
또 다른 양태에서, 주파수 스펙트럼 영역에서 주파수 다이-오프 존재를 결정하는 단계; 주파수 다이-오프 영역과 연관된 복수의 계수를 양자화하는 것을 억제하는 단계; 그렇지 않은 경우 주파수 다이-오프 영역을 나타내는데 이용되는 복수의 양자화 비트를 재할당하는 단계; 및 그렇지 않은 경우 주파수 다이-오프 영역을 나타내는데 이용되는 복수의 양자화 비트를 포함하는 수퍼 코드북을 이용하여, 잔존하는 주파수 스펙트럼을 양자화하는 단계를 포함하는, 보코더를 통과하는 음향 신호의 지각 품질을 향상시키는 방법이 제공된다.
도면의 간단한 설명
도 1 은 무선 통신 시스템의 도면이다.
도 2a 및 도 2b 는 각각, 스플릿 벡터 양자화 방식 및 멀티-스테이지 벡터 양자화 방식의 블록도이다.
도 3 은 임베디드 (embedded) 코드북의 블록도이다.
도 4 는 일반화된 대역폭 적응 양자화 방식의 블록도이다.
도 5a, 도 5b, 도 5c, 도 5d 및 도 5e 는 저역-통과 주파수 스펙트럼, 고역-통과 주파수 스펙트럼, 금지-대역 (stop-band) 주파수 스펙트럼, 및 대역-통과 (band-pass) 주파수 스펙트럼으로 각각 정렬된 16 개의 계수들의 표현이다.
도 6 은 새로운 대역폭 적응 양자화 방식에 따라 구성된 보코더의 기능적인 구성요소의 블록도이다.
도 7 은 수신 종단에서 디코딩 프로세스의 블록도이다.
발명의 상세한 설명
도 1 에 도시된 바와 같이, 일반적으로, 무선 통신 네트워크 (10) 는 복수의 원격국 (12a 내지 12d; 가입자 유닛 또는 이동국 또는 사용자 장비라고도 함), 복수의 기지국 (14a 내지 14c; 기지국 트랜시버 (BTS) 또는 노드B 라고도 함), 기지국 제어기 (BSC; 16) (무선 네트워크 제어기 또는 패킷 제어 기능이라고도 함), 이동국 스위칭 센터 (MSC) 또는 스위치 (18), 패킷 데이터 서빙 노드 (PDSN) 또는 상호연동 기능 (IWF; 20), 공중 스위치 전화 네트워크 (PSTN; 22) (통상적으로, 전화 회사), 및 인터넷 프로토콜 (IP) 네트워크 (통상적으로, 인터넷; 24) 를 포함한다. 간략화를 위하여, 4 개의 원격국 (12a 내지 12d), 3 개의 기지국 (14a 내지 14c), 하나의 BSC (16), 하나의 MSC (18), 및 하나의 PDSN (20) 이 도시되어 있다. 당업자는 임의의 수의 이동국 (12), 기지국 (14), BSC (16), MSC (18), 및 PDSN (20) 이 존재할 수 있음을 알 수 있다.
일 실시형태에서, 무선 통신 네트워크 (10) 는 패킷 데이터 서비스 네트워크이다. 원격국 (12a 내지 12d) 은 휴대 전화기, IP기반 웹-브라우저 애플리케이션을 구동시키는 랩탑 컴퓨터에 접속되는 셀룰러 전화기, 관련 핸즈-프리 자동차 키트를 갖는 셀룰러 전화기, IP기반 웹-브라우저 애플리케이션을 구동시키는 개인 휴대 정보 단말기 (PDA), 휴대 컴퓨터에 탑재된 무선 통신 모듈, 또는 무선 가입자 회선이나 계기 판독 시스템에서 발견될 수도 있는 것과 같은 고정 위치확인 통신 모듈 등의 수개의 다양한 타입의 무선 통신 디바이스일 수도 있다. 가장 일반적인 실시형태에서, 원격국은 임의 타입의 통신 유닛일 수도 있다.
원격국 (12a 내지 12d) 은, 예를 들어, EIA/TIA/IS-707 표준에 개시되어 있는 바와 같이 하나 이상의 무선 패킷 데이터 프로토콜을 수행하도록 구성되는 것이 바람직할 수도 있다. 특정한 실시형태에서, 원격국 (12a 내지 12d) 은 IP 네트워크 (24) 를 향하는 IP 패킷들을 생성하며, 점대점 프로토콜 (PPP) 을 이용하여 IP 패킷들을 프레임으로 캡슐화 (encapsulation) 한다.
일 실시형태에서, 예를 들어, E1, T1, 비동기 전송 모드 (ATM), 인터넷 프로토콜 (IP), 점대점 프로토콜 (PPP), 프레임 릴레이, 고 비트 레이트 디지털 가입자 라인 (HDSL), 비동기 디지털 가입자 라인 (ADSL), 또는 다른 일반적인 디지털 가입자 라인 (xDSL) 을 포함한 다수의 공지된 프로토콜에 따라 음성 및/또는 데이터 패킷 송신용으로 구성되는 유선을 통하여, IP 네트워크 (24) 는 PDSN (20) 에, PDSN (20) 은 MSC (18) 에, MSC (18) 은 BSC (16) 및 PSTN (22) 에, 및 BSC (16) 은 기 지국 (14a 내지 14c) 에 커플링된다. 또 다른 실시형태에서, BSC (16) 는 PDSN (20) 에 직접 커플링되며, MSC (18) 는 PDSN (20) 에 커플링되지 않는다.
무선 통신 네트워크 (10) 의 통상적인 동작 중에, 기지국 (14a 내지 14c) 은 전화 콜 (calls), 웹 브라우징, 또는 기타 데이터 통신에 관련된 다양한 원격국 (12a 내지 12d) 으로부터의 업링크 신호 세트를 수신 및 복조한다. 소정의 기지국 (14a 내지 14c) 에 의해 수신되는 각각의 업링크 신호는 그 기지국 (14a 내지 14c) 내에서 프로세싱된다. 각각의 기지국 (14a 내지 14c) 은 다운링크 신호 세트를 원격국 (12a 내지 12d) 에게 변조 및 송신함으로써, 복수의 원격국 (12a 내지 12d) 과 통신할 수도 있다. 예를 들어, 도 1 에 도시된 바와 같이, 기지국 (14a) 은 제 1 및 제 2 원격국 (12a, 12b) 과 동시에 통신하며, 기지국 (14c) 은 제 3 및 제 4 원격국 (12c, 12d) 과 동시에 통신한다. 이에 따라 생성된 패킷들은, 특정한 원격국 (12a 내지 12d) 에 대한 콜의 일 기지국 (14a 내지 14c) 으로부터 다른 기지국 (14a 내지 14c) 으로의 소프트 핸드오프 (soft handoff) 를 조정하는 것을 포함하여, 콜 자원 할당 및 이동성 관리 기능을 제공하는 BSC (16) 로 포워딩된다. 예를 들어, 원격국 (12c) 은 2 개의 기지국 (14b, 14c) 과 동시에 통신하고 있다. 결국, 이동국 (12c) 이 기지국들 중 한 기지국 (14c) 으로부터 충분히 멀리 이동할 경우, 콜은 다른 기지국 (14b) 으로 핸드오프된다.
만약 송신이 종래의 전화 콜이면, BSC (16) 는 PSTN (22) 과의 인터페이스를 위한 추가적인 라우팅 서비스를 제공하는 MSC (18) 로 수신 데이터를 라우팅한다. 만약 송신이 IP 네트워크 (24) 를 향하는 데이터 콜과 같이 패킷 기반 송신이면, MSC (18) 는, IP 네트워크 (24) 로 패킷들을 송신하는 PDSN (20) 으로 데이터 패킷들을 라우팅한다. 다른 방법으로는, IP 네트워크 (24) 로 패킷들을 송신하는 PDSN (20) 으로 BSC (16) 가 패킷들을 직접 라우팅한다.
WCDMA 시스템에서, 무선 통신 시스템 구성요소들의 용어는 다르지만, 그 기능성은 동일하다. 예를 들면, 기지국을 또한 UTMS 지상 무선 액세스 네트워크 (U-TRAN) 에서 동작하는 무선 네트워크 제어기 (RNC) 라고도 하며, 여기서 "UTMS" 는 Universal Mobile Telecommunication Systems 의 머릿글자이다.
일반적으로, 아날로그 음성 신호에서 디지털 신호로의 변환은 인코더에 의해 수행되고, 디지털 신호에서 음성 신호의 변환은 디코더에 의해 수행된다. 예시적인 CDMA 시스템에서, 인코딩 부분과 디코딩 부분 양자를 포함하는 보코더는 원격국과 기지국내에서 짝을 이룬다. 예시적인 보코더는, 본 발명의 양수인에게 양도되며 여기에 참조로서 포함되는, 명칭이 "가변 레이트 보코더 (Variable Rate Vocoder)" 인 미국 특허 제 5,414,796 호에 개시되어 있다. 보코더에서, 인코딩 부분은 인간 음성 생성의 모델과 관계된 파라미터들을 추출한다. 이후, 추출된 파라미터들은 양자화되고 송신 채널을 통해 송신된다. 디코딩 부분은 송신 채널을 통해 수신된 양자화된 파라미터들을 이용하여 음성을 재합성한다. 이 모델은 시변 음성 신호를 정확하게 모델링하기 위해 끊임없이 변한다.
따라서, 음성은, 파라미터들이 계산되는 동안에, 시간의 블록들, 또는 분석 프레임들로 분할된다. 그후, 파라미터들은 각각의 새로운 프레임에 대해 업데이트된다. 여기에 사용되는 바와 같이, "디코더" 라는 단어는 송신 매체를 통 해 수신된 디지털 신호를 변환하는데 이용될 수 있는 임의의 장치 또는 장치의 임의의 부분을 말한다. "인코더" 라는 단어는 음향 신호 (acoustic signals) 를 디지털 신호로 변환하는데 이용될 수 있는 임의의 장치 또는 장치의 부분을 말한다. 따라서, 여기에 설명된 실시형태들은 CDMA 시스템의 보코더, 다른 방법으로는, 비 CDMA 시스템의 인코더 및 디코더로 구현될 수 있다.
코드 여기된 선형 예측 코딩 (Code Excited Linear Predictive Coding; CELP) 방법이 많은 음성 압축 알고리즘에서 사용되며, 여기서 필터는 음성 신호의 스펙트럼 크기 (magnitude) 를 모델링하기 위해 이용된다. 필터는 출력 파형을 생성하기 위해 입력 파형의 주파수 스펙트럼을 수정하는 장치이다. 이러한 수정은, 수정된 출력 파형 y(t) 를 주파수 영역에서의 원래의 입력 파형 x(t) 와 관련시키는 전달 함수 H(f)=Y(f)/X(f) 를 특징으로 한다.
적당한 필터 계수들을 통해, 필터를 통과한 여기 신호는 음성 신호에 매우 가까운 파형을 초래한다. 최적의 여기 신호의 선택은 여기서 설명하는 실시형태의 범위에 영향을 미치지 않으며 더 이상 설명하지 않는다. 필터의 계수들은 선형 예측 기술을 이용하여 음성의 각 프레임에 대해 계산되므로, 이 필터는 그 결과 선형 예측 코딩 (LPC) 필터라 한다. 이 필터 계수들은 전달 함수의 계수
Figure 112005007299815-PCT00001
이다. 여기서 L 은 LPC 필터의 차수이다.
일단 LPC 필터 계수 Ai 가 결정되면, LPC 필터 계수는 양자화되고, 수신된 파라미터를 음성 합성 모델에서 사용하게 될 목적지로 송신한다.
LPC 필터의 계수를 목적지로 운반하는 하나의 방법은 LPC 필터 계수를 선 스펙트럼 쌍 (Line Spectrum Pair; LSP) 파라미터로 변환하는 것을 포함하며, 이후 LPC 필터 계수보다 오히려 양자화되며 송신된다. 수신기에서, 양자화된 LSP 파라미터는 음성 합성 모델에서 사용하기 위해 LPC 필터 계수로 다시 변환된다. 통상적으로, LSP 파라미터가 LPC 파라미터보다 우수한 양자화 특성을 가지므로, LSP 영역에서 양자화가 수행된다. 예를 들면, 양자화된 LSP 파라미터의 오더링 (ordering) 특성은 생성된 LPC 필터가 안정적인 것을 보장한다. LPC 계수에서 LSP 계수로의 변환 및 LSP 계수를 이용하는 이점은 잘 알려져 있으며 전술한 미국 특허 제 5,414,796 호에 상세하게 개시되어 있다.
그러나, LSP 계수 양자화가 각각 서로 다른 설계 목적을 달성하기 위해 서로 다른 다양한 방법으로 수행될 수 있으므로, LSP 계수의 양자화는 본 문서에서 관심대상이다. 일반적으로, 두 방식중 하나가 LPC 계수 또는 LSP 계수중 하나의 양자화를 수행하기 위해 이용된다. 제 1 방법은 스칼라 양자화 (Scalar Quantization; SQ) 이며 제 2 방법은 벡터 양자화 (Vector Qunatization; VQ) 이다. 여기의 방법들은 LSP 계수의 견지에서 설명되지만, 이 방법들은 LPC 계수 및 다른 유형의 필터 계수에도 적용될 수 있다. 또한, LSP 계수는 당해기술에서 선 스펙트럼 주파수 (Line Specturm Frequencies; LSF) 라고 하지만, 음성 코딩 에서 사용되는 다른 유형의 필터 계수는 이미턴스 스펙트럼 쌍 (Immittance Spectral Pair; ISP) 및 이산 코사인 변환 (Discrete Cosine Transform; DCT) 을 포함하지만 이에 한정되지는 않는다.
LSP 계수의 세트 X = {Xi} (여기서 i= 1,2, .., L) 가 음성의 프레임을 모델링하는데 이용될 수 있다고 가정하자. 스칼라 양자화가 사용되면, 각 구성요소 Xi 는 개별적으로 양자화된다. 벡터 양자화가 사용되면, 세트 {Xi ; i= 1,2, .., L} 는 전체 벡터 X 로 사용되고, 이후 양자화된다. 스칼라 양자화는 VQ 보다 계산적으로 단순하지만, 허용가능한 성능 수준을 달성하기 위해 매우 많은 수의 비트를 요구한다. 벡터 양자화는 더 복잡하지만, 더 작은 비트 버짓 (bit budget), 즉 양자화된 벡터를 표현하기 위해 사용가능한 비트수를 요구한다. 예를 들면, 계수 L 의 수가 10 과 동일하고 비트 버짓의 사이즈가 N=30 인 일반적인 LSP 양자화 문제에서, 스칼라 양자화의 이용은 계수당 단지 3 비트만의 할당을 의미한다. 따라서, 각 계수는 8 개의 가능한 양자화값을 가지게 되고, 이는 매우 열등한 성능에 이르게 된다. 벡터 양자화가 사용되면, 전체 N=30 비트가 벡터를 나타내는데 사용될 수 있으며, 이는 벡터의 표현을 선택하는데 230 개의 가능한 후보 값들을 허용한다.
그러나, 최적의 적합도 (best fit) 를 위해 230 가능한 후보값들을 검색하는 것은 실제의 시스템에의 리소스를 초과한다. 즉, 직접 VQ 방식은 LSP 양자화의 실제 구현에 대해 실현 불가능하다. 따라서, 2 개의 다른 VQ 양자화의 변형인, 스플릿 VQ (SPVQ) 및 멀티-스테이지 VQ (MSVQ) 를 널리 사용한다.
SPVQ 는 직접 VQ 방식을 더 작은 VQ 방식의 세트로 스플릿함으로써 복잡도 및 양자화의 메모리 요구사항을 감소시킨다 SPVQ 에서, 입력 벡터 X 는 많은 "서브-벡터" Xj (j=1,2,...,Ns, Ns 는 서브-벡터의 수) 로 분할되고, 각 서브-벡터 Xj 는 직접 VQ 를 이용하여 개별적으로 양자화된다. 도 2a 는 SPVQ 방식의 블록도이다. 예를 들면, 비트 버짓 N=30 으로 길이 L=10 의 벡터를 양자화하기 위해 SPVQ 방식이 사용된다고 가정하자. 일 구현예에서, 입력 벡터 X 는 3 개의 서브-벡터 X1=(x1 x2 x3), X2=(x4 x5 x6), 및 X3=(x7 x8 x9 x10) 으로 스플릿된다. 각각의 서브-벡터는 3 개의 직접 VQ 중 하나에 의해 양자화되며, 각각의 직접 VQ 는 10 비트를 사용한다. 따라서, 양자화 코드북은 1024 엔트리 또는 "코드벡터들" 을 포함한다. 이 예에서, 메모리 사용은 210 코드벡터에 10 워드/코드벡터를 승산한 10,240 워드에 비례한다. 또한, 탐색 복잡도가 동일하게 감소된다. 그러나, 이러한 SPVQ 방식의 성능은, 230=1,073,741,824 선택보다 오히려, 각 입력 벡터에 대해 단지 1024 선택이므로, 직접 VQ 방식보다 열등하다. SPVQ 양자화기에서, 높은 차원의 (L) 공간에서의 탐색 능력은 L 차원 공간을 더 작은 서브 공간들로 분할함으로써 소실된다. 따라서, L 차원 입력 벡터에서 전체 인트라-구성 요소 상관을 완전하게 이용하는 능력은 소실된다.
MSVQ 방식은, 양자화가 여러 단계에서 수행되므로, SPVQ 방식보다 덜한 복잡도 및 메모리 사용을 제공한다. 입력 벡터는 원래의 길이 L 에 유지된다. 각 단계의 출력은 다음 단계로 입력되는 차이 벡터를 결정하는데 이용된다. 각 단계에서, 차이 벡터는 상대적으로 작은 코드북을 이용하여 근사화된다. 도 2b 는 MSVQ 방식의 블록도이다. 예를 들면, 일 예에서, 6 단계 MSVQ 는 30 비트의 비트 버짓으로 길이 10 의 LSP 벡터를 양자화하기 위해 이용된다. 각 단계는 5 비트를 이용하며, 결과적으로 32 코드벡터를 갖는 코드북을 초래한다. Xi 가 i 번째 단계의 입력 벡터이며 Yi 가 i 번째 단계의 양자화된 출력이라고 하자, 이때 Yi 는 i 번째 단계 VQ 코드북 CBi 로부터 얻은 최적의 코드벡터이다. 다음으로, 다음 단계로의 입력은 차이 벡터 Xi+1 = Xi-Yi 가 된다. 각 단계가 5 비트에 할당되면, 각 단계에 대한 코드북은 25=32 코드벡터가 된다.
멀티-스테이지의 사용은 입력 벡터가 단계마다 근사화되게 한다. 각 단계에서 입력 동적 범위는 더 작아진다. 계산 복잡도 및 메모리 사용은 6 단계 ×32 코드벡터/단계 × 10 워드/코드벡터 = 1920 워드이다. 따라서, MSVQ 방식은 SPVQ 방식보다 더 작은 수의 복잡도 및 메모리 요구사항을 가진다. 또한, MSVQ 의 멀티-스테이지 구조는 입력 벡터 통계의 넓은 분산에 걸쳐 강인성을 제공한다. 그러나, MSVQ 의 성능은 코드북의 제한된 사이즈 및 코드북 탐색의 "그리디 (greedy)" 특성으로 인해 최적값 이하 (sub-optimal) 이다. MSVQ 는 각 단계에서 입력 벡터의 "최적의 (best)" 근사를 찾고, 차이 벡터를 생성하고, 그후, 다음 단계에서 차이 벡터에 대한 "최적의" 표현 (representative) 을 찾는다. 그러나, 각 단계에서의 "최적의" 표현의 결정은 반드시 최종 결과가 원래, 처음 입력된 벡터에 가장 근사하다는 것을 반드시 의미하지는 않는다. 각 단계에서 최적의 후보만을 선택하는 비유연성은 방식의 전체적인 성능을 손상시킨다.
SPVQ 및 MSVQ 에서의 결점에 대한 하나의 해결 방법은 2 개의 벡터 양자화 방식을 하나의 방식으로 결합하는 것이다. 하나의 결합된 구현은 예측 멀티-스테이지 벡터 양자화 (Predictive Multi-Stage Vector Quantization; PMSVQ) 방식이다. MSVQ 와 유사하게, 각 단계의 출력은 다음 단계로 입력되는 차이 벡터를 결정하는데 이용된다. 그러나, 각 단계에서 전체 벡터로서 각 입력을 근사화시키는 것보다, 각 단계에서의 입력은 SPVQ 방식에 대해 전술한 바와 같은, 서브-벡터의 그룹으로서 근사화된다. 또한, 각 단계의 출력은 방식의 종단에서의 사용을 위해 저장되며, 각 단계의 출력은 초기 벡터의 "최적의" 전체적인 표현을 결정하기 위해 다른 단계 출력과 결합되어 고려된다. 따라서, "최적의" 전체적인 표현 벡터에 대한 결정이 최종 단계까지 지연되므로, PMSVQ 방식이 MSVQ 방식 단독에 비해 선호된다. 그러나, PMSVQ 방식은 멀티-스테이지 구조에 의해 생성되는 상당한 양의 스펙트럼 찌그러짐 (distortion) 으로 인해 최적이 아니다.
또 다른 결합형 구현은, 본 발명의 양수인에게 양도되며 여기에 참조로서 포함되고, 명칭이 "다중경로 멀티-스테이지 벡터 양자화기를 이용하는 방법 및 장치 (METHOD AND APPARATUS USING MULTI-PATH MULTI-STAGE VECTOR QUANTIZER)" 인, 미 국 특허 제 6,148,283 호에 개시된 스플릿 멀티-스테이지 벡터 양자화 (Split Multi-Stage Vector Quantization) 이다. SMSVQ 방식에서, 전체 벡터를 초기 단계에서 입력으로서 사용하기 보다는, 벡터가 서브-벡터들로 스플릿된다. 그후, 각 서브-벡터는 멀티-스테이지 구조를 통해 프로세싱된다. 따라서, 양자화 방식에는 병렬, 멀티-스테이지 구조가 존재한다. 각 단계에 대한 각각의 입력 서브-벡터의 디멘젼 (dimension) 은 동일하게 유지되거나, 또는 더 작은 서브-벡터들로 더 스플릿될 수 있다.
입력으로서 광대역 신호의 프레임을 갖는 보코더에서는, LSP 계수의 양자화는, 광대역 신호를 모델링하기 위해 필요한 더 높은 디멘젼 (dimensionality) 으로 인해, 협대역 신호보다 더 높은 비트수를 요구한다. 예를 들면, 협대역 신호에 대한 차수 10 (즉, 전달 함수에서의 10 개의 필터 계수) 의 LPC 필터를 이용하는 것보다, 광대역 신호 프레임을 모델링하기 위해 더 많은 차수의 LPC 필터가 요구된다. 광대역 보코더의 일 구현에서, 32 비트의 비트 버짓과 함께, 16 개의 계수들을 갖는 LPC 필터가 사용된다. 이 구현에서, 직접 VQ 코드북 탐색은 232 코드벡터를 통한 탐색을 수반한다. LPC 필터의 차수 및 비트 버짓은 여기의 실시형태들의 범위에 영향을 주지 않고 변경될 수 있는 시스템 파라미터이다. 따라서, 실시형태들은 다소의 탭 (tap) 이 있는 필터들과 결합하여 이용될 수 있다.
여기에 설명되는 실시형태들은 광대역 보코더에 의해 이용되는 스펙트럼 표현을 양자화하기 위한 새로운 대역폭 적응 양자화 방식을 위한 것이다. 예를 들면, 대역폭 적응 양자화 방식은 모두 스펙트럼 표현으로서 사용될 수 있는, LPC 필터 계수, LSP/LSF 계수, ISP/ISF 계수, DCT 계수 또는 켑스트럼 (cepstral) 계수를 양자화하는데 이용될 수 있다. 또한, 다른 예들도 존재한다. 새로운 대역폭 적응 방식은, 합성된 광대역 신호의 지각 품질을 유지 및/또는 개선하는 가운데, 음성 광대역 신호를 인코딩하기 위해 요구되는 비트수를 감소시키는데 이용될 수 있다. 이들 목적은, 주파수 스펙트럼의 특정한 부분을 표현하기 위해 이용되는 비트를 가변적으로 할당하기 위해 신호 분류 방식 및 스펙트럼 분석 방식을 이용함으로써 달성될 수 있다. 대역폭 적응 양자화 방식의 원리는 전술한 것들과 같은 여러 다른 벡터 양자화 방식에서의 응용을 위해 확장될 수 있다.
제 1 실시형태에서, 프레임 내에서의 음향 신호의 분류는 음향 신호가 음성 신호, 비음성 신호, 또는 비활성 음성 신호인지 결정하기 위해 수행된다. 비활성 음성 신호의 예는 무언, 배경 잡음, 또는 단어간의 휴지 (pause) 이다. 비음성은 음악 또는 다른 비인간 (nonhuman) 음향 신호를 포함할 수도 있다. 음성은 유성음 (voiced speech), 무성음 (unvoiced speech) 또는 과도음 (transient speech) 을 포함할 수 있다. 프레임의 에너지 컨텐트, 프레임의 주기성 (periodicity) 등과 같은 이러한 요인들에 기초하여 프레임에 의해 수행될 수 있는 음향 활동의 유형에 대해 결정하기 위한 다양한 방법들이 존재한다.
유성음은 상대적으로 높은 주기성의 정도를 나타내는 음성이다. 피치 주기 (pitch period) 는 음성 프레임의 구성요소이며 프레임의 컨텐트를 분석하고 재구성하는데 이용될 수 있다. 일반적으로, 무성음은 자음 소리 (consonant sound) 를 포함한다. 일반적으로, 과도음 프레임은 유성음과 무성음 사이에서의 전이 (transition) 이다. 유성음 또는 무성음으로 분류되지 않는 음성 프레임은 과도음으로 분류된다. 임의의 합리적인 분류 방식이 채택될 수 있다.
서로 다른 인코딩 모드가 서로 다른 음성 유형을 인코딩하는데 이용될 수 있으므로 음성 프레임을 분류하는 것이 바람직하여, 통신 채널과 같은 공유 채널에서의 대역폭의 보다 효율적인 이용을 초래한다. 예를 들면, 유성음은 주기적이고 따라서 예측성이 높으며 낮은 비트레이트이므로, 예측성이 높은 인코딩 모드가 유성음을 인코딩하는데 채택될 수 있다. 분류의 최종 결과는 신호 파라미터를 전달하기 위해 사용되는데 보코더 출력 프레임의 최선의 유형을 결정하는 것이다. 전술한 미국 특허 제 5,414,796 호의 가변 레이트 보코더에서, 파라미터는, 신호의 분류에 의존하여, 풀 (full) 레이트 프레임, 1/2 (half) 레이트 프레임, 1/4 레이트 프레임, 1/8 레이트 프레임이라 하는 보코더 프레임에서 수행된다.
음성 프레임의 파라미터를 수행하기 위한 보코더 프레임의 유형을 선택하기 위해 음성 분류를 사용하는 방법은, 본 발명의 양수인에게 양도되며 여기에 참조로서 포함되고, 명칭이 "강인한 음성 분류를 위한 방법 및 장치 (METHOD AND APPARATUS FOR ROBUST SPEECH CLASSIFICATION)" 인, 동시 계류중인 미국 특허 출원 제 09/733,740 호에 개시되어 있다. 이 동시 계류중인 특허 출원에서, 보이스 활동 검출기, LPC 분석기, 및 개방 루프 피치 추정기는 과거, 현재 및 미래의 여러 음성 프레임 에너지 파라미터들을 결정하기 위해 음성 분류기에 의해 이용되는 정보를 출력하도록 구성된다. 이후, 이들 음성 프레임 에너지 파라미터들은 음향 신호를 보다 정확하고 강인하게 음성 또는 비음성 모드로 분류하기 위해 이용된다.
음향 신호의 분류가 입력 프레임에 대해 수행된 후에, 입력 프레임의 스펙트럼 컨텐츠는 여기 설명되는 실시형태들에 따라 조사된다. 당해기술에서 일반적으로 공지된 바와 같이, 음향 신호는 저역-통과, 대역-통과, 고역-통과 또는 금지-대역으로 분류될 수 있는 주파수 스펙트럼을 종종 가진다. 예를 들면, 유성음 신호는 일반적으로 저역-통과 주파수 스펙트럼을 갖는 한편, 무성음 신호는 일반적으로 고역-통과 주파수 스펙트럼을 가진다. 저역-통과 신호에서, 주파수 다이-오프는 주파수 범위의 더 높은 종단부에서 발생한다. 대역-통과 신호에서, 주파수 다이-오프는 주파수 범위의 낮은 종단부와 높은 종단부에서 발생한다. 금지대역 신호에서, 주파수 다이-오프는 주파수 범위의 중간에서 발생한다. 고역-통과 신호에서, 주파수 다이-오프는 주파수 범위의 낮은 종단부에서 발생한다. 여기서 사용된 바와 같이, "주파수 다이-오프 (frequency die-off)" 라는 용어는 좁은 주파수 범위에서 주파수 스펙트럼의 크기의 감소, 또는 다른 방법으로는, 크기가 임계값보다 작은 주파수 스펙트럼의 영역을 말한다. 실질적인 용어의 정의 그 용어가 여기에서 사용되는 문맥에 의존한다.
선택적으로 파라미터 정보를 제거하기 위해, 실시형태들은 음향 신호 및 그 음향 신호에 의해 나타난 주파수 스펙트럼의 유형을 결정한다. 그렇지 않다면제거된 파라미터 정보에 할당된 비트는 잔존하는 파라미터 정보의 양자화에 재할당될 수 있어, 합성된 음향 신호의 지각 품질의 개선을 가져온다. 또 다른 방법으로는, 제거된 파라미터 정보에 할당된 비트는 고려에서 드롭되는데 (dropped), 즉 이들 비트는 송신되지 않으므로 비트 레이트에서의 전체적인 감소를 초래한다.
일 실시형태에서, 소정의 스플릿 위치들은, 음향 신호의 분류로 인해, 소정의 다이-오프가 발생될 것으로 기대되는 주파수들에서 설정된다. 여기에 사용된 바와 같이, 주파수 스펙트럼에서의 스플릿 위치는 또한 분석 영역의 경계라 한다. 스플릿 위치는 전술한 SPVQ 방식에서와 같이, 입력 벡터 X 가 어떻게 많은 "서브-벡터들" Xj (j=1,2, ... Ns) 로 스플릿되는지 결정하기 위해 사용된다. 지정된 제거 위치에 있는 서브-벡터들의 계수들은 버려지고, 이들 버려진 계수들에 대한 할당된 비트는 송신에서 드롭되거나, 잔존하는 서브-벡터 계수들의 양자화에 재할당된다.
예를 들어, 음향 신호의 프레임을 모델링하기 위해 16 차수의 LPC 필터를 사용하도록 보코더가 구성된다고 가정한다. 또한, SPVQ 방식에서, 6 개 계수들의 서브-벡터는 저역-통과 주파수 성분들을 설명하는데 사용되고, 6 개 계수들의 서브-벡터는 대역-통과 주파수 성분들을 설명하는데 사용되며, 및 4 개 계수들의 서브-벡터는 고역-통과 주파수 성분들을 설명하는데 사용된다고 가정한다. 제 1 서브-벡터 코드북은 8-비트의 코드벡터들을 구비하고, 제 2 서브-벡터 코드북은 8-비트의 코드벡터들을 구비하며, 및 제 3 서브-벡터 코드북은 6-비트 코드벡터들을 구비한다.
본 실시형태는 스플릿 벡터 즉, 서브-벡터들 중의 하나의 섹션이 주파수 다이-오프와 일치하는지를 결정한다. 음향 신호 분류 방식에 의해 결정되는 바와 같이, 만약 주파수 다이-오프가 있는 경우, 그 특정 서브-벡터는 드롭된다 (. 일 실시형태에서, 그 드롭된 서브-벡터는 송신 채널을 통해 송신될 필요가 있는 코드벡터 비트들의 수보다 더 작다. 다른 실시형태에서, 그 드롭된 서브-벡터에 할당되었던 코드벡터 비트들은 잔존하는 서브-벡터들에 재-할당된다. 상기에서 제공된 예에서, 만약 분석 프레임이 5kHz에서의 다이-오프 주파수로 저역-통과 신호를 캐리하는 경우, 대역폭-적응 방식의 일 실시형태에 따라, 6 비트들이 코드북 정보를 송신하는데 사용되지 않고, 또는 다른 방법으로는, 그 6 코드북 비트들이 잔존하는 코드북들에 재-할당되어, 그 결과 제 1 서브-벡터 코드북은 11-비트 코드벡터들을 구비하고 제 2 서브-벡터 코드북은 11-비트 코드벡터들을 구비한다. 이러한 방식의 구현은 메모리를 절약하기 위해, 임베디드 코드북으로 구현될 수 있다. 임베디드 코드북 방식은 더 작은 코드북들의 세트가 더 큰 코드북 내로 임베디드되는 방식이다.
도 3 에서와 같이, 임베디드 코드북이 구성될 수 있다. 수퍼 코드북 (310) 은 2M 개의 코드벡터들을 구성한다. 만약 벡터가 양자화를 위해 M 비트들보다 작은 비트-버짓을 요구하는 경우, 2M 보다 작은 사이즈의 임베디드 코드북 (320) 이 그 수퍼 코드북으로부터 추출될 수 있다. 상이한 임베디드 코드북들이 각 단계에 대해 상이한 서브-벡터들로 할당될 수 있다. 이 설계는 충분한 메모리 절약을 제공한다.
도 4 는 일반적인 대역폭-적응 양자화 방식의 블록도이다. 단계 400 에 서, 분석 프레임은 음성 또는 비음성 모드에 따라 분류된다. 단계 410 에서, 분류정보는 스펙트럼 분석기로 제공되고, 스펙트럼 분석기는 그 분류 정보를 이용하여 신호의 주파수 스펙트럼을 분석 영역들로 스플릿시킨다. 단계 420 에서, 스펙트럼 분석기는 분석 영역들 중 어떤 것이 주파수 다이-오프와 일치하는지를 결정한다. 만약, 분석 영역의 어떤 것도 주파수 다이-오프와 일치하지 않는 경우, 단계 435 에서, 분석 프레임과 연관된 LPC 계수들은 모두 양자화된다. 만약, 분석 영역들 중 어떤 것이 주파수 다이-오프와 일치하는 경우, 단계 430 에서 주파수 다이-오프와 연관된 LPC 계수들은 양자화되지 않는다. 일 실시형태에서, 프로그램 흐름은 단계 440 으로 진행하고, 여기서 단지 주파수 다이-오프 영역들과 연관되지 않는 LPC 계수들만이 양자화되어 송신된다. 다른 실시형태에서, 프로그램 흐름은 단계 450 으로 진행하고, 여기서 그렇지 않으면 주파수 다이-오프 영역을 위해 유지될 양자화 비트들은 그 대신에 다른 분석 영역들과 연관된 계수들의 양자화에 재-할당된다.
도 5a 는 저역-통과 주파수 스펙트럼 (도 5b), 고역-통과 주파수 스펙트럼 (도 5c), 금지-대역 주파수 스펙트럼 (도 5d), 및 대역-통과 주파수 스펙트럼 (도 5e) 으로 정열된 16 개의 계수들을 나타낸다. 분석 프레임이 유성음을 캐리하는 것을 표시하는 분석 프레임에 대해 분류가 수행되는 것을 가정한다. 그 후, 시스템은 스플릿 위치, 즉 상기 예에서, 5kHz 이상의 분석 영역에 대해 양자화 비트들을 할당하는지를 결정하기 위해, 저역-통과 주파수 스펙트럼 모델을 선택하도록 본 발명의 일 양태에 따라 구성된다. 그 후, 음향 신호의 지각적으로 중요 하지 않은 부분이 그 영역에 존재하는지를 결정하기 위해, 스펙트럼이 5kHz 와 8kHz 사이에서 분석된다. 만약 그 신호가 그 영역에서 지각적으로 중요하지 않는 경우, 신호 파라미터들은 신호의 중요하지 않는 부분에 대해 어떠한 표현도 없이 양자화되어 송신된다. 신호의 지각적으로 중요하지 않는 부분을 나타내는데 사용되지 않는 "저장된 (saved)" 비트들이 신호의 잔존하는 부분의 계수들을 나타내는데 재-할당될 수 있다. 예를 들어, 표 1 은 저역-통과 신호를 위해 선택된 주파수들에 대한 계수들의 얼라인먼트 (alignment) 을 나타낸다. 상이한 스펙트럼 특성들을 가지는 신호들에 대해 다른 얼라인먼트가 가능하다.
(표 1) 저역-통과 신호에 대한 계수 얼라인먼트
Hz 디멘젼 (Dimensionality)
3000 8 개의 계수
4000 10 개의 계수
5000 12 개의 계수
6000 14 개의 계수

만약 5kHz 이상의 주파수 다이-오프가 있는 경우, 저역-통과 신호를 나타내는 정보를 운반하는데 단지 12 개의 계수들만이 필요하다. 잔존하는 4 개의 계수들은 본 명세서에서 설명된 실시형태에 따라 송신될 필요가 없다. 일 실시형태에 따르면, "손실된 (lost)" 4 개의 계수들과 연관된 서브-벡터 코드북에 할당된 비트들은 그 대신에 다른 서브-벡터 코드북들로 분배된다.
따라서, 송신을 위한 비트들의 개수의 감소 또는 신호의 잔존하는 부분의 음향 품질에서의 개선이 있다. 둘 중 어느 하나의 경우에서, 드롭된 서브-벡터는 송신되지 않을 "손실된" 신호 정보로 귀결된다. 또한, 본 실시형태는 음향 신 호의 합성을 용이하게 하기 위해 이미 드롭된 그 부분들 내로 "필러"를 대체하는 것이다. 만약 디멘젼이 벡터에서 드롭되는 경우, 그 음향신호를 정확하게 합성하기 위해 디멘젼이 그 벡터에 더해져야만 한다.
일 실시형태에서, 필러는 드롭된 서브-벡터의 평균 계수값을 결정함으로서 생성될 수 있다. 이 실시형태의 일 양태에서, 그 평균 계수값은 신호 파라미터 정보와 함께 송신된다. 이 실시형태의 다른 양태에서, 그 평균 계수값은 송신단과 수신단 양쪽에서 공유 표에 저장된다. 신호 파라미터들과 함께 실제의 평균 계수값을 송신하는 것보다는, 표에서의 평균 계수값이 놓인 상태를 식별하는 인덱스가 송신된다. 그 후 수신단은 평균 계수값을 결정하는 룩업 (look up) 표를 수행하기 위해 그 인덱스를 사용할 수 있다. 다른 실시형태에서, 분석 프레임의 분류는 적당한 필러 서브벡터를 선택하기 위해 수신단에 충분한 정보를 제공한다.
다른 실시형태에서, 필러 서브벡터는 송신측으로부터 추가적인 정보없이, 디코더에서 생성된 일반적 모델이 될 수 있다. 예를 들어, 필러 서브벡터로서 균일 분배가 이용될 수 있다. 또 다른 실시형태에서, 필러 서버벡터는 현재의 프레임내로 복사될 수 있는 이전 프레임의 노이즈 통계들과 같은 과거의 정보일 수도 있다.
전술한 대체 프로세스는 송신측에서의 분석-바이-합성 루프 (analysis-by-synthesis loop) 및 수신기에서의 합성 프로세스에서 사용에 적용가능하다.
도 6 은 신규한 대역폭-적응 양자화 방식에 따라 구성된 보코더의 기능적인 구성요소들의 블록도이다. LPC 계수들을 결정하기 위해, 광대역 신호의 프레임이 LPC 분석 유닛 (600) 내로 입력된다. LSP 계수들을 결정하기 위해, 그 LPC 계수들이 LSP 생성 유닛 (620) 으로 입력된다. 또한, LPC 계수들은, 입력 신호가 음성, 비음성, 또는 비활성 음성인지를 결정하기 위해 구성된 보이스 활동 검출기 (VAD : Voice Activity Detector) (630) 내로 입력된다. 일단 그 분석 프레임에서 음성이 있는 것으로 결정이 이루어지면, LPC 계수들 및 다른 신호 정보는, 유성음 (voiced), 무성음 (unvoiced), 과도음 (transient) 과 같은 분류를 위해, 프레임 분류 유닛 (640) 내로 입력된다. 상기에서 참조로 한 미국 특허 제 5,414,796 호에서 프레임 분류 유닛들의 예들이 제공된다.
프레임 분류 유닛 (640) 의 출력은 스펙트럼 컨텐트 유닛 (650) 및 레이트 선택 유닛 (660) 으로 전송되는 분류 신호이다. 스펙트럼 컨텐트 유닛 (650) 은, 특정 주파수 대역들에서의 신호의 주파수 특성들을 결정하기 위해, 분류 신호에 의해 운반되는 정보를 사용하고, 여기서 주파수 대역들의 경계들은 분류 신호에 의해 설정된다. 일 양태에서, 스펙트럼 컨텐트 유닛 (650) 은 스펙트럼의 특정 부분이 지각적으로 중요하지 않는지를 스펙트럼의 전체 에너지에 대해 스펙트럼의 그 특정 부분을 비교함으로써 결정하도록 구성된다. 만약 에너지 비율이 소정의 임계값보다 작으면, 스펙트럼의 특정 부분이 지각적으로 중요하지 않다는 결정이 이루어진다. 제로 크로싱 (zero crossing) 의 조사와 같은, 주파수 스펙트럼의 특성들을 검사하기 위한 다른 양태들이 존재한다. 제로 크로싱은 매 프레임마다 신호에서의 부호 변화들의 개수이다. 만약 특정 부분에서 제로 크로싱 의 개수가 낮다면, 즉소정의 임계량보다 작다면, 신호는 아마도 무성음 보다는 소유성음을 구비한다. 다른 양태에서, 프레임 분류 유닛 (650) 의 기능성은 상기에서 상정된 목표들을 달성하기위해 스펙트럼 컨텐트 유닛 (650) 의 기능성과 결합될 수 있다.
레이트 선택 유닛 (660) 은 분석 프레임에서 캐리된 신호가 풀 레이트 프레임에 의해, 1/2 레이트 프레임에 의해, 1/4 레이트 프레임에 의해, 또는 1/8 레이트 프레임에 의해 가장 잘 캐리될 수 있는지를 결정하기 위해, 프레임 분류 유닛 (640) 으로부터의 분류 정보와 스펙트럼 컨텐트 유닛 (650) 의 스펙트럼 정보를 이용한다. 레이트 선택 유닛 (660) 은 프레임 분류 유닛 (640) 에 기초하여 초기의 레이트 결정을 수행하도록 구성된다. 그 후, 초기 레이트 결정은 스펙트럼 컨텐트 유닛 (650) 으로부터의 결과들에 따라서 변경된다. 예를 들어, 만약 스펙트럼 컨텐트 유닛 (650) 으로부터의 정보가 신호의 부분이 지각적으로 중요하지 않다는 것을 나타내는 경우, 레이트 선택 유닛 (660) 은 신호 파라미터들을 캐리하기 위해 원래 선택된 것보다 더 작은 보코더 프레임을 선택하도록 구성될 수도 있다.
본 실시형태의 일 양태에서, VAD(630), 프레임 분류 유닛 (640), 스펙트럼 컨텐트 유닛 (650) 및 레이트 선택 유닛 (660) 의 기능성은 대역폭 분석기 (655) 내에서 결합될 수 있다.
양자화기 (670) 는 레이트 선택 유닛 (660) 으로부터 레이트 정보를, 스펙트럼 컨텐트 유닛 (650) 으로부터 스펙트럼 컨텐트 정보를, 및 LSP 생성 유닛 (620) 으로부터 LSP 계수들을 수신하도록 구성된다. 양자화기 (670) 는 LSP 계수들에대해 적당한 양자화 방식을 결정하기 위해 프레임 레이트 정보를 사용하고 필터 계수들의 특정의, 정열된 그룹들의 양자화 비트-버짓들을 결정하기 위해 스펙트럼 컨텐트 정보를 사용한다. 그 후, 양자화기 (670) 의 출력은 다중화기 (695) 로 입력된다.
선형 예측 코더들에서, 또한 양자화기 (670) 의 출력은 분석-바이-합성 루프에서의 옵티멀 여기 벡터들을 생성하는데 사용되고, 신호와 합성된 신호 사이의 차이를 최소화하는 여기 벡터를 선택하기 위해 여기 벡터들에 대한 철저한 검색이 수행된다. 루프의 합성 부분을 수행하기 위해, 여기 발생기 (690) 는 원래 신호와 같은 동일한 디멘젼의 입력을 가져야한다. 따라서, 대체 유닛 (680) 에서, 전술한 실시형태들의 일부에 따라 생성된 "필러" 서브벡터는 양자화기 (670) 의 출력과 결합되어 여기 생성기 (690) 로 입력을 공급한다. 여기 생성기 (690) 은 옵티멀 여기 벡터를 선택하기 위해 필러 서브벡터 및 LPC 분석 유닛 (600) 으로부터의 LPC 계수들을 이용한다. 여기 생성기 (690) 의 출력과 양자화기 (670) 의 출력은 결합되도록 다중화기 엘리먼트 (695) 내로 입력된다. 그 후, 다중화기 (695) 의 출력은 수신기로의 송신을 위해 인코딩되고 변조된다.
확산 스펙트럼 통신 시스템의 하나의 유형에서, 다중화기 (695) 의 출력 즉, 보코더 프레임의 비트들은 컨벌루션 또는 터보 인코딩되고, 리피트되고, 및 이진 코드 심벌들의 시퀀스를 생성하도록 펑처된다 (punctured). 생성된 코드 심벌들은 변조 심벌들의 프레임을 획득하도록 인터리브된다. 그 후, 변조 심벌들은 왈쉬-커버링되고 직교-위상 브랜치상에서 PN-확산되고, 기저 대역 필터링되며, 및 송신 캐리어 신호상으로 변조되는 파일럿 시퀀스와 결합된다.
도 7 은 수신단에서의 디코딩 프로세스의 기능적 블록도이다. 수신된 여기 비트들 (700) 의 스트림은 음향신호를 합성하기 위해 LPC 합성 유닛 (720)에 의해 사용될 여기 벡터들을 생성하는 여기 생성 유닛 (710) 으로 입력된다. 수신된 양자화 비트들 (750) 의 스트림은 양자화 해제기 (760) 로 입력된다. 양자화 해제기 (760) 는 LPC 합성 유닛 (720) 에서 LPC 필터를 생성하기 위해 사용될 스펙트럼 표현들 즉, 계수 값의 변환이 송신단에서 사용되는 계수값들을 생성한다. 그러나, LPC 필터가 생성되기 이전에, LPC 벡터의 디멘젼을 완성하는데 필러 서브벡터가 필요해질 수도 있다. 대체 엘리먼트 (770) 는 양자화 해제기 (760) 로부터의 스펙트럼 표현 서브-벡터들을 수신하도록, 그리고 전체 벡터의 디멘젼을 완성하기 위해, 수신된 서브-벡터들에 필러 서브벡터를 더하도록 구성된다. 그 후 전체 벡터는 LPC 합성 유닛 (720) 에 입력된다.
이미 있는 기존의 벡터 양자와 방식들에서 상기 실시형태들이 어떻게 동작할 수 있는지의 예로서, 일 실시형태가 SMSVQ 방식의 맥락에서 이하 설명된다. 이미 알고 있는 바와 같이, SMSVQ 방식에서, 입력 벡터는 서브-벡터들로 스플릿된다. 그 후, 각각의 서브-벡터는 멀티-스테이지 구조를 통해 진행된다. 각 스테이지에 대한 각 입력 서브-벡터의 디멘젼은 동일하게 유지될 수도 있거나 또는 심지어 추가적으로 더 작은 서브-벡터들로 스플릿될 수 있다.
16 차수의 LPC 벡터가 양자화 목적으로 32 비트들의 비트-버짓으로 할당된다 고 가정한다. 입력 벡터는 3 개의 서브-벡터들, 즉 X1, X2, X3 로 스플릿된다고 가정한다. 직접 SMSVQ 방식에 대해, 계수 얼라인먼트 및 코드북 사이즈는 다음과 같이 될 수 있다.
(표 2)직접 SMSVQ 방식
X1 X2 X3 전체 비트
계수들의 넘버 6 6 4
스테이지 1 코드북 비트들 6 6 6 18
스테이지 2 코드북 비트들 5 5 4 14

도시된 바와 같이, 제 1 스테이에서 서브-벡터 X1의 양자화에 대해 유지된 사이즈 26 코드벡터들의 코드북이 있고, 제 2 스테이지에서 서브-벡터 X1의 양자화에 대해 유지된 사이즈 25 코드벡터들의 코드북이 있다. 유사하게, 다른 서브-벡터들이 코드북 비트들로 할당된다. 광대역 신호의 LPC 계수들을 나타내기 위해 모두 32 비트가 사용된다.
만약 비트-레이트를 감소시키도록 실시형태가 구현되는 경우, 주파수 다이-오프와 같은 특성들에 대해 스펙트럼의 분석 영역이 조사되어, 주파수 다이-오프 영역들이 양자화로부터 제거될 수 있다. 서브-벡터 X3 이 주파수 다이-오프 영역과 일치한다고 가정하자. 그 후, 계수 얼라인먼트 및 코드북 사이즈는 다음과 같이 될 수도 있다.
(표 3)비트-레이트 감소 방식
X1 X2 X3 전체 비트
계수들의 넘버 6 6 N/A
스테이지 1 코드북 비트들 6 6 N/A 12
스테이지 2 코드북 비트들 5 5 N/A 10

도시된 바와 같이, 32-비트 양자화 비트-버짓이 지각 품질의 손실 없이 22 비트로 감소될 수 있다.
만약 어떤 분석 영역들의 음향 특성을 개선하도록 실시형태가 구현되는 경우, 계수 얼라인먼트 및 코드북 사이즈는 다음과 같이 될 수 있다.
(표 4)품질 개선 방식
X1(1) X1(2) X2(1) X2(2) X3 전체비트
계수들의 넘버 6 6 N/A
스테이지 1 코드북 비트들 6 6 N/A 12
스테이지 2 계수 스플릿 3 3 3 3 N/A
스테이지 2 코드북 비트들 5 5 5 5 N/A 20

상기 표는 제 2 스페이지에서 서브-벡터 X1 의 2 개의 서브-벡터들 X11 및 X12으로의 스플릿, 및 서브-벡터 X2 의 2 개의 서브-벡터들 X21 및 X22 로의 스플릿을 나타낸다. 각각의 스플릿 서브-벡터 Xij 는 3 개의 계수들을 구성하며, 각 스플릿 서브-벡터 Xij 에 대한 코드북은 25의 코드벡터들을 구성한다. 제 2 스테이지에 대한 코드북들의 각각은 X3 코드북들로부터 코드북 비트들의 재-할당을 통해 그들의 사이즈를 얻는다.
상기 실시형태들은 고정 길이의 벡터를 수신하고, 고정 길이 벡터의 가변-길이, 양자화된 표현을 생성한다. 신규한 대역폭-적응 방식은, 송신 비트 레이트를 감소시키거나 또는 신호의 보다 지각적으로 중요한 부분들의 품질을 개선시키는 것 중의 어느 하나를 위해, 광대역신호로 운반되는 정보를 선택적으로 이용한다. 전술한 실시형태들은 연속적인 프로세싱에 대한 입력 벡터의 디멘젼을 여전히 유지하는 동시에 양자화 도메인에서의 서브-벡터들의 디멘젼을 감소시킴으로써 이들 목표들을 달성한다.
이와 반대로, 일부 보코더들은 입력 벡터의 차수를 변화시킴으로써 비트-감소 목표들을 달성한다. 그러나, 만약 연속적인 프레임들에서의 필터 계수들의 수가 변화하는 경우, 직접적인 예측은 불가능하다. 예를 들어, LPC 계수들의 보다 덜 빈번한 업데이트들이 있는 경우, 종래의 보코더들은 일반적으로 과거 및 현재의 파라미터들을 이용하여 스펙트럼 파라미터들을 인터폴레이트한다 (interpolate). 계수값들 사이로 인터폴레이션 (또는 확장) 은 프레임들 사이의 동일한 LPC 필터를 획득하도록 구현되어야만하고, 그렇지 않는 경우 프레임들 사이의 전이 (transition) 는 스무스하지 않다. 예측 양자화 또는 LPC 파라미터 인터폴레이션을 수행하기 위해, 동일 차수-전이 프로세스가 LPC 벡터들에 대해 수행되어야만 한다. 미국 특허 제 6,202,045 호의 "가변 모델 차수 선형 예측 을 통한 음성 코딩 (SPEECH CODING WITH VARIABLE MODEL ORDER LINEAR PREDICTION)"을 참조하라. 본 실시형태들은 비트-레이트들을 감소시키고, 또는 LPC 계수 도메인에서 입력 벡터를 확장시키거나 또는 수축시키는 것의 부가되는 복잡함 없이 신호의 지각적으로 중요한 부분들을 개선시킨다.
상기 실시형태들은 가변 레이트 보코더의 맥락에서 설명되었다. 그러나, 상기 실시형태들은 본 실시형태들의 범위에 영향을 미치는 것 없이 고정 레이트 보코더들 또는 다른 유형의 코더들에 적용될 수 있다. 예를 들어, SPVQ 방식, MSVQ 방식, PMSVQ 방식, 또는 이들 벡터 양자화 방식들의 약간 다른 형태가 프레임 분류 유닛을 통해 음성 신호들의 분류를 사용하지 않는 고정 레이트 보코더에서 구현될 수 있다. 상기 실시형태들에 따라 구성된 가변 레이터 보코더에 대해, 신호 유형들의 분류는 보코더 레이트의 선택을 위해, 그리고 스펙트럼 영역들, 즉 주파수 대역들의 경계들을 정의하기 위해서이다. 그러나, 고정 레이트 보코더에서 주파수 대역들의 경계들을 결정하는데 다른 툴들이 사용될 수 있다. 예를 들어, 신호의 부분들이 의도적으로 "손실"될 수 있는지를 결정하기 위해, 별개로 지정된 주파수 대역들에 대해 고정 레이트 보코더에서의 스펙트럼 분석이 수행될 수 있다. 그 후, 이들 "손실" 부분들에 대한 비트-버짓들은 전술한 바와 같이, 신호의 지각적으로 중요한 부분들의 비트-버짓들에 재할당될 수 있다.
정보와 신호들을 어떤 여러 다른 기술체계 및 기술을 이용하여 나타낼 수도 있다. 예를 들어, 전술한 명세서 전반에 걸쳐 언급한 데이터, 명령, 커맨드, 정보, 신호들, 비트, 심벌 및 칩을 전압, 전류, 전자기파, 자기장 또는 자기 입자, 광학필드 또는 광학 입자, 또는 이들의 조합으로 나타낼 수도 있다.
또한, 실시형태와 관련한, 전술한 여러 논리 블록, 모듈, 회로, 및 알고리즘 단계들을, 전자 하드웨어, 컴퓨터 소프트웨어, 또는 이들의 조합으로서 구현할 수도 있다. 하드웨어와 소프트웨어의 호환가능성을 명확히 설명하기 위해, 설명한 여러 컴포넌트, 블록, 모듈, 회로 및 단계들을 그들의 기능성면에서 일반적으로 설명하였다. 이러한 기능이 하드웨어 또는 소프트웨어로서 구현되는지 여부는 특정 애플리케이션 및 전체적인 시스템을 지원하는 설계조건들에 의존한다. 당업자는, 각각의 특정 애플리케이션에 대하여 여러 방법으로 전술한 기능성을 실시할 수도 있지만, 그 실시 결정은 본 발명의 범위를 벗어나는 것이 아니다.
전술한 실시형태들과 관련하여 설명한 여러 논리 블록, 모듈, 및 회로들을 범용 프로세서, 디지털 신호 프로세서 (DSP), 주문형 집적 회로 (ASIC), 필드 프로그래머블 게이트 어레이 (FPGA) 또는 다른 프로그래머블 논리 장치, 별도의 게이트 (discrete gate) 또는 트랜지스터 로직, 별도의 하드웨어 컴포너트, 또는 명세서에서 설명된 기능들을 수행하도록 설계된 이들의 어떤 조합으로 실시하거나 수행할 수도 있다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 또 다른 방법으로, 이 프로세서는 어떤 종래의 프로세서, 콘트롤러, 마이크로콘트롤러, 또는 상태 머신일 수도 있다. 또한, 프로세서는 연산 장치의 조합, 예를 들어, DSP와 마이크로프로세서의 조합, 복수의 마이크로프로세서, DSP 코어와 연관된 하나 이상의 마이크로프로세서, 또는 어떤 다른 구성으로서 실시할 수도 있다.
전술한 실시형태들과 관련된 방법 또는 알고리즘의 단계들을 하드웨어내에, 프로세서에 의해 실행되는 소프트웨어 모듈내에, 또는 이들의 조합내에 내장시킬 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 이동형 디스크, CD-ROM, 또는 당해 기술분야에서 알려진 저장 매체의 어떠 다른 형태에 상주할 수도 있다. 예시적 저장 매체는, 그 프로세서가 정보 형태를 판독할 수도 있고, 정보를 저장매체에 기록할 수 있도록 프로세스에 연결될 수도 있다. 또 다른 방법으로, 저장 매체는, 프로세서에 일체부일 수도 있다. 프로세서 및 저장 매체는 ASIC에 상주할 수도 있다. ASIC은 사용자 단말기에 상주할 수도 있다. 또 다른 방법으로, 프로세서와 저장 매체는 사용자 단말기에서 별도의 컴포넌트로서 상주할 수도 있다.
전술한 실시형태들은 당업자가 본 발명의 이용 또는 제조가 가능하도록 제공된 것이다. 이들 실시형태들의 여러 변형도 가능하며, 명세서내에 규정된 일반 원리는 본 발명의 범위를 벗어나지 않고 또 다른 실시형태들에 적용할 수도 있다. 따라서, 본 발명은 상기 실시형태들로 제한되는 것은 아니며, 명세서내의 원리와 신규 특징들에 부합하는 폭넓은 의미로 해석할 수 있다.

Claims (21)

  1. 주파수 스펙트럼의 하나 이상의 분석 영역과 연관된 신호 특성을 결정하는 스펙트럼 컨텐트 엘리먼트로서, 상기 신호 특성은 지각적으로 중요하지 않은 신호 존재 또는 지각적으로 중요한 신호 존재를 나타내는, 상기 스펙트럼 컨텐트 엘리먼트; 및
    상기 신호 특성이 지각적으로 중요하지 않은 신호 존재를 나타내는 경우, 상기 하나 이상의 분석 영역으로부터 떨어져 양자화 비트들을 선택적으로 할당하기 위해 상기 하나 이상의 분석 영역과 연관된 상기 신호 특성을 이용하도록 구성된 벡터 양자화기를 구비하는, 대역폭-적응 양자화기.
  2. 제 1 항에 있어서,
    상기 스펙트럼 컨텐트 엘리먼트는 추가적으로 상기 주파수 스펙트럼 영역의 상기 하나 이상의 분석 영역에 대한 하나 이상의 경계 조건을 결정하는, 대역폭-적응 양자화기.
  3. 제 1 항에 있어서,
    상기 주파수 스펙트럼의 상기 하나 이상이 분석 영역에 대한 하나 이상의 경계 조건을 결정하는 프레임 분류 엘리먼트를 더 구비하는, 대역폭-적응 양자화기.
  4. 제 3 항에 있어서,
    분석 프레임이 음성 신호 또는 비-음성 신호를 포함하는지를 결정하는 보이스 활동 검출 엘리먼트; 및
    상기 보이스 활동 검출 엘리먼트와 프레임 분류 엘리먼트의 결정에 의존하는 송신 프레임 유형을 결정하는 레이트 선택 엘리먼트를 더 구비하는, 대역폭-적응 양자화기.
  5. 제 1 항에 있어서,
    상기 하나 이상의 분석 영역으로부터 떨어져 할당된 상기 양자화 비트들을 대체하기 위해 필러 서브벡터를 부가하도록 구성된 대체 엘리먼트를 더 구비하며,
    상기 대체 엘리먼트의 출력은 인코더의 분석-바이-합성 부분 또는 수신단에서의 디코더의 합성 부분에 이용되는, 대역폭-적응 양자화기.
  6. 제 1 항에 있어서,
    상기 벡터 양자화기는, 지각적으로 중요한 신호 존재를 나타내는 분석 영역에 양자화 비트들을 할당하도록 더 구성되고, 상기 양자화 비트들은 지각적으로 중요하지 않은 상기 하나 이상의 분석 영역으로부터 떨어져 있는, 대역폭-적응 양자화기.
  7. 제 1 항에 있어서,
    상기 벡터 양자화기는 스플릿 벡터 양자화를 수행하도록 더 구성되는, 대역폭-적응 양자화기.
  8. 제 1 항에 있어서,
    상기 벡터 양자화기는 멀티-스테이지 벡터 양자화를 수행하도록 더 구성되는, 대역폭-적응 양자화기.
  9. 제 1 항에 있어서,
    상기 벡터 양자화기는 스플릿, 멀티-스테이지 벡터 양자화를 수행하도록 더 구성되는, 대역폭-적응 양자화기.
  10. 제 1 항에 있어서,
    상기 벡터 양자화기는 예측 멀티-스테이지 벡터 양자화를 수행하도록 더 구성되는, 대역폭-적응 양자화기.
  11. 제 6 항에 있어서,
    상기 벡터 양자화기는 양자화 비트들을 할당하는 임베디드 코드북에 액세스하도록 더 구성된, 대역폭-적응 양자화기.
  12. 보코더의 비트-레이트를 감소시키는 장치로서,
    주파수 스펙트럼의 영역에서 주파수 다이-오프 존재를 결정하는 수단;
    상기 주파수 다이-오프 영역과 연관된 복수의 계수를 양자화하는 것을 억제하는 수단; 및
    소정의 코드북을 이용하여 잔존하는 주파수 스펙트럼을 양자화하는 수단을 구비하는, 보코더의 비트-레이트 감소 장치.
  13. 보코더를 통과하는 음향 신호의 지각 품질을 향상시키는 방법으로서,
    주파수 스펙트럼의 영역에서 주파수 다이-오프 존재를 결정하는 수단;
    상기 주파수 다이-오프 영역과 연관된 복수의 계수를 양자화하는 것을 억제하는 수단;
    그렇지 않은 경우 상기 주파수 다이-오프 영역을 나타내는데 이용되는 복수의 양자화 비트들을 재할당하는 수단; 및
    그렇지 않는 경우 상기 주파수 다이-오프 영역을 나타내는데 이용되는 복수의 양자화 비트들을 포함하는 수퍼 코드북을 이용하여, 잔존하는 주파수 스펙트럼을 양자화하는 수단을 구비하는, 음향 신호의 지각 품질 향상 방법.
  14. 보코더의 비트-레이트를 감소시키는 방법으로서,
    주파수 스펙트럼 영역에서 주파수 다이-오프 존재를 결정하는 단계;
    상기 주파수 다이-오프 영역과 연관된 복수의 계수를 양자화하는 것을 억제하는 단계; 및
    소정의 코드북을 이용하여 잔존하는 주파수 스펙트럼을 양자화하는 단계를 포함하는, 보코더 비트-레이트 감소 방법.
  15. 제 14 항에 있어서,
    상기 잔존하는 주파수 스펙트럼을 양자화하는 상기 단계는 벡터 양자화기를 사용하여 수행되는, 보코더 비트-레이트 감소 방법.
  16. 제 14 항에 있어서,
    상기 주파수 다이-오프 존재를 결정하는상기 단계는 음성 분류를 통해 상기 주파수 다이-오프 영역의 하나 이상의 경계를 결정하는 단계를 포함하는, 보코더 비트-레이트 감소 방법.
  17. 제 14 항에 있어서,
    상기 주파수 다이-오프 존재를 결정하는 상기 단계는 상기 주파수 스펙트럼에 대한 상기 영역의 비율을 결정하는 단계; 및
    상기 에너지 비율을 임계값과 비교하는 단계를 포함하는, 보코더 비트-레이트 감소 방법.
  18. 제 14 항에 있어서,
    상기 주파수 다이-오프 존재를 결정하는 상기 단계는 상기 영역에서 제로 크 로싱의 개수를 조사하는 단계를 포함하는, 보코더 비트-레이트 감소 방법.
  19. 보코더를 통과하는 음향 신호의 지각 품질을 향상시키는 방법으로서,
    주파수 스펙트럼의 영역에서 주파수 다이-오프 존재를 결정하는 단계;
    상기 주파수 다이-오프 영역과 연관된 복수의 계수를 양자화하는 것을 억제하는 단계;
    그렇지 않은 경우 상기 주파수 다이-오프 영역을 나타내는데 이용되는 복수의 양자화 비트들을 재할당하는 수단; 및
    그렇지 않은 경우 상기 주파수 다이-오프 영역을 나타내는데 이용되는 복수의 양자화 비트들을 포함하는 수퍼 코드북을 이용하여, 잔존하는 주파수 스펙트럼을 양자화하는 단계를 포함하는, 음향 신호의 지각 품질 향상 방법.
  20. 제 19 항에 있어서,
    상기 주파수 다이-오프 존재를 결정하는 상기 단계는 음성 분류를 통해 상기기 주파수 다이-오프 영역의 하나 이상의 경계를 결정하는 단계를 포함하는, 음향 신호의 지각 품질 향상 방법.
  21. 제 19 항에 있어서,
    상기 잔존하는 주파수 스펙트럼을 양자화하는 상기 단계는 벡터 양자화를 이용하여 수행되는, 음향 신호의 지각 품질 향상 방법.
KR1020057002341A 2002-08-08 2003-08-08 대역폭 적응 양자화 KR101081781B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/215,533 US8090577B2 (en) 2002-08-08 2002-08-08 Bandwidth-adaptive quantization
US10/215,533 2002-08-08

Publications (2)

Publication Number Publication Date
KR20060016071A true KR20060016071A (ko) 2006-02-21
KR101081781B1 KR101081781B1 (ko) 2011-11-09

Family

ID=31494889

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057002341A KR101081781B1 (ko) 2002-08-08 2003-08-08 대역폭 적응 양자화

Country Status (13)

Country Link
US (1) US8090577B2 (ko)
EP (1) EP1535277B1 (ko)
JP (2) JP2006510922A (ko)
KR (1) KR101081781B1 (ko)
AT (1) ATE407422T1 (ko)
AU (1) AU2003255247A1 (ko)
BR (1) BR0313317A (ko)
CA (1) CA2494956A1 (ko)
DE (1) DE60323377D1 (ko)
IL (1) IL166700A0 (ko)
RU (1) RU2005106296A (ko)
TW (1) TW200417262A (ko)
WO (1) WO2004015689A1 (ko)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100519165B1 (ko) * 2002-10-17 2005-10-05 엘지전자 주식회사 이동 통신 시스템에서 트래픽 처리 방법
US7613606B2 (en) * 2003-10-02 2009-11-03 Nokia Corporation Speech codecs
KR100656788B1 (ko) * 2004-11-26 2006-12-12 한국전자통신연구원 비트율 신축성을 갖는 코드벡터 생성 방법 및 그를 이용한 광대역 보코더
JP4635709B2 (ja) * 2005-05-10 2011-02-23 ソニー株式会社 音声符号化装置及び方法、並びに音声復号装置及び方法
US7587314B2 (en) 2005-08-29 2009-09-08 Nokia Corporation Single-codebook vector quantization for multiple-rate applications
US8370132B1 (en) * 2005-11-21 2013-02-05 Verizon Services Corp. Distributed apparatus and method for a perceptual quality measurement service
US20070136054A1 (en) * 2005-12-08 2007-06-14 Hyun Woo Kim Apparatus and method of searching for fixed codebook in speech codecs based on CELP
JP2007264154A (ja) * 2006-03-28 2007-10-11 Sony Corp オーディオ信号符号化方法、オーディオ信号符号化方法のプログラム、オーディオ信号符号化方法のプログラムを記録した記録媒体及びオーディオ信号符号化装置
US8532984B2 (en) 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
US7953595B2 (en) * 2006-10-18 2011-05-31 Polycom, Inc. Dual-transform coding of audio signals
US7966175B2 (en) * 2006-10-18 2011-06-21 Polycom, Inc. Fast lattice vector quantization
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
CN101335004B (zh) * 2007-11-02 2010-04-21 华为技术有限公司 一种多级量化的方法及装置
WO2010003563A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding audio samples
US7889721B2 (en) 2008-10-13 2011-02-15 General Instrument Corporation Selecting an adaptor mode and communicating data based on the selected adaptor mode
RU2523035C2 (ru) * 2008-12-15 2014-07-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Аудио кодер и декодер, увеличивающий полосу частот
PT2945159T (pt) 2008-12-15 2018-06-26 Fraunhofer Ges Forschung Codificador de áudio e descodificador de extensão de largura de banda
CA2833874C (en) * 2011-04-21 2019-11-05 Ho-Sang Sung Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium
WO2012144877A2 (en) * 2011-04-21 2012-10-26 Samsung Electronics Co., Ltd. Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor
AU2014211539B2 (en) 2013-01-29 2017-04-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Low-complexity tonality-adaptive audio signal quantization
CN111554311B (zh) * 2013-11-07 2023-05-12 瑞典爱立信有限公司 用于编码的矢量分段的方法和设备
US11704312B2 (en) * 2021-08-19 2023-07-18 Microsoft Technology Licensing, Llc Conjunctive filtering with embedding models

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4901307A (en) 1986-10-17 1990-02-13 Qualcomm, Inc. Spread spectrum multiple access communication system using satellite or terrestrial repeaters
NL8700985A (nl) * 1987-04-27 1988-11-16 Philips Nv Systeem voor sub-band codering van een digitaal audiosignaal.
EP0331858B1 (en) 1988-03-08 1993-08-25 International Business Machines Corporation Multi-rate voice encoding method and device
US5103459B1 (en) 1990-06-25 1999-07-06 Qualcomm Inc System and method for generating signal waveforms in a cdma cellular telephone system
CA2635914A1 (en) 1991-06-11 1992-12-23 Qualcomm Incorporated Error masking in a variable rate vocoder
JP3188013B2 (ja) 1993-02-19 2001-07-16 松下電器産業株式会社 変換符号化装置のビット配分方法
US5598514A (en) 1993-08-09 1997-01-28 C-Cube Microsystems Structure and method for a multistandard video encoder/decoder
US5764698A (en) 1993-12-30 1998-06-09 International Business Machines Corporation Method and apparatus for efficient compression of high quality digital audio
JP3283413B2 (ja) * 1995-11-30 2002-05-20 株式会社日立製作所 符号化復号方法、符号化装置および復号装置
JP3071388B2 (ja) 1995-12-19 2000-07-31 国際電気株式会社 可変レート音声符号化方式
FI964975A (fi) 1996-12-12 1998-06-13 Nokia Mobile Phones Ltd Menetelmä ja laite puheen koodaamiseksi
JP3147807B2 (ja) * 1997-03-21 2001-03-19 日本電気株式会社 信号符号化装置
TW408298B (en) 1997-08-28 2000-10-11 Texas Instruments Inc Improved method for switched-predictive quantization
WO1999010719A1 (en) 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
FI973873A (fi) 1997-10-02 1999-04-03 Nokia Mobile Phones Ltd Puhekoodaus
US5966688A (en) * 1997-10-28 1999-10-12 Hughes Electronics Corporation Speech mode based multi-stage vector quantizer
US6330533B2 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6148283A (en) 1998-09-23 2000-11-14 Qualcomm Inc. Method and apparatus using multi-path multi-stage vector quantizer
JP2000267699A (ja) * 1999-03-19 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法および装置、そのプログラム記録媒体、および音響信号復号装置
US6330532B1 (en) * 1999-07-19 2001-12-11 Qualcomm Incorporated Method and apparatus for maintaining a target bit rate in a speech coder
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US6570509B2 (en) * 2000-03-03 2003-05-27 Motorola, Inc. Method and system for encoding to mitigate decoding errors in a receiver
JP2002006895A (ja) 2000-06-20 2002-01-11 Fujitsu Ltd ビット割当装置および方法
JP3557164B2 (ja) 2000-09-18 2004-08-25 日本電信電話株式会社 オーディオ信号符号化方法及びその方法を実行するプログラム記憶媒体
US7472059B2 (en) 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
KR20020075592A (ko) * 2001-03-26 2002-10-05 한국전자통신연구원 광대역 음성 부호화기용 lsf 양자화기
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system

Also Published As

Publication number Publication date
ATE407422T1 (de) 2008-09-15
CA2494956A1 (en) 2004-02-19
JP2011188510A (ja) 2011-09-22
IL166700A0 (en) 2006-01-15
JP2006510922A (ja) 2006-03-30
RU2005106296A (ru) 2005-08-27
US8090577B2 (en) 2012-01-03
JP5280480B2 (ja) 2013-09-04
EP1535277B1 (en) 2008-09-03
WO2004015689A1 (en) 2004-02-19
DE60323377D1 (de) 2008-10-16
TW200417262A (en) 2004-09-01
KR101081781B1 (ko) 2011-11-09
EP1535277A1 (en) 2005-06-01
BR0313317A (pt) 2005-07-12
AU2003255247A1 (en) 2004-02-25
US20040030548A1 (en) 2004-02-12

Similar Documents

Publication Publication Date Title
JP5280480B2 (ja) 帯域幅適応性量子化方法と装置
JP5037772B2 (ja) 音声発話を予測的に量子化するための方法および装置
JP4870313B2 (ja) 可変レート音声符号器におけるフレーム消去補償方法
KR100898323B1 (ko) 음성 코더용 스펙트럼 크기 양자화 방법
KR100912030B1 (ko) 무선 통신 시스템에서 비대칭 스피치 코더를 사용하여 비대칭 링크를 생성하는 방법 및 장치
US8032369B2 (en) Arbitrary average data rates for variable rate coders
EP1214705B1 (en) Method and apparatus for maintaining a target bit rate in a speech coder
US7698132B2 (en) Sub-sampled excitation waveform codebooks
KR100752797B1 (ko) 음성 코더에서 선 스펙트럼 정보 양자화법을 인터리빙하는 방법 및 장치
KR100756570B1 (ko) 음성 코더의 프레임 프로토타입들 사이의 선형 위상시프트들을 계산하기 위해 주파수 대역들을 식별하는 방법및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20141030

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150930

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20161028

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170929

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180928

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190924

Year of fee payment: 9