KR100712056B1 - 가변 비트율 음성 부호화에서의 선형 예측 매개변수들의견실한 예측 벡터 양자화를 위한 방법 및 장치 - Google Patents

가변 비트율 음성 부호화에서의 선형 예측 매개변수들의견실한 예측 벡터 양자화를 위한 방법 및 장치 Download PDF

Info

Publication number
KR100712056B1
KR100712056B1 KR1020057011861A KR20057011861A KR100712056B1 KR 100712056 B1 KR100712056 B1 KR 100712056B1 KR 1020057011861 A KR1020057011861 A KR 1020057011861A KR 20057011861 A KR20057011861 A KR 20057011861A KR 100712056 B1 KR100712056 B1 KR 100712056B1
Authority
KR
South Korea
Prior art keywords
prediction
vector
stage
error vector
prediction error
Prior art date
Application number
KR1020057011861A
Other languages
English (en)
Other versions
KR20050089071A (ko
Inventor
밀란 젤리넥
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20050089071A publication Critical patent/KR20050089071A/ko
Application granted granted Critical
Publication of KR100712056B1 publication Critical patent/KR100712056B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 가변 비트율 사운드 신호 부호화에서 선형 예측 매개변수들을 양자화하는 방법 및 장치에 관한 것이며, 이 경우 입력 선형 예측 매개변수 벡터가 수신되고, 상기 입력 선형 예측 매개변수 벡터에 대응하는 사운드 신호 프레임이 분류되며, 예측 벡터가 계산되고, 상기 계산된 예측 벡터가 상기 입력 선형 예측 매개변수 벡터로부터 제거되며, 상기 계산된 예측 벡터의 제거로 예측 오차 벡터가 생성되고, 상기 예측 오차 벡터가 양자화된다. 상기 예측 벡터의 계산은 상기 사운드 신호 프레임의 분류와 관련하여 다수의 예측 스킴들 중 하나의 예측 스킴을 선택하는 것과 상기 선택된 예측 스킴을 통해 상기 예측 오차 벡터를 처리하는 것을 포함한다. 본 발명은 또한 가변 비트율 사운드 신호 복호화에서 선형 예측 매개변수들을 역양자화하는 방법 및 장치에 관한 것이며, 이 경우 적어도 하나의 양자화 인덱스 및 상기 양자화 인덱스에 대응하는 사운드 신호 프레임의 분류에 관한 정보가 수신되고, 예측 오차 벡터는 상기 인덱스를 적어도 하나의 양자화 표에 적용함으로써 회복되고, 예측 벡터는 재구성되며, 선형 예측 매개변수 벡터는 상기 회복된 예측 오차 벡터 및 상기 재구성된 예측 벡터에 응답하여 생성된다. 상기 예측 벡터의 재구성은 프레임 분류 정보에 의존하여 다수의 예측 스킴들 중 하나의 예측 스킴을 통해 상기 회복된 예측 오차 벡터를 처리하는 것을 포함한다.

Description

가변 비트율 음성 부호화에서의 선형 예측 매개변수들의 견실한 예측 벡터 양자화를 위한 방법 및 장치{Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding}
본 발명은 사운드 신호, 특히 음성 신호에 국한되지 않는 사운드 신호의 전송 및 합성을 고려하여 이러한 사운드 신호를 디지털 방식으로 부호화하는 개선된 기법에 관한 것이다. 보다 구체적으로 기술하면, 본 발명은 가변 비트율 선형 예측 기반 부호화에서 선형 예측 매개변수들을 벡터 양자화하는 방법 및 장치에 관한 것이다.
선형 예측(linear prediction;
Figure 112005033433218-pct00001
) 매개변수들의 음성 부호화 및 양자화:
무선 시스템들과 같은 디지털 음성 통신 시스템들은 높은 음질을 유지하면서 용량을 증가시키기 위해 음성 부호기들을 사용한다. 음성 부호기(speech encoder)는 통신 채널을 통해 전송되거나 또는 저장 매체에 저장되도록 음성 신호를 디지털 스트림으로 변환시킨다. 상기 음성 신호는 디지털화된다. 다시 말하면 상기 음성 신호는 대개 샘플당 16-비트로 샘플링 및 양자화된다. 상기 음성 부호기는 양호한 주관적 음질을 유지하면서 소수의 비트들로 이러한 디지털 샘플들을 표현하는 역할 을 한다. 음성 복호기(speech decoder) 또는 합성기는 전송되거나 또는 저장된 비트 스트림을 기반으로 하여 동작하며 상기 전송되거나 또는 저장된 비트 스트림을 다시 사운드 신호로 변환시킨다.
선형 예측 분석을 기반으로 하는 디지털 음성 부호화 방법들은 낮은 비트율 음성 부호화에서 매우 양호한 결과를 획득하여 왔다. 특히, 코드-여진 선형 예측(code-excited linear prediction;
Figure 112005033433218-pct00002
) 부호화는 주관적 품질 및 비트율 간의 양호한 절충을 획득하는 가장 잘 알려져 있는 기법들 중 하나의 기법이다. 이러한 부호화 기법은 무선 및 유선 애플리케이션들 모두에서 여러 음성 부호화 표준들의 기초이다.
Figure 112005033433218-pct00003
부호화에서,
Figure 112005033433218-pct00004
이 전형적으로 10-30 ㎳에 대응하는 사전에 결정된 수일 경우, 대개 프레임들이라고 언급되는
Figure 112005033433218-pct00005
개의 샘플들의 연속 블록들로 처리된다. 선형 예측(
Figure 112005033433218-pct00006
) 필터(
Figure 112005033433218-pct00007
)는 매 프레임마다 계산, 부호화, 및 전송된다. 상기
Figure 112005033433218-pct00008
필터(
Figure 112005033433218-pct00009
)의 계산은 선행 참조(lookahead)를 필요로 하는 것이 전형적인 데, 여기서 선행 참조는 후속 프레임으로부터 획득되는 5-15 ㎳ 음성 세그먼트로 이루어진다.
Figure 112005033433218-pct00010
-샘플 프레임은 서브프레임들이라고 언급되는 작은 블록들로 분할된다. 대개 서브프레임들의 수는 3 또는 4이며, 이는 4-10 ㎳의 서브프레임들을 형성한다. 각각의 서브프레임에서는, 여진 신호가 대개 2가지 성분들, 즉 이전의 여진 및 혁신적인 고정 코드북 여진으로부터 획득된다. 상기 이전의 여진으로부터 형성되는 성분은 종종 적응성 코드북 또는 피치 여진으로 언급된다. 상기 여진 신호를 특징으로 하는 매개변수들은 부호화되어 복호기에 전송되는 데, 상기 복호기에서는 재구성된 여진 신호가
Figure 112005033433218-pct00011
합성 필터의 입력으로서 사용된다.
상기
Figure 112005033433218-pct00012
합성 필터는 다음과 같은 식으로 표기되며,
Figure 112005033433218-pct00013
여기서
Figure 112005033433218-pct00014
는 선형 예측 계수들이고
Figure 112005033433218-pct00015
Figure 112005033433218-pct00016
분석의 차수이다. 상기
Figure 112005033433218-pct00017
합성 필터는 음성 신호의 스펙트럼 엔벨로프를 모형화한다. 상기 복호기에서, 상기 음성 신호는
Figure 112005033433218-pct00018
합성 필터를 통해 복호화된 여진을 필터링함으로써 재구성된다.
한세트의 선형 예측 계수들(
Figure 112005033433218-pct00019
)은 이하의 수학식 1과 같이 예측 오차가 최소화되도록 계산되며,
Figure 112005033433218-pct00020
여기서
Figure 112005033433218-pct00021
은 시간(
Figure 112005033433218-pct00022
)에서의 입력 신호이며
Figure 112005033433218-pct00023
은 이하의 식으로 표기되는 최종
Figure 112005033433218-pct00024
개의 샘플들을 기반으로 하는 예측 신호이다.
Figure 112005033433218-pct00025
따라서 상기 예측 오차는 이하의 식으로 표기된다.
Figure 112005033433218-pct00026
이는
Figure 112005033433218-pct00027
-변환 영역에서 이하의 식에 대응하고,
Figure 112005033433218-pct00028
여기서
Figure 112005033433218-pct00029
는 이하의 식으로 표기되는
Figure 112005033433218-pct00030
차수의
Figure 112005033433218-pct00031
필터이다.
Figure 112005033433218-pct00032
전형적으로, 상기 선형 예측 계수들(
Figure 112005033433218-pct00033
)은
Figure 112005033433218-pct00034
이 대개
Figure 112005033433218-pct00035
과 동일하거나 그보다는 큰 정수(대개는
Figure 112005033433218-pct00036
이 20-30 ㎳에 대응함)일 경우
Figure 112005033433218-pct00037
개의 샘플들의 블록을 통해 자승 평균 예측 오차를 최소화함으로써 계산된다. 그밖에도 선형 예측 계수들의 계산은 당업자에게 잘 알려져 있다. 그러한 계산의 일례는 [2002년 제네바에서 열린 ITU-T의 권고안 G.722.2, "적응성 다중 비율 광대역(adaptive multi-rate wideband ; AMR-WB)을 사용하는 대략 16 kbit/s 음성의 광대역 부호화"]에 제공되어 있다.
상기 선형 예측 계수들(
Figure 112005033433218-pct00038
)은 상기 복호기로의 전송을 위해 직접 양자화될 수 없다. 그 이유는 상기 선형 예측 계수들에 관한 작은 양자화 오차들이 상기
Figure 112005033433218-pct00039
필터의 전달 함수에서 큰 스펙트럼 오차들을 생성할 수 있으며, 심지어는 필터의 불안정성을 야기시킬 수 있기 때문이다. 이 때문에, 양자화 이전에 상기 선형 예측 계수들(
Figure 112005033433218-pct00040
)에 대하여 변환이 수행된다. 상기 변환은 소위 상기 선형 예측 계수들(
Figure 112005033433218-pct00041
)의 표현(representation)을 초래시킨다. 양자화된 변환 형태의 선형 예측 계수들(
Figure 112005033433218-pct00042
)을 수신한 후에는, 상기 복호기가 이어서 상기 양자화된 선형 예측 계수들을 획득하기 위해 역변환을 수행할 수 있다. 널리 사용되고 있는 선형 예측 계수들(
Figure 112005033433218-pct00043
)의 표현들 중 하나가 또한 선 스펙트럼 쌍(line spectral pair;
Figure 112005033433218-pct00044
)로서 알려져 있는 선 스펙트럼 주파수(line spectral frequency;
Figure 112005033433218-pct00045
)이다. 상기 선 스펙 트럼 주파수의 계산에 대한 세부 내용은 [1996년 3월 제네바에서 열린 ITU-T의 권고안 G.729 "복소 구조 대수 코드 여진 선형 예측(conjugate-structure algebraic-code-exited linear prediction; CS-ACELP)을 사용하는 8 kbit/s 음성의 부호화"]에서 찾아 볼 수 있다.
유사한 표현은 AMR-WB 부호화 표준 [2002년 제네바에서 열린 ITU-T의 권고안 G.722.2 "적응성 다중 비율 광대역(Adaptive Multi-Rate Wideband; AMR-WB)을 사용하는 대략 16 kbit/s 음성의 광대역 부호화"]에서 사용되었던 이미턴스 스펙트럼 주파수(Immitance Spectral Frequency;
Figure 112005033433218-pct00046
)이다. 또한, 다른 표현들이 가능하며 사용되어 왔다. 큰 무리 없이, 이하의 설명은
Figure 112005033433218-pct00047
표현의 특정한 경우가 고려될 것이다.
그와 같이 획득된
Figure 112005033433218-pct00048
매개변수들(
Figure 112005033433218-pct00049
들,
Figure 112005033433218-pct00050
들 따위)은 스칼라 양자화(scalar quantization;
Figure 112005033433218-pct00051
) 또는 벡터 양자화(vector quantization;
Figure 112005033433218-pct00052
)를 통해 양자화된다. 스칼라 양자화에서는,
Figure 112005033433218-pct00053
매개변수들은 개별적으로 양자화되며 대개는 매개변수당 3 또는 4개의 비트들이 필요하다. 벡터 양자화에서는,
Figure 112005033433218-pct00054
매개변수들이 하나의 벡터로 그룹화되며 하나의 실체로서 양자화된다. 한세트의 양자화된 벡터들을 포함하는 코드북(codebook), 또는 표가 저장된다. 양자화기는 특정 거리 측정에 따라 입력 벡터에 가장 가까운 코드북 엔트리에 대하여 코드북을 탐색한다. 선택된 양자화 벡터의 인덱스는 상기 복호기에 전송된다. 벡터 양자화는 스칼라 양자화보다 양호한 성능을 제공하지만 증가된 복잡성 및 메모리 요구의 대가를 치른 다.
구조화된 벡터 양자화가 대개는
Figure 112005033433218-pct00055
의 복잡성 및 저장 요구를 감소시키는 데 사용된다. 분할
Figure 112005033433218-pct00056
에서는,
Figure 112005033433218-pct00057
매개변수 벡터가 개별적으로 양자화되는 적어도 2개의 서브벡터들로 분할된다. 다단
Figure 112005033433218-pct00058
에서는 양자화된 벡터가 여러 코드북들로부터의 엔트리들에 대한 가산값이다. 분할
Figure 112005033433218-pct00059
및 다단
Figure 112005033433218-pct00060
양자 모두는 양호한 양자화 성능을 유지하면서 감소된 메모리 및 복잡성을 초래시킨다. 더군다나, 관심있는 접근법은 다단 및 분할
Figure 112005033433218-pct00061
를 조합하여 상기 복잡성 및 메모리 요구를 부가적으로 감소시키는 것이다. [1996년 3월 제네바에서 열린 ITU-T의 권고안 G.729 "복소 구조 대수 코드 여진 선형 예측(conjugate-structure algebraic-code-exited linear prediction; CS-ACELP)을 사용하는 8 kbit/s 음성의 부호화"]라는 회의록에서,
Figure 112005033433218-pct00062
매개변수 벡터는 제2단 벡터가 2개의 서브벡터들로 분할되는 2개의 단들에서 양자화된다.
Figure 112005033433218-pct00063
매개변수들은 연속 프레임들 간의 강한 상관을 나타내며 이것이 대개는 성능의 개선을 위한 예측 양자화의 사용에 활용된다. 예측 벡터 양자화에서, 예측된
Figure 112005033433218-pct00064
매개변수 벡터는 이전의 프레임들로부터 획득되는 정보를 기반으로 하여 계산된다. 그후 예측된 벡터는 입력 벡터로부터 제거되고 예측 오차는 벡터 양자화된다. 2가지 유형의 예측, 즉 자기회귀(auto-regressive; AR) 예측 및 이동 평균(moving average; MA) 예측이 대개 사용된다. AR 예측에서, 예측된 벡터는 이전의 프레임들로부터의 양자화된 벡터들의 조합으로서 계산된다. MA 예측에서, 예측된 벡터는 이전의 프레임들로부터의 예측 오차 벡터들의 조합으로서 계산된다. AR 예측은 보다 양호한 성능을 초래시킨다. 그러나, AR 예측은 무선 및 패킷 기반 통신 시스템에서 직면하게 되는 프레임 손실 조건들에 대하여 견실하지 않다. 손실된 프레임들의 경우에, 오차가 연속 프레임들에 전달되는 데, 그 이유는 상기 예측이 이전에 손상된 프레임들을 기반으로 하기 때문이다.
가변 비트율(variable bit-rate; VBR) 부호화:
여러 통신 시스템들, 예를들면 코드 분할 다중 접속(code division multiple access; CDMA) 기법을 사용하는 무선 시스템들에서, 소스-제어형 가변 비트율(VBR) 음성 부호화가 사용될 경우에는 시스템의 용량이 상당히 개선된다. 소스-제어형 VBR 부호화에서, 부호기는 여러 비트율로 동작될 수 있으며, 비율 선택 모듈은 음성 프레임, 예컨대 유성음, 무성음, 과도, 배경 잡음 등등의 특성을 기반으로 하여 각각의 음성 프레임을 부호화하기 위해 사용되는 비트율을 결정하는 데 사용된다. 이에 대한 목적은 또한 평균 데이터율(average data rate; ADR)로서 언급되는 임의의 평균 비트율로 최상의 음질을 이루는 것이다. 또한, 상기 부호기는 다른 모드들에 대하여 다른 ADR들을 이루도록 상기 비율 선택 모듈을 조정함으로써 다른 동작 모드들에 따라 동작하는 것이 가능한 데, 이 경우에는 상기 부호기의 성능이 ADR의 증가에 따라 개선된다. 이는 음질 및 시스템 용량 간의 절충 메카니즘을 상기 부호기에 제공한다. CDMA 시스템들, 예를 들면 CDMA-1 및 CDMA2000에서, 전형적으로는 4비트율들이 사용되고 완전 비율(full-rate; FR), 절반 비율(half-rate; HR), ¼ 비율(quarter-rate; QR), 및 ⅛ 비율(eighth-rate; ER)로서 언급된다. 이러한 CDMA 시스템에서는, 2세트의 비율들이 지원되고 비율 세트 I 및 비율 세트 II로서 언급된다. 비율 세트 II에서는, 비율 선택 메카니즘을 구비한 가변율 부호화기는 (몇몇 비트들이 오차 검출용으로 추가될 경우) 14.4, 7.2, 3.6, 및 1.8 kbit/s의 총 비트율(gross bit rate)들에 대응하는 13.3(FR), 6.2(HR), 2.7(QR), 및 1.0(ER) kbit/s의 소스-부호화 비트율들로 동작한다.
적응성 다중 비율 광대역(adaptive multi-rate wideband; AMR-WB) 음성 코덱으로서 알려져 있는 광대역 코덱이 최근 ITU-T(International Telecommunications Union - Telecommunication Standardization Sector)에 의해 여러 광대역 음성 전화 및 서비스들용으로 선택되었으며 3GPP(Third Generation Partnership Project)에 의해 GSM 및 W-CDMA(Wideband Code Division Multiple Access) 제3세대 무선 시스템들용으로 선택되었다. AMR-WB 코덱은 6.6 내지 23.85 kbit/s 범위에서 9 비트율로 이루어져 있다. CDMA2000 시스템용 AMR-WB 기반 소스 제어형 VBR 코덱의 설계는 CDMA2000 및 AMR-WB 코덱을 사용하는 다른 시스템들 간의 상호 운영성을 허용하는 이점을 지닌다. 12.65 kbit/s의 AMR-WB 비트율은 CDMA2000 비율 세트 II의 13.3 kbit/s 완전-비율에 적용될 수 있는 가장 가까운 비율이다. 12.65 kbit/s의 비율은 속도의 품질을 저하시키는 변환 부호화(transcoding) 없이 상호 운영성을 허용하는 데 CDMA2000 광대역 VBR 코덱 및 AMR-WB 코덱 간의 공통 비율로서 사용될 수 있다. 6.2 kbit/s의 절반-비율은 비율 세트 II 프레임워크에서 효율적인 동작을 허용하도록 추가되어야 한다. 그 결과로 얻어진 코덱은 소수의 CDMA2000-전용 모드들에서 동작가능하며 AMR-WB 코덱을 사용하는 시스템과의 상호 운영성을 허용하는 모드를 통합한다.
절반-비율 부호화는 입력 음성 신호가 정적인 프레임에서 선택되는 것이 전형적이다. 그다지 빈번하지 않게 부호화 매개변수들을 업데이트함으로써 또는 이러한 부호화 매개변수들 중 몇몇 부호화 매개변수들을 부호화하는 데 보다 적은 비트들을 사용함으로써 완전-비율과 비교해 볼 때 비트 절약이 달성된다. 보다 구체적으로 기술하면, 정적인 유성음 세그먼트들에서, 피치 정보가 단지 한 프레임당 한번만 부호화되고 보다 적은 비트들이 고정 코드북 매개변수들 및 선형 예측 계수들을 표현하는 데 사용된다.
MA 예측을 사용하는 예측
Figure 112005033433218-pct00065
가 선형 예측 계수들을 부호화하는 데 적용되는 것이 전형적이기 때문에, 불필요한 양자화 잡음 증가가 이러한 선형 예측 계수들에서 관찰될 수 있다. AR 예측과는 반대로, MA 예측은 프레임 손실들에 대한 견실성을 증가시키는 데 사용되지만, 정적인 프레임들에서는 상기 선형 예측 계수들이 느리게 변화하기 때문에 이같은 특정한 경우에 AR 예측을 사용하는 것이 손실된 프레임들의 경우에 오류 전달에 보다 적은 영향을 주게 된다. 이는 빠진 프레임들이 존재할 경우에 대부분의 복호기들이 본질적으로 최종 프레임의 선형 예측 계수들을 외삽하는 은폐 절차를 적용함을 관찰함으로써 확인된다. 빠진 프레임이 정적인 유성음일 경우, 이러한 외삽은 실제로 전송되지만, 수신되지 않는
Figure 112005033433218-pct00066
매개변수들과 매우 유사한 값들을 생성한다. 따라서, 재구성된
Figure 112005033433218-pct00067
매개변수 벡터는 상기 프레임이 손실되지 않는 경우에 복호화된 것에 가까워진다. 따라서, 이같은 특정한 경우에서, 상기 선형 예측 계수들의 양자화 절차에서 AR 예측을 사용하는 것은 양 자화 오차 전달에 그다지 악영향을 주지 않을 수 있다.
본 발명에 의하면, 가변 비트율 사운드 신호 부호화에서 선형 예측 매개변수들을 양자화하는 방법이 제공되며, 상기 선형 예측 매개변수들의 양자화 방법은 입력 선형 예측 매개변수 벡터를 수신하는 단계, 상기 입력 선형 예측 매개변수 벡터에 대응하는 사운드 신호 프레임을 분류하는 단계, 예측 벡터를 계산하는 단계, 상기 입력 선형 예측 매개변수 벡터로부터 상기 계산된 예측 벡터를 제거하는 단계로서, 상기 계산된 예측 벡터의 제거로 예측 오차 벡터를 생성하는 단계, 상기 예측 오차 벡터를 스케일링하는 단계, 및 상기 스케일링된 예측 오차 벡터를 양자화하는 단계를 포함한다. 상기 예측 오차 벡터를 계산하는 단계는 상기 사운드 신호 프레임의 분류와 관련하여 다수의 예측 스킴들 중 하나의 스킴을 선택하는 단계, 및 상기 선택된 예측 스킴에 따라 상기 예측 벡터를 계산하는 단계를 포함한다. 상기 예측 오차 벡터를 스케일링하는 단계는 상기 선택된 예측 스킴과 관련하여 다수의 스케일링 스킴들 중 적어도 하나의 스케일링 스킴을 선택하는 단계, 및 상기 선택된 스케일링 스킴에 따라 상기 예측 오차 벡터를 스케일링하는 단계를 포함한다.
또한, 본 발명에 의하면, 가변 비트율 사운드 신호 부호화에서 선형 예측 매개변수들을 양자화하는 장치가 제공되며, 상기 선형 예측 매개변수들의 양자화 장치는 입력 선형 예측 매개변수 벡터를 수신하는 수단, 상기 입력 선형 예측 매개변수 벡터에 대응하는 사운드 신호 프레임을 분류하는 수단, 예측 벡터를 계산하는 수단, 상기 입력 선형 예측 매개변수 벡터로부터 상기 계산된 예측 벡터를 제거하는 수단으로서, 상기 계산된 예측 벡터의 제거로 예측 오차 벡터를 생성하는 수단, 상기 예측 오차 벡터를 스케일링하는 수단, 및 상기 스케일링된 예측 오차 벡터를 양자화하는 수단을 포함한다. 상기 예측 벡터를 계산하는 수단은 상기 사운드 신호 프레임의 분류와 관련하여 다수의 예측 스킴들 중 하나의 예측 스킴을 선택하는 수단, 및 상기 선택된 예측 스킴에 따라 상기 예측 벡터를 계산하는 수단을 포함한다. 또한, 상기 예측 오차 벡터를 스케일링하는 수단은 상기 선택된 예측 스킴과 관련하여 다수의 스케일링 스킴들 중 적어도 하나의 스케일링 스킴을 선택하는 수단, 및 상기 선택된 스케일링 스킴에 따라 상기 예측 오차 벡터를 스케일링하는 수단을 포함한다.
본 발명은 또한 가변 비트율 사운드 신호 부호화에서 선형 예측 매개변수들을 양자화하는 장치에 관한 것이며, 상기 선형 예측 매개변수들의 양자화 장치는 입력 선형 예측 매개변수 벡터를 수신하는 입력, 상기 입력 선형 예측 매개변수 벡터에 대응하는 사운드 신호 프레임의 분류기, 예측 벡터의 계산기, 상기 입력 선형 예측 매개변수 벡터로부터 상기 계산된 예측 벡터를 제거하는 감산기로서, 상기 계산된 예측 벡터의 제거로 예측 오차 벡터를 생성하는 감산기, 상기 예측 오차 벡터가 공급되는 스케일링 유닛으로서, 상기 예측 오차 벡터를 스케일링하는 스케일링 유닛, 및 스케일링된 예측 오차 벡터의 양자화기를 포함한다. 상기 예측 벡터 계산기는 상기 사운드 신호 프레임의 분류와 관련하여 다수의 예측 스킴들 중 하나의 예측 스킴을 선택하는 선택기로서, 상기 선택된 예측 스킴에 따라 상기 예측 벡터를 계산하는 선택기를 포함한다. 상기 스케일링 유닛은 상기 선택된 예측 스킴과 관련하여 다수의 스케일링 스킴들 중 적어도 하나의 스케일링 스킴을 선택하는 선택기로서, 상기 선택된 스케일링 스킴에 따라 상기 예측 오차 벡터를 스케일링하는 선택기를 포함한다.
본 발명은 또한 가변 비트율 사운드 신호 복호화에서 선형 예측 매개변수들을 역양자화하는 방법에 관한 것이며, 상기 선형 예측 매개변수들의 역양자화 방법은 적어도 하나의 양자화 인덱스를 수신하는 단계, 상기 적어도 하나의 양자화 인덱스에 대응하는 사운드 신호 프레임의 분류에 관한 정보를 수신하는 단계, 상기 적어도 하나의 인덱스를 적어도 하나의 양자화 표에 적용함으로써 예측 오차 벡터를 회복하는 단계, 예측 벡터를 재구성하는 단계, 및 상기 회복된 예측 오차 벡터 및 상기 재구성된 예측 벡터에 응답하여 선형 예측 매개변수 벡터를 생성하는 단계를 포함한다. 상기 예측 벡터를 재구성하는 단계는 프레임 분류 정보에 의존하여 다수의 예측 스킴들 중 하나의 예측 스킴을 통해 상기 회복된 예측 오차 벡터를 처리하는 단계를 포함한다.
본 발명은 또한 가변 비트율 사운드 신호 복호화에서 선형 예측 매개변수들을 역양자화하는 장치에 관한 것이며, 상기 선형 예측 매개변수들의 역양자화 장치는 적어도 하나의 양자화 인덱스를 수신하는 수단, 상기 적어도 하나의 양자화 인덱스에 대응하는 사운드 신호 프레임의 분류에 관한 정보를 수신하는 수단, 상기 적어도 하나의 인덱스를 적어도 하나의 양자화 표에 적용함으로써 예측 오차 벡터를 회복하는 수단, 예측 벡터를 재구성하는 수단, 및 상기 회복된 예측 오차 벡터 및 상기 재구성된 예측 벡터에 응답하여 선형 예측 매개변수 벡터를 생성하는 수단을 포함한다. 상기 예측 벡터 재구성 수단은 프레임 분류 정보에 의존하여 다수의 예측 스킴들 중 하나의 예측 스킴을 통해 상기 회복된 예측 오차 벡터를 처리하는 수단을 포함한다.
본 발명의 최종적인 실시태양에 의하면, 가변 비트율 사운드 신호 복호화에서 선형 예측 매개변수들을 역양자화하는 장치가 제공되며, 상기 선형 예측 매개변수들의 역양자화 장치는 적어도 하나의 양자화 인덱스를 수신하는 수단, 상기 적어도 하나의 양자화 인덱스에 대응하는 사운드 신호 프레임의 분류에 관한 정보를 수신하는 수단, 상기 적어도 하나의 양자화 인덱스가 공급되는 적어도 하나의 양자화 표로서, 상기 적어도 하나의 양자화 인덱스의 공급으로 예측 오차 벡터를 회복하는 적어도 하나의 양자화 표, 예측 벡터 재구성 유닛, 및 상기 회복된 예측 오차 벡터 및 상기 재구성된 예측 벡터에 응답하여 선형 예측 매개변수 벡터를 생성하는 생성기를 포함한다. 상기 예측 벡터 재구성 유닛은 회복된 예측 오차 벡터가 공급되는 적어도 하나의 예측기로서, 상기 프레임 분류 정보에 의존하여 다수의 예측 스킴들 중 하나의 예측 스킴을 통해 상기 회복된 예측 오차 벡터를 처리하는 적어도 하나의 예측기를 포함한다.
위에서 언급된 본 발명의 목적들, 이점들 및 특징들 그리고 본 발명의 다른 목적들, 이점들 및 특징들은 첨부도면들을 참조하여 단지 예로써만 제공된 이하 본 발명의 예시적인 실시예들에 대한 비제한적인 설명을 이해하면 자명해질 것이다.
도 1은 다단 벡터 양자화기의 비제한적인 예를 개략적으로 보여주는 블록선 도이다.
도 2는 분할 벡터용 벡터 양자화기의 비제한적인 예를 개략적으로 보여주는 블록선도이다.
도 3은 자기회귀(autoregressive; AR) 예측을 사용하는 예측 벡터 양자화기의 비제한적인 예를 개략적으로 보여주는 블록선도이다.
도 4는 이동 평균(moving average; MA) 예측을 사용하는 예측 벡터 양자화기의 비제한적인 예를 개략적으로 보여주는 블록선도이다.
도 5는 본 발명의 비제한적이며 예시적인 실시예에 따른 부호기에서의 전환 예측 벡터 양자화기의 일례를 개략적으로 보여주는 블록선도이다.
도 6은 본 발명의 비제한적이며 예시적인 실시예에 따른 복호기에서의 전환 예측 벡터 양자화기의 일례를 개략적으로 보여주는 블록선도이다.
도 7은 각각의 분포가
Figure 112005033433218-pct00068
벡터의 주어진 위치에서
Figure 112005033433218-pct00069
를 발견할 수 있는 확률의 함수일 경우 주파수에 걸친
Figure 112005033433218-pct00070
들의 분포에 대한 비제한적이며 예시적인 예를 보여주는 도면이다.
도 8은 연속 음성 프레임을 통한
Figure 112005033433218-pct00071
매개변수들의 변화에 대한 전형적인 예를 보여주는 그래프이다.
이하의 설명에서는 본 발명의 예시적인 실시예들이 음성 신호에 대한 적용과 관련하여 언급되겠지만, 여기서 유념해야 할 점은 본 발명이 또한 다른 유형의 사운드 신호들에 적용될 수 있다는 것이다.
가장 최근의 음성 부호화 기법들은
Figure 112005033433218-pct00072
부호화와 같은 선형 예측 분석을 기반으로 한다.
Figure 112005033433218-pct00073
매개변수들은 10-30 ㎳의 프레임들로 계산 및 양자화된다. 본 발명의 예시적인 실시예에서는, 20 ㎳ 프레임들이 사용되며 16의
Figure 112005033433218-pct00074
분석 차수(analysis order)가 가정된다. 음성 부호화 시스템에서의
Figure 112005033433218-pct00075
매개변수들의 계산에 대한 일례는 [2002년 제네바에서 열린 ITU-T의 권고안 G.722.2, "적응성 다중 비율 광대역(Adaptive Multi-Rate Wideband; AMR-WB)을 사용하는 대략 16 kbit/s 음성의 광대역 부호화"]라는 회의록에서 찾아볼 수 있다. 이러한 예시적인 예에서, 전처리된 음성 신호가 윈도우 모드로 생성되고 상기 윈도우 모드로 생성된 음성의 자기 상관(autocorrelation)들이 계산된다. 그후, 레빈슨-더빈 순환(Levinson-Durbin recursion)은
Figure 112005033433218-pct00076
이 예측 차수(prediction order)일 경우에 선형 예측 계수들(
Figure 112005033433218-pct00077
)을 자기 상관들(
Figure 112005033433218-pct00078
)로부터 계산하는 데 사용된다.
상기 선형 예측 계수들(
Figure 112005033433218-pct00079
)은 상기 복호기에의 전송을 위해 직접 양자화될 수 없다. 그 이유는 상기 선형 예측 계수들의 작은 양자화 오차들이 상기
Figure 112005033433218-pct00080
필터의 전달 함수에서 큰 스펙트럼 오차(spectral error)들을 만들어낼 수 있으며, 심지어는 필터의 불안정성을 야기시킬 수 있기 때문이다. 이 때문에, 양자화 이전에 선형 예측 계수들(
Figure 112005033433218-pct00081
)에 대하여 변환이 수행된다. 상기 변환은 소위 선형 예측 계수들의 표현(representation)을 초래시킨다. 양자화된 변환 형태의 선형 예측 계수들을 수신한 후에는, 상기 복호기가 이어서 상기 양자화된 선형 예측 계수들을 획득하기 위해 역변환을 수행할 수 있다. 널리 사용되고 있는 선형 예측 계수들(
Figure 112005033433218-pct00082
) 의 표현들 중 하나가 또한 선 스펙트럼 쌍(line spectral pair; LSP)로서 알려져 있는 선 스펙트럼 주파수(line spectral frequency;
Figure 112005033433218-pct00083
)이다. 상기
Figure 112005033433218-pct00084
들의 계산에 대한 세부 내용은 [1996년 3월 제네바에서 열린 ITU-T의 권고안 G.729 "복소 구조 대수 코드 여진 선형 예측(conjugate-structure algebraic-code-exited linear prediction; CS-ACELP)을 사용하는 8 kbit/s 음성의 부호화"]라는 회의록에서 찾아 볼 수 있다. 상기
Figure 112005033433218-pct00085
들은 다음과 같이 다항식들의 극점(pole)들로 이루어져 있다:
Figure 112005033433218-pct00086
그리고
Figure 112005033433218-pct00087
Figure 112005033433218-pct00088
의 우수값들에 대하여, 각각의 다항식은 단위원(unit circle) 상의
Figure 112005033433218-pct00089
복소근들(
Figure 112005033433218-pct00090
)을 지닌다. 그러므로, 상기 다항식들은 다음과 같이 표기될 수 있다:
Figure 112005033433218-pct00091
그리고
Figure 112005033433218-pct00092
여기서,
Figure 112005033433218-pct00093
가 서열 관계(
Figure 112005033433218-pct00094
)를 만족시키는 선 스펙 트럼 주파수(
Figure 112005033433218-pct00095
)일 때
Figure 112005033433218-pct00096
이다. 이같은 특정한 예에서는, 상기
Figure 112005033433218-pct00097
들은 선형 예측(linear predition;
Figure 112005033433218-pct00098
) 매개변수들을 구성한다.
유사한 표현은 상기 AMR-WB 부호화 표준에서 사용되었던 이미턴스 스펙트럼 쌍(immitance spectral pair; ISP) 또는 이미턴스 스펙트럼 주파수(immitance spectral frequency;
Figure 112005033433218-pct00099
)이다. 상기
Figure 112005033433218-pct00100
들의 계산에 대한 세부 내용은 [2002년 제네바에서 열린 ITU-T의 권고안 G.722.2 "적응성 다중 비율 광대역(Adaptive Multi-Rate Wideband; AMR-WB)을 사용하는 대략 16 kbit/s 음성의 광대역 부호화"]라는 회의록에서 찾아 볼 수 있다. 또한, 다른 표현들이 가능하며 사용되어 왔다. 큰 무리 없이, 이하의 설명은 비제한적이고 예시적인 예로서
Figure 112005033433218-pct00101
표현의 경우를 고려한 것이다.
Figure 112005033433218-pct00102
이 우수일 경우
Figure 112005033433218-pct00103
차수의
Figure 112005033433218-pct00104
필터에 대하여, 상기 ISP들은 다음과 같이 상기 다항식들의 근으로서 정의된다:
Figure 112005033433218-pct00105
그리고
Figure 112005033433218-pct00106
다항식들(
Figure 112005033433218-pct00107
,
Figure 112005033433218-pct00108
)은 단위원 상의
Figure 112005033433218-pct00109
Figure 112005033433218-pct00110
복소근들(
Figure 112005033433218-pct00111
)을 각각 지닌다. 그러므로, 상기 다항식들은 다음과 같이 표기될 수 있다:
Figure 112005033433218-pct00112
그리고
Figure 112005033433218-pct00113
여기서,
Figure 112005033433218-pct00114
가 이미턴스 스펙트럼 주파수(immittance spectral frequency;
Figure 112005033433218-pct00115
)일 때
Figure 112005033433218-pct00116
이고,
Figure 112005033433218-pct00117
은 마지막 선형 예측 계수이다. 상기
Figure 112005033433218-pct00118
들은 서열 관계(
Figure 112005033433218-pct00119
)를 만족시킨다. 이같은 특정한 예에 있어서, 상기
Figure 112005033433218-pct00120
들은 선형 예측(linear prediction;
Figure 112005033433218-pct00121
) 매개변수들을 구성한다. 따라서, 상기
Figure 112005033433218-pct00122
들은 마지막 선형 예측 계수들 외에도
Figure 112005033433218-pct00123
주파수들로 이루어져 있다. 본 발명의 예시적인 실시예에 있어서, 상기
Figure 112005033433218-pct00124
들은
Figure 112005033433218-pct00125
가 샘플링 주파수일 경우 다음과 같은 수학식을 사용하여 0 내지
Figure 112005033433218-pct00126
범위 내의 주파수들에 매핑된다:
Figure 112005033433218-pct00127
그리고
Figure 112005033433218-pct00128
Figure 112005033433218-pct00129
들 및
Figure 112005033433218-pct00130
들(
Figure 112005033433218-pct00131
매개변수들)은 이들을 양자화 목적들에 적합하게 하는 여러 속성들에 기인하여 폭넓게 사용되어 왔다. 이러한 속성들 중에는 명확하게 정의된 동적 범위, 강한 인터(inter) 및 인트라(intra) 프레임 상관들을 초래시키는
Figure 112005033433218-pct00132
들 및
Figure 112005033433218-pct00133
들(
Figure 112005033433218-pct00134
매개변수들)의 유연한 변화, 및 양자화된
Figure 112005033433218-pct00135
필터의 안정성을 보장하는 서열 관계의 존재가 있다.
본원에서는, "
Figure 112005033433218-pct00136
매개변수"라는 용어가
Figure 112005033433218-pct00137
계수들의 임의의 표현, 예컨대
Figure 112005033433218-pct00138
,
Figure 112005033433218-pct00139
, 평균 제거
Figure 112005033433218-pct00140
, 또는 평균 제거
Figure 112005033433218-pct00141
를 언급하는 데 사용된다.
Figure 112005033433218-pct00142
들(선형 예측(linear prediction;
Figure 112005033433218-pct00143
) 매개변수들)의 주요 속성들은 사용되고 있는 양자화 접근법들의 이해를 위해 지금부터 설명될 것이다. 도 7은
Figure 112005033433218-pct00144
계수들의 확률 분포 함수(probability distribution function; PDF)의 전형적인 예를 보여주는 도면이다. 각각의 곡선은 개별적인
Figure 112005033433218-pct00145
계수의 PDF를 나타낸다. 각각의 분포 평균은 수평축(
Figure 112005033433218-pct00146
) 상에 나타나 있다. 예를 들면,
Figure 112005033433218-pct00147
1에 대한 곡선은 한 프레임에서 제1
Figure 112005033433218-pct00148
계수에 의해 취해질 수 있는 발생 확률에 따른 모든 값들을 나타내고 있다.
Figure 112005033433218-pct00149
2에 대한 곡선은 한 프레임에서 제2
Figure 112005033433218-pct00150
계수에 의해 취해질 수 있는 발생 확률에 따른 모든 값들을 나타내고 있으며, 그밖의 곡선은 마찬가지 방식으로 취해질 수 있는 발생 확률에 따른 모든 값들을 나타내고 있다. 상기 PDF 함수는 여러개의 연속 프레임들을 통해 관찰되는 바와 같은 임의의 계수에 의해 취해지는 값들에 히스토그램을 적용함으로써 획득되는 것이 전형적이다. 여기서 유념해야 할 점은 각각의
Figure 112005033433218-pct00151
계수가 예상가능한 모든
Figure 112005033433218-pct00152
값들에 걸쳐 한정된 간격을 점유한다는 것이다. 이는 양자화기가 비트율 효율을 보상 및 증가시켜야 하는 공간을 효율적으로 감소시킨다. 또한 여기서 유념해야 할 중요한 점은
Figure 112005033433218-pct00153
계수들의 PDF들이 중복될 수 있지만 임의의 프레임에서의
Figure 112005033433218-pct00154
가 항상 서열적이다(
Figure 112005033433218-pct00155
k+1 -
Figure 112005033433218-pct00156
k > 0이며, 여기서 k는
Figure 112005033433218-pct00157
계수들의 벡터에 내재하는
Figure 112005033433218-pct00158
계수의 위치이다).
음성 부호기에서 프레임 길이가 10 내지 30 ㎳인 것이 전형적인 경우,
Figure 112005033433218-pct00159
계수들은 인터프레임 상관을 나타낸다. 도 8은
Figure 112005033433218-pct00160
계수들이 어떠한 방식으로 음성 신호의 프레임들을 따라 변화하는 지를 보여주는 도면이다. 도 8은 유성음 프레임 및 무성음 프레임 양자 모두를 포함하는 음성 세그먼트에서 20 ㎳의 30개의 연속 프레임에 걸쳐
Figure 112005033433218-pct00161
분석을 수행함으로써 달성되었다.
Figure 112005033433218-pct00162
계수들(프레임당 16)은
Figure 112005033433218-pct00163
계수들로 변환되었다. 도 8은 선들이 서로 엇갈려 있지 않음을 보여주며, 이는
Figure 112005033433218-pct00164
들이 항상 서열적이라는 것을 의미한다. 도 8은 또한
Figure 112005033433218-pct00165
계수들이 전형적으로 프레임율에 비하여 느리게 변화하는 것을 보여준다. 실제로 이것이 의미하는 것은 예측 양자화가 양자화 오차를 감소시키는 데 적용될 수 있다는 것을 의미한다.
도 3은 자기회귀(autoregressive; AR) 예측을 사용하는 예측 벡터 양자화기(300)의 일례를 보여주는 도면이다. 도 3에 예시되어 있는 바와 같이, 예측 오차 벡터(
Figure 112005033433218-pct00166
)는 먼저 양자화될 입력
Figure 112005033433218-pct00167
매개변수 벡터(
Figure 112005033433218-pct00168
)로부터 예측 벡터(
Figure 112005033433218-pct00169
)를 감산(프로세서(301))함으로써 획득된다. 여기서 언급되고 있는 기호(
Figure 112005033433218-pct00170
)는 시간 단위의 프레임 인덱스이다. 상기 예측 벡터(
Figure 112005033433218-pct00171
)는 이전에 양자화된
Figure 112005033433218-pct00172
매개변수 벡터들(
Figure 112005033433218-pct00173
)을 사용하여 예측기(PAR; 프로세서(302))에 의해 계산된다. 그후, 상기 예측 오차 벡터(
Figure 112005033433218-pct00174
)는 양자화(프로세서(303))되고, 상기 예측 오차 벡터(
Figure 112005033433218-pct00175
)의 양자화로 예를 들면 채널을 통한 전송을 위한 인덱스(
Figure 112005033433218-pct00176
) 및 양자화된 예측 오차 벡터(
Figure 112005033433218-pct00177
)가 생성된다. 총체적인 양자화된
Figure 112005033433218-pct00178
매개변수 벡터(
Figure 112005033433218-pct00179
)는 상기 양 자화된 예측 오차 벡터(
Figure 112005033433218-pct00180
) 및 상기 예측 벡터(
Figure 112005033433218-pct00181
)를 가산(프로세서(304))함으로써 획득된다. 상기 예측기(PAR; 프로세서(302))의 일반 형태는 다음과 같다:
Figure 112005033433218-pct00182
여기서,
Figure 112005033433218-pct00183
Figure 112005033433218-pct00184
차원의 예측 매트릭스들이며
Figure 112005033433218-pct00185
는 예측기 차수이다. 상기 예측기(PAR; 프로세서(302))에 대한 간단한 형태는 이하의 수학식 2와 같이 1차 예측을 사용하는 것이다:
Figure 112005033433218-pct00186
상기 식중,
Figure 112005033433218-pct00187
Figure 112005033433218-pct00188
차원의 예측 매트릭스이며, 여기서
Figure 112005033433218-pct00189
Figure 112005033433218-pct00190
매개변수 벡터(
Figure 112005033433218-pct00191
)의 차원이다. 상기 예측 매트릭스(
Figure 112005033433218-pct00192
)의 간단한 형태는 대각선 성분들(
Figure 112005033433218-pct00193
)을 지닌 대각선 매트릭스이며, 여기서
Figure 112005033433218-pct00194
은 개별
Figure 112005033433218-pct00195
매개변수들에 대한 예측 인자(prediction factor)들이다. 동일한 인자(
Figure 112005033433218-pct00196
)가 모든
Figure 112005033433218-pct00197
매개변수들에 대해 사용될 경우, 수학식 2는 이하의 수학식 3으로 변환된다:
Figure 112005033433218-pct00198
수학식 3의 간단한 예측 형태를 사용할 경우, 양자화된
Figure 112005033433218-pct00199
매개변수 벡터(
Figure 112005033433218-pct00200
)는 이하 수학식 4의 자기회귀(autoregressive; AR) 관계로 표기된다:
Figure 112005033433218-pct00201
수학식 4의 순환 형태(recursive form)가 시사하는 것은 도 3에 예시된 바와 같은 형태의 AR 예측 양자화기(300)를 사용할 경우, 채널 오차들이 여러 프레임 상에 전달하게 된다는 것이다. 이는 수학식 4가 이하의 수학식 5 형태로 표기될 경우에 보다 명확하게 확인될 수 있다:
Figure 112005033433218-pct00202
이러한 형태는 대체로 각각의 이전에 복호화된 예측 오차 벡터(
Figure 112005033433218-pct00203
)가 양자화된
Figure 112005033433218-pct00204
매개변수 벡터(
Figure 112005033433218-pct00205
)의 값에 기여한다는 것을 명확하게 보여준다. 이 때문에, 상기 부호기에 의해 전송된 것에 대하여 상기 복호기에 의해 수신되는
Figure 112005033433218-pct00206
값을 변형시키는 채널 오차들의 경우에, 수학식 4에서 획득되는 복호화된 벡터(
Figure 112005033433218-pct00207
)는 상기 복호기에서 그리고 상기 부호기에서 동일하지 않게 된다. 상기 예측기(PAR)의 순환 특성 때문에, 이러한 부호기-복호기 부정합은 앞으로 전달하게 되고 비록 차후의 프레임들에 어떠한 채널 오차들도 존재하지 않더라도 다음 벡터들(
Figure 112005033433218-pct00208
)에 영향을 주게 된다. 그러므로, 예측 벡터 양자화는 특히 상기 예측 인자들이 높을(
Figure 112005033433218-pct00209
가 수학식 4 및 수학식 5에서 1에 가까운) 경우, 채널 오차들에 대하여 견실하지 않다.
이러한 전달 문제를 다소 해소시키기 위해, 이동 평균(moving average; MA) 예측이 AR 예측 대신에 사용될 수 있다. MA 예측에서, 수학식(5)의 무한 급수는 유한 개수의 항들로 절단된다. 그러한 개념은 수학식 5에서 소수의 항들을 사용함으로써 수학식 4에서 예측기(PAR)의 자기회귀 형태에 가까워지게 하는 것이다. 여기서 유념해야 할 점은 그러한 합산의 가중치들이 수학식 4의 예측기(PAR)에 보다 더 가까워지게 하도록 변형될 수 있다는 것이다.
MA 예측 벡터 양자화기(400)의 비제한적인 예는 도 4에 도시되어 있으며, 도 4에서는 프로세서들(401,402,403,404)이 각각 프로세서들(301,302,303,304)들에 대응한다. 상기 예측기(PMA; 프로세서(402))의 일반 형태는 다음과 같다:
Figure 112005033433218-pct00210
여기서
Figure 112005033433218-pct00211
Figure 112005033433218-pct00212
차원의 예측 매트릭스들이며
Figure 112005033433218-pct00213
는 예측기 차수이다. 여기서 유념해야 할 점은 MA 예측에서 전송 오차들이 단지 다음
Figure 112005033433218-pct00214
개의 프레임들만에 전달한다는 것이다.
상기 예측기(PMA; 프로세서(402))에 대한 간단한 형태는 이하의 수학식 6과 같이 1차 예측을 사용하는 것이다:
Figure 112005033433218-pct00215
상기 식중,
Figure 112005033433218-pct00216
Figure 112005033433218-pct00217
차원의 예측 매트릭스이며, 여기서
Figure 112005033433218-pct00218
Figure 112005033433218-pct00219
매개 변수 벡터의 차원이다. 상기 예측 매트릭스의 간단한 형태는
Figure 112005033433218-pct00220
이 개별
Figure 112005033433218-pct00221
매개변수들에 대한 예측 인자들일 경우 대각선 성분들(
Figure 112005033433218-pct00222
)을 지닌 대각선 매트릭스이다. 동일한 인자(
Figure 112005033433218-pct00223
)가 모든
Figure 112005033433218-pct00224
매개변수들에 대하여 사용될 경우, 수학식 6은 이하의 수학식 7로 변환된다:
Figure 112005033433218-pct00225
수학식 7의 간단한 예측 형태를 사용할 경우, 도 4에서, 상기 양자화된
Figure 112005033433218-pct00226
매개변수 벡터(
Figure 112005033433218-pct00227
)는 이하 수학식 8의 이동 평균(moving average; MA) 관계로 표기된다:
Figure 112005033433218-pct00228
도 4에 도시된 바와 같은 MA 예측을 사용하는 예측 벡터 양자화기(400)의 예시적인 예에서, (프로세서(402) 내의) 예측기 메모리는 이전에 복호화된 예측 오차 벡터들(
Figure 112005033433218-pct00229
)에 의해 형성된다. 이 때문에, 채널 오차가 전달될 수 있는 최대 프레임의 개수는 상기 예측기(PMA; 프로세서(402))의 차수이다. 수학식 8의 예시적인 예측기 예에서는, 상기 MA 예측 오차가 단지 하나의 프레임만을 통해 전달될 수 있게 하는 데 1차 예측이 사용된다.
MA 예측은, 전송 오류들에 대하여 AR 예측보다 견실하지만, 임의의 예측 차 수에 대하여 동일한 예측 이득을 획득하지 못한다. 그 결과로 상기 예측 오차는 보다 큰 동적 범위를 지니며, 동일한 부호화 이득을 획득하는 데 AR 예측 양자화의 경우보다 많은 비트들을 필요로 할 수 있다. 따라서, 이에 대한 절충은 임의의 비트율에서 채널 오차들 대 부호화 이득에 대한 견실함이다.
소스-제어형 가변 비트율(variable bit rate; VBR) 부호화에 있어서, 상기 부호기는 여러 비트율로 동작하며, 비율 선택 모듈은 음성 프레임, 예를 들면 유성음, 무성음, 과도, 배경 잡음의 특성을 기반으로 하여 각각의 음성 프레임을 부호화하는 데 사용되는 비트율을 결정하는 데 사용된다. 상기 음성 프레임, 예를 들면 유성음, 무성음, 과도, 배경 잡음 등등의 특성은 CDMA VBR의 경우와 동일한 방식으로 결정될 수 있다. 이에 대한 목적은 또한 평균 데이터율(average data rate; ADR)로서 언급되는 임의의 평균 비트율로 최상의 음질을 이루는 것이다. 예시적인 예로서, CDMA 시스템들, 예를 들면 CDMA-1 및 CDMA2000에서, 전형적으로는 4비트율이 사용되고 완전 비율(full-rate; FR), 절반 비율(half-rate; HR), ¼ 비율(quarter-rate; QR), 및 ⅛ 비율(eighth-rate; ER)로서 언급된다. 이러한 CDMA 시스템에서는, 2세트의 비율들이 지원되고 비율 세트 I 및 비율 세트 II로서 언급된다. 비율 세트 II에서는, 비율 선택 메카니즘을 구비한 가변 비트율 부호화기가 13.3(FR), 6.2(HR), 2.7(QR), 및 1.0(ER) kbit/s의 소스-부호화 비트율들로 동작한다.
VBR 부호화에서는, 분류 및 비율 선택 메카니즘이 (유성음, 무성음, 과도, 잡음 등등의) 특성에 따라 음성 프레임을 분류하는 데 사용되고 상기 분류 및 필요 한 평균 데이터율(ADR)에 따라 상기 프레임을 부호화하는 데 필요한 비트율을 선택한다. 절반-비율 부호화는 입력 음성 신호가 정적인 프레임들에서 선택되는 것이 전형적이다. 완전 비율과 비교해 볼 때 비트 절약들은 그다지 빈번하지 않게 부호기 매개변수들을 갱신하거나 또는 특정의 매개변수들을 부호화하는 데 보다 적은 비트들을 사용함으로써 달성된다. 더욱이, 이같은 프레임들은 상기 비트율을 감소시키는 데 활용될 수 있는 강한 상관을 나타낸다. 보다 구체적으로 기술하면, 정적인 유성음 세그먼트들에서는, 피치 정보가 한 프레임에 단지 한번만 부호화되며, 보다 적은 비트들이 고정 코드북 및
Figure 112005033433218-pct00230
계수들용으로 사용된다. 무성음 프레임들에서는, 어떠한 피치 예측도 필요하지 않으며 HR 내의 작은 코드북들 또는 QR 내의 불규칙 잡음(random noise)을 통해 여진이 모형화될 수 있다.
MA 예측을 사용하는 예측
Figure 112005033433218-pct00231
Figure 112005033433218-pct00232
매개변수를 부호화하는 데 적용되는 것이 전형적이기 때문에, 이에 대한 결과로서 양자화 잡음이 불필요하게 증가된다. AR 예측과는 반대로, MA 예측은 프레임 손실에 대한 견실함을 증가시키는 데 사용되지만, 정적인 프레임들에서는 상기
Figure 112005033433218-pct00233
매개변수들이 느리게 변화하기 때문에 이러한 경우에 AR 예측을 사용하는 것이 손실된 프레임들의 경우에 오류 전달에 보다 적은 영향을 주게 된다. 이는 빠진 프레임들이 존재할 경우에 대부분의 복호기들이 본질적으로 최종 프레임의
Figure 112005033433218-pct00234
매개변수들을 외삽하는 은폐 절차를 적용함을 관찰함으로써 확인된다. 빠진 프레임이 정적인 유성음일 경우, 이러한 외삽은 실제로 전송되지만, 수신되지 않는
Figure 112005033433218-pct00235
매개변수들과 매우 유사한 값들을 생성한다. 따라 서, 재구성된
Figure 112005033433218-pct00236
매개변수 벡터는 상기 프레임이 손실되지 않은 경우에 복호화된 것에 가까워진다. 그같은 특정한 경우에서, 상기
Figure 112005033433218-pct00237
계수들의 양자화 절차에서 AR 예측을 사용하는 것은 양자화 오차 전달에 그다지 악영향을 주지 않을 수 있다.
따라서, 본 발명의 비제한적이며 예시적인 실시예에 의하면, 상기 예측기가 처리되고 있는 음성 프레임의 특성에 따라 MA 및 AR 예측 중 어느 하나로 전환되는
Figure 112005033433218-pct00238
매개변수들에 대한 예측
Figure 112005033433218-pct00239
방법이 개시된다. 보다 구체적으로 기술하면, 과도 및 비-정적인 프레임에서 MA 예측이 사용되지만 정적인 프레임들에서는 AR 예측이 사용된다. 더욱이, AR 예측에 기인하여 MA 예측보다 작은 동적 범위를 갖는 예측 오차 벡터(
Figure 112005033433218-pct00240
)가 초래되기 때문에, 양자 모두의 예측 유형들에 대하여 동일한 양자화 표들을 사용하는 것이 효율적이지 않다. 이러한 문제를 극복하기 위해, AR 예측 이후의 예측 오차 벡터는 상기 MA 예측 경우에서와 동일한 양자화 표들을 사용하여 양자화될 수 있도록 적합하게 스케일링될 수 있다. 다단
Figure 112005033433218-pct00241
가 예측 오차 벡터를 양자화하는 데 사용될 경우, 제1단은 상기 AR 예측 오차 벡터를 적합하게 스케일링한 후에 양자 모두의 예측 유형들에 대하여 사용될 수 있다. 대형 메모리를 필요로 하지 않는 제2단에서는 분할
Figure 112005033433218-pct00242
를 사용하는 것이 충분하기 때문에, 이러한 제2단의 양자화 표들은 양자 모두의 예측 유형들에 대해 개별적으로 트레이닝 및 설계될 수 있다. 물론, MA 예측을 사용하는 제1단의 양자화 표들을 설계하고 상기 AR 예측 오차 벡터를 스케일링하는 대신에, 그의 역이 유효하다. 다시 말하면, 상기 제1단은 AR 예측용으로 설계될 수 있으며 상기 MA 예측 오차 벡터는 양자화 이전에 스케일링된다.
따라서, 본 발명의 비제한적이고 예시적인 실시예에 의하면, 상기 예측기(P)가 처리되고 있는 음성 프레임의 특성에 관한 분류 정보에 따라 MA 및 AR 예측 중 하나로 전환되고 상기 예측 오차의 다단
Figure 112005033433218-pct00243
의 동일한 제1단 양자화 표들이 양자 모두의 예측 유형들용으로 사용될 수 있도록 상기 예측 오차 벡터가 적합하게 스케일링되는 가변 비트율 음성 코덱에서의
Figure 112005033433218-pct00244
매개변수들의 양자화를 위한 예측 벡터 양자화 방법이 또한 개시된다.
예 1
도 1은 2-단 벡터 양자화기(100)의 비제한적인 예를 보여주는 도면이다. 입력 벡터(
Figure 112005033433218-pct00245
)가 먼저 양자화기(
Figure 112005033433218-pct00246
; 프로세서(101))를 통해 양자화되고 상기 입력 벡터(
Figure 112005033433218-pct00247
)의 양자화로 양자화된 벡터(
Figure 112005033433218-pct00248
) 및 양자화 인덱스(
Figure 112005033433218-pct00249
)가 생성된다. 상기 입력 벡터(
Figure 112005033433218-pct00250
) 및 제1단의 양자화된 벡터(
Figure 112005033433218-pct00251
)가 계산(프로세서(102))되고 그 결과로 제2단
Figure 112005033433218-pct00252
(프로세서(103))를 통해 추가적으로 양자화되는 오차 벡터(
Figure 112005033433218-pct00253
)가 생성되며 상기 오차 벡터(
Figure 112005033433218-pct00254
)의 양자화로 양자화 인덱스(
Figure 112005033433218-pct00255
)와 함께 양자화된 제2단 오차 벡터(
Figure 112005033433218-pct00256
)가 생성된다.
Figure 112005033433218-pct00257
Figure 112005033433218-pct00258
의 양자화 인덱스들은 채널을 통해 전송(MPX; 프로세서(104))되고 양자화된 벡터(
Figure 112005033433218-pct00259
)는 복호기에서
Figure 112005033433218-pct00260
로서 재구성된다.
도 2는 분할 벡터 양자화기(200)의 예시적인 예를 보여주는 도면이다.
Figure 112005033433218-pct00261
차원의 입력 벡터(
Figure 112005033433218-pct00262
)는 차원들(
Figure 112005033433218-pct00263
)의
Figure 112005033433218-pct00264
개의 서브벡터들로 분할되고, 벡터 양자화기들(
Figure 112005033433218-pct00265
)과 각각 양자화(프로세서들(201.1,201.2...201.K) )된다. 양자화 인덱스들(
Figure 112005033433218-pct00266
,
Figure 112005033433218-pct00267
,
Figure 112005033433218-pct00268
)을 통해, 양자화된 서브벡터들(
Figure 112005033433218-pct00269
)이 획득된다. 양자화 인덱스들은 채널을 통해 전송(MPX; 프로세서(202))되고 양자화된 벡터(
Figure 112005033433218-pct00270
)는 양자화된 서브벡터들의 간단한 연결로 재구성된다.
벡터 양자화의 효율적인 접근법은 다단 및 분할
Figure 112005033433218-pct00271
양자 모두를 조합하는 것이며 이로 인해 품질 및 복잡성 간의 양호한 절충(trade-off)이 초래된다. 제1의 예시적인 예에서는, 2-단
Figure 112005033433218-pct00272
가 사용될 수 있음으로써 제2단 오차 벡터(
Figure 112005033433218-pct00273
)는 여러 개의 서브벡터들로 분할되고 각각 제2단 양자화기들(
Figure 112005033433218-pct00274
)을 통해 양자화된다. 제2의 예시적인 예에서는, 입력 벡터가 2개의 서브벡터들로 분할될 수 있으며, 그후 각각의 서브벡터가 상기 제1의 예시적인 예에서와 같이 제2단에서의 추가적인 분할을 이용하는 2-단
Figure 112005033433218-pct00275
를 통해 양자화된다.
도 5는 본 발명에 따른 전환된 예측 벡터 양자화기(500)의 비제한적인 예를 개략적으로 예시하는 블록선도이다. 먼저, 평균
Figure 112005033433218-pct00276
매개변수들(
Figure 112005033433218-pct00277
)의 벡터가 입력
Figure 112005033433218-pct00278
매개변수 벡터(
Figure 112005033433218-pct00279
)로부터 제거되며 상기 평균
Figure 112005033433218-pct00280
매개변수들(
Figure 112005033433218-pct00281
)의 벡터의 제거로 평균 제거된
Figure 112005033433218-pct00282
매개변수 벡터(
Figure 112005033433218-pct00283
)가 생성(프로세서(501))된다. 위의 설명 부분에서 언급된 바와 같이,
Figure 112005033433218-pct00284
매개변수 벡터들은
Figure 112005033433218-pct00285
매개변수들,
Figure 112005033433218-pct00286
매개변수들 또는 기타 관련
Figure 112005033433218-pct00287
매개변수 표현의 벡터들일 수 있다. 입력
Figure 112005033433218-pct00288
매개변수 벡터(
Figure 112005033433218-pct00289
)로부터 상기 평균
Figure 112005033433218-pct00290
매개변수 벡터(
Figure 112005033433218-pct00291
)를 제거하는 것은 선택적이지만 개선 된 예측 성능을 초래시킨다. 프로세서(501)가 디스에이블(disable)될 경우, 상기 평균 제거된
Figure 112005033433218-pct00292
매개변수 벡터(
Figure 112005033433218-pct00293
)는 상기 입력
Figure 112005033433218-pct00294
매개변수 벡터(
Figure 112005033433218-pct00295
)와 동일하게 된다. 여기서 유념해야 할 점은 도 3 및 도 4에서 사용되는 프레임 인덱스(
Figure 112005033433218-pct00296
)가 간소화를 위해 여기서 생략되었다는 것이다. 그후, 예측 벡터(
Figure 112005033433218-pct00297
)가 계산되고 상기 평균 제거된
Figure 112005033433218-pct00298
매개변수 벡터(
Figure 112005033433218-pct00299
)로부터 제거되며 상기 예측 벡터(
Figure 112005033433218-pct00300
)의 제거로 예측 오차 벡터(
Figure 112005033433218-pct00301
)가 생성(프로세서(502))된다. 그후, 프레임 분류 정보를 기반으로 하여, 만약 상기 입력
Figure 112005033433218-pct00302
매개변수 벡터(
Figure 112005033433218-pct00303
)에 대응하는 프레임이 정적인 유성음이라면, AR 예측이 사용되고 오차 벡터(
Figure 112005033433218-pct00304
)가 특정 인자에 의해 스케일링(프로세서(503))됨으로써 상기 스케일링된 예측 오차 벡터(
Figure 112005033433218-pct00305
)가 획득된다. 만약 상기 프레임이 정적인 유성음이 아니라면, MA 예측이 사용되고 스케일링 인자(프로세서(503))는 1과 동일하다. 다시, 예를 들면 유성음, 무성음, 과도, 배경 잡음 등등과 같은 프레임의 분류는 예를 들면 CDMA VBR의 경우와 동일한 방식으로 결정될 수 있다. 상기 스케일링 인자가 전형적으로 1보다 크며 예측 오차 벡터의 동적 범위의 업스케일링(upscaling)을 초래시킴으로써 상기 예측 오차 벡터가 MA 예측용으로 설계된 양자화기를 통해 양자화될 수 있다. 상기 스케일링 벡터의 값은 MA 및 AR 예측용으로 사용되는 계수들에 의존한다. 비제한적이며 전형적인 값들은 MA 예측 계수(
Figure 112005033433218-pct00306
), AR 예측 계수(
Figure 112005033433218-pct00307
) 및 스케일링 인자 = 1.25이다. 상기 양자화기가 AR 예측용으로 설계될 경우, 역 동작이 수행된다. 다시 말하면 MA 예측용 예측 오차 벡터는 스케일링되고 스케일링 인자는 1보다 작게 된다.
그후, 스케일링된 예측 오차 벡터(
Figure 112005033433218-pct00308
)가 벡터 양자화(프로세서(508))되고 상기 스케일링된 예측 오차 벡터(
Figure 112005033433218-pct00309
)의 벡터 양자화로 양자화된 스케일링 예측 오차 벡터(
Figure 112005033433218-pct00310
)가 생성된다. 도 5의 예에서, 프로세서(508)는 분할
Figure 112005033433218-pct00311
가 양자 모두의 단들에서 사용되고 제1단의 벡터 양자화 표들이 MA 및 AR 예측 양자 모두에 대해 동일한 2-단 벡터 양자화기로 이루어져 있다. 상기 2-단 벡터 양자화기(508)는 프로세서들(504,505,506,507,509)로 이루어져 있다. 제1단 양자화기(
Figure 112005033433218-pct00312
)에서는, 상기 스케일링된 예측 오차 벡터(
Figure 112005033433218-pct00313
)가 양자화되고 상기 스케일링된 예측 오차 벡터(
Figure 112005033433218-pct00314
)의 양자화로 제1단의 양자화된 예측 오차 벡터(
Figure 112005033433218-pct00315
)가 생성(프로세서(504))된다. 이러한 벡터(
Figure 112005033433218-pct00316
)가 스케일링된 예측 오차 벡터(
Figure 112005033433218-pct00317
)로부터 제거(프로세서(505))되며 상기 벡터(
Figure 112005033433218-pct00318
)의 제거로 제2단 예측 오차 벡터(
Figure 112005033433218-pct00319
)가 생성된다. 그후, 이러한 제2단 예측 오차 벡터(
Figure 112005033433218-pct00320
)가 제2단 벡터 양자화기(
Figure 112005033433218-pct00321
) 또는 제2단 벡터 양자화기(
Figure 112005033433218-pct00322
)를 통해 양자화(프로세서(506))되고 상기 제2단 예측 오차 벡터(
Figure 112005033433218-pct00323
)의 양자화로 제2단의 양자화된 예측 오차 벡터(
Figure 112005033433218-pct00324
)가 생성된다. 상기 제2단 벡터 양자화기들(
Figure 112005033433218-pct00325
,
Figure 112005033433218-pct00326
) 간의 선택은 프레임 분류 정보(예를 들면, 위에서 언급된 바와 같이, 프레임이 정적인 유성음일 경우 AR이고 프레임이 정적인 유성음이 아닐 경우 MA임)에 의존한다. 양자화된 스케일링 예측 오차 벡터(
Figure 112005033433218-pct00327
)는 상기 2개의 단들로부터의 양자화된 예측 오차 벡터들(
Figure 112005033433218-pct00328
,
Figure 112005033433218-pct00329
)의 가산을 통해 재구성(프로세서(509))된다. 다시 말하면
Figure 112005033433218-pct00330
이다. 마지막으로, 프로세서(503)의 스케일링과 반대인 스케일링이 양자화된 스케일 예측 오차 벡터(
Figure 112005033433218-pct00331
)에 적용(프로세서(510))됨으로써 상기 양자화된 예측 오차 벡터(
Figure 112005033433218-pct00332
)가 생성된다. 본 발명의 예시적인 예에서, 벡터 차원은 16이며, 분할
Figure 112005033433218-pct00333
는 양자 모두의 단들에서 사용된다. 양자화기(
Figure 112005033433218-pct00334
) 및 양자화기(
Figure 112005033433218-pct00335
또는
Figure 112005033433218-pct00336
)로부터의 양자화 인덱스들(
Figure 112005033433218-pct00337
,
Figure 112005033433218-pct00338
)은 다중화되어 통신 채널을 통해 전송(프로세서(507))된다.
예측 벡터(
Figure 112005033433218-pct00339
)는 프레임 분류 정보(예를 들면, 위에서 언급된 바와 같이, 프레임이 정적인 유성음일 경우 AR이고 프레임이 정적인 유성음이 아닐 경우 MA임)에 의존하여 MA 예측기(프로세서(511)) 또는 AR 예측기(프로세서(512))에서 계산된다. 프레임이 정적인 유성음일 경우 예측 벡터는 AR 예측기(512)의 출력과 동일하다. 프레임이 정적인 유성음이 아닐 경우 예측 벡터는 MA 예측기(511)의 출력과 동일하다. 위에서 언급된 바와 같이 MA 예측기(511)는 이전의 프레임들로부터 얻어진 양자화된 예측 오차 벡터들을 기반으로 하여 동작하며 AR 예측기(512)는 이전의 프레임들로부터 얻어진 양자화된 입력
Figure 112005033433218-pct00340
매개변수 벡터들을 기반으로 하여 동작한다. 양자화된 입력
Figure 112005033433218-pct00341
매개변수 벡터(평균 제거됨)는 양자화된 예측 오차 벡터(
Figure 112005033433218-pct00342
)를 예측 벡터(
Figure 112005033433218-pct00343
)에 가산(프로세서(514))함으로써 재구성된다. 다시 말하면
Figure 112005033433218-pct00344
이다.
도 6은 본 발명에 따른 복호기 측의 전환된 예측 벡터 양자화기(600)의 예시적인 실시예를 개략적으로 보여주는 블록선도이다. 복호기 측에서는, 수신된 세트들의 양자화 인덱스들(
Figure 112005033433218-pct00345
,
Figure 112005033433218-pct00346
)이 양자화 표들에 의해 사용(프로세서들(601,602))되고 수신된 세트들의 양자화 인덱스들(
Figure 112005033433218-pct00347
,
Figure 112005033433218-pct00348
)의 사용으로 제1단 및 제2단의 양자화된 예측 오차 벡터들(
Figure 112005033433218-pct00349
,
Figure 112005033433218-pct00350
)이 생성된다. 여기서 유념해야 할 점은 제2단의 양자화(프로세서(602))가 도 5의 부호기 측을 참조하여 위에서 언급된 바와 같이 MA 및 AR 예측에 대한 2개의 세트들의 표들로 이루어져 있다. 그후, 스케일링된 예측 오차 벡터는 2개의 단들로부터 양자화된 예측 오차 벡터들을 가산함으로써 프로세서(603)에서 재구성된다. 다시 말하면
Figure 112005033433218-pct00351
이다. 역 스케일링이 프로세서(609)에 적용됨으로써 양자화된 예측 오차 벡터(
Figure 112005033433218-pct00352
)가 생성된다. 여기서 유념해야 할 점은 역 스케일링이 수신된 프레임 분류 정보의 함수이며 도 5의 프로세서(503)에 의해 수행되는 스케일링의 역에 대응한다는 것이다. 그후, 양자화되고 평균 제거된 입력
Figure 112005033433218-pct00353
매개변수 벡터(
Figure 112005033433218-pct00354
)는 예측 벡터(
Figure 112005033433218-pct00355
)를 양자화된 예측 오차 벡터에 가산함으로써 프로세서(604)에서 재구성된다. 다시 말하면
Figure 112005033433218-pct00356
이다. 평균 매개변수들(
Figure 112005033433218-pct00358
)의 벡터가 부호기 측에서 제거된 경우에, 평균
Figure 112005033433218-pct00359
매개변수들(
Figure 112005033433218-pct00360
)의 벡터가 프로세서(608)에서 가산되고 상기 평균
Figure 112005033433218-pct00361
매개변수들(
Figure 112005033433218-pct00362
)의 벡터의 가산으로 양자화된 입력
Figure 112005033433218-pct00363
매개변수 벡터(
Figure 112005033433218-pct00364
)가 생성된다. 여기서 유념해야 할 점은 도 5의 부호기 측의 경우에서와 같이, 예측 벡터(
Figure 112005033433218-pct00365
)가 프레임 분류 정보에 의존하여 MA 예측기(605) 또는 AR 예측기(606)의 출력이며, 이러한 선택이 상기 프레임 분류 정보에 응답하여 프로세서(607)의 논리에 따라 이루어진다는 것이다. 보다 구체적으로 기술하면, 프레임이 정적인 유성음일 경우, 예측 벡터(
Figure 112005033433218-pct00366
)는 AR 예측기(606)의 출력과 동일하다. 그러하지 않을 경우, 예측 벡터(
Figure 112005033433218-pct00367
)는 MA 예측기(605)의 출력과 동일 하다.
물론, 단지 MA 예측기 또는 AR 예측기의 출력만이 특정 프레임으로 사용된다라는 사실에도 불구하고, MA 또는 AR 예측이 다음 프레임에 사용될 수 있다고 가정하여, 양자 모두의 예측기들의 메모리들이 매 프레임마다 업데이트된다. 이는 상기 부호기 및 복호기 측들 모두에 대해 유효하다.
부호화 이득을 최적화하기 위해, MA 예측용으로 설계된 제1단의 몇몇 벡터들이 AR 예측용으로 설계된 새로운 벡터들로 대체될 수 있다. 비제한적이고 예시적인 실시예에서, 제1단의 코드북 크기는 256이며, AMR-WB 표준의 12.65 kbit/s에서와 같은 내용을 지니고, 28개의 벡터들은 AR 예측을 사용할 경우 제1단의 코드북에서 대체된다. 따라서, 확장된 제1단의 코드북은 다음과 같이 형성된다. 먼저, AR 예측을 사용하지만 MA 예측용으로 유용할 경우 덜 사용되는 28개의 제1단 벡터들은 표의 시작 부분에 배치되고, 그후 AR 및 MA 예측 양자 모두용으로 유용한 나머지 256-28=228개의 제1단 벡터들은 상기 표에 부가되고, 마지막으로 AR 예측용으로 유용한 28개의 새로운 벡터들은 상기 표의 끝 부분에 배치된다. 따라서, 상기 표 길이는 256+28=284 벡터들이다. MA 예측을 사용할 경우, 상기 표의 최초의 256 벡터들이 제1단에서 사용되지만, AR 예측을 사용할 경우, 상기 표의 마지막의 256 벡터들이 사용된다. AMR-WB 표준과의 상호운영성을 보장하기 위해, 이러한 새로운 코드북 내의 제1단 벡터의 위치, 및 상기 AMR-WB 제1단 코드북 내의 제1단 벡터의 원래 위치 간의 매핑을 포함하는 표가 사용된다.
요약하면, 도 5 및 도 6과 관련하여 언급되어 있으며 위에서 언급된 본 발명 의 비제한적이고 예시적인 실시예들은 다음과 같은 특징들을 제공한다:
- 전환된 AR/MA 예측은 가변율 부호기의 부호화 모드에 의존하여 사용되며, 상기 부호기 자체는 현재 음성 프레임의 특성에 의존한다.
- AR 예측이 적용되든 아니면 MA 예측이 적용되든 본질적으로 동일한 제1단 양자화기가 사용되며, 이는 메모리 절약을 초래시킨다. 비제한적이며 예시적인 실시예에서, 16 차수의
Figure 112005033433218-pct00368
예측이 사용되고
Figure 112005033433218-pct00369
매개변수들은
Figure 112005033433218-pct00370
영역에서 나타나게 된다. 제1단 코드북은 이러한 코드북이 MA 예측을 사용하여 설계된 AMR-WB 부호기의 12.65 kbit/s 모드에서 사용되는 것과 동일한 것이다(16 차원
Figure 112005033433218-pct00371
매개변수 벡터가 2로 분할되고 상기 16 차원
Figure 112005033433218-pct00372
매개변수 벡터의 2-분할로 차원 7 및 차원 9를 통해 2개의 서브벡터들이 획득되며, 양자화의 제1단에서는, 2개의 256-엔트리 코드북들이 사용된다).
- MA 예측 대신에, AR 예측이 정적인 모드, 특히 절반-비율 유성음 모드에서 사용되지만, 그러하지 않은 경우에는 MA 예측이 사용된다.
- AR 예측의 경우에, 양자화기의 제1단은 MA 예측의 경우와 동일하다. 그러나, 제2단은 AR 예측용으로 적합하게 설계 및 트레이닝될 수 있다.
- 예측기 모드에서의 이러한 전환을 고려하기 위해, MA 또는 AR 예측 양자 모두가 다음 프레임용으로 사용될 수 있다고 가정하여, MA 및 AR 예측기들 양자 모두의 메모리들이 매 프레임마다 갱신된다.
- 또한, 부호화 이득을 최적화하기 위해, MA 예측용으로 설계된 제1단의 몇몇 벡터들이 AR 예측용으로 설계된 새로운 벡터들로 대체될 수 있다. 이러한 비제 한적이고 예시적인 실시예에 의하면, 28개의 벡터들이 AR 예측을 사용할 경우 제1단 코드북에서 대체된다.
- 따라서, 확대된 제1단 코드북은 다음과 같이 형성될 수 있다. 먼저, AR 예측을 적용할 경우에 덜 사용되는 28개의 제1단 벡터들은 표의 시작 부분에 배치되고, 그후 나머지 256-28=228개의 제1단 벡터들이 상기 표에 부가되며, 마지막으로 28개의 새로운 벡터들이 상기 표의 끝 부분에 배치된다. 따라서, 표 길이는 256+28=284개의 벡터들이다. MA 예측을 사용할 경우, 상기 표의 최초의 256 벡터들이 제1단에서 사용되지만, AR 예측을 사용할 경우, 상기 표의 마지막의 256 벡터들이 사용된다.
- AMR-WB 표준과의 상호 운영성을 보장하기 위해, 이러한 새로운 코드북 내의 제1단 벡터의 위치, 및 AMR-WB 제1단 코드북 내의 제1단 벡터의 원래 위치 간의 매핑을 포함하는 표가 사용된다.
- AR 예측이 정적인 신호들 상에서 사용될 경우 MA 예측보다 낮은 예측 오차 에너지를 달성하기 때문에, 스케일링 인자가 예측 오차에 적용된다. 비제한적이고 예시적인 실시예에서, 스케일링 인자는 MA 예측이 사용될 경우 1이며, AR 예측이 사용될 경우 1/0.8이다. 이는 MA 예측 오차에 대한 동적 등가로 AR 예측 오차를 증가시킨다. 이 때문에, 동일한 양자화기가 제1단에서 MA 및 AR 예측 양자 모두용으로 사용될 수 있다.
비록 본 발명이 본 발명의 비제한적이고 예시적인 실시예들과 관련하여 위의 설명 부분에서 언급되었지만, 이러한 실시예들은 본 발명의 특성 및 범위로부터 벗 어지 않고서도 첨부된 청구항들의 범위 내에서 임의적으로 수정될 수 있다.

Claims (57)

  1. 가변 비트율 사운드 신호 부호화에서 선형 예측 매개변수들을 양자화하는 방법에 있어서,
    입력 선형 예측 매개변수 벡터를 수신하는 단계;
    상기 입력 선형 예측 매개변수 벡터에 대응하는 사운드 신호 프레임을 분류하는 단계;
    예측 벡터를 계산하는 단계;
    상기 입력 선형 예측 매개변수 벡터로부터 상기 계산된 예측 벡터를 제거하는 단계로서, 상기 계산된 예측 벡터의 제거로 예측 오차 벡터를 생성하는 단계;
    상기 예측 오차 벡터를 스케일링하는 단계; 및
    상기 스케일링된 예측 오차 벡터를 양자화하는 단계를 포함하며,
    상기 예측 벡터를 계산하는 단계는 상기 사운드 신호 프레임의 분류와 관련하여 다수의 예측 스킴들 중 하나의 예측 스킴을 선택하는 단계, 및 상기 선택된 예측 스킴에 따라 상기 예측 벡터를 계산하는 단계를 포함하고, 그리고
    상기 예측 오차 벡터를 스케일링하는 단계는 상기 선택된 예측 스킴과 관련하여 다수의 스케일링 스킴들 중 적어도 하나의 스케일링 스킴을 선택하는 단계, 및 상기 선택된 스케일링 스킴에 따라 상기 예측 오차 벡터를 스케일링하는 단계를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 방법.
  2. 제1항에 있어서,
    상기 예측 오차 벡터를 양자화하는 단계는 상기 선택된 예측 스킴을 사용하여 적어도 하나의 양자화기를 통해 상기 예측 오차 벡터를 처리하는 단계를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 방법.
  3. 제1항에 있어서,
    상기 다수의 예측 스킴들은 이동 평균 예측 및 자기회귀 예측을 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 방법.
  4. 제1항에 있어서,
    상기 선형 예측 매개변수들의 양자화 방법은,
    평균 선형 예측 매개변수들의 벡터를 생성하는 단계; 및
    상기 입력 선형 예측 매개변수 벡터로부터 상기 평균 선형 예측 매개변수들의 벡터를 제거하는 단계로서, 상기 평균 선형 예측 매개변수들의 벡터의 제거로 평균 제거된 선형 예측 매개변수 벡터를 생성하는 단계를 더 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 방법.
  5. 제1항에 있어서,
    상기 사운드 신호 프레임을 분류하는 단계는 상기 사운드 신호 프레임이 정적인 유성음 프레임이라고 결정하는 단계를 포함하고,
    상기 다수의 예측 스킴들 중 하나의 예측 스킴을 선택하는 단계는 자기회귀 예측을 선택하는 단계를 포함하며,
    상기 예측 벡터를 계산하는 단계는 자기회귀 예측을 통해 상기 예측 오차 벡터를 계산하는 단계를 포함하고,
    상기 다수의 스케일링 스킴들 중 하나의 스케일링 스킴을 선택하는 단계는 스케일링 인자를 선택하는 단계를 포함하며, 그리고
    상기 예측 오차 벡터를 스케일링하는 단계는 상기 스케일링 인자를 사용하여 양자화 이전에 상기 예측 오차 벡터를 스케일링하는 단계를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 방법.
  6. 제1항에 있어서,
    상기 사운드 신호 프레임을 분류하는 단계는 상기 사운드 신호 프레임이 정적인 유성음 프레임이 아니라고 결정하는 단계를 포함하며, 그리고
    상기 예측 벡터를 계산하는 단계는 이동 평균 예측을 통해 상기 예측 오차 벡터를 계산하는 단계를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 방법.
  7. 제5항에 있어서,
    상기 스케일링 인자는 1보다 큰 것을 특징으로 하는 선형 예측 매개변수들의 양자화 방법.
  8. 제1항에 있어서,
    상기 예측 오차 벡터를 양자화하는 단계는 2-단 벡터 양자화 프로세스를 통해 상기 예측 오차 벡터를 처리하는 단계를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 방법.
  9. 제8항에 있어서,
    상기 선형 예측 매개변수들의 양자화 방법은,
    상기 벡터 양자화 프로세스의 2개의 단들에서 분할 벡터 양자화를 사용하는 단계를 더 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 방법.
  10. 제3항에 있어서,
    상기 예측 오차 벡터를 양자화하는 단계는 제1단 및 제2단을 포함하는 2-단 벡터 양자화 프로세스를 통해 상기 예측 오차 벡터를 처리하는 단계를 포함하며; 그리고
    상기 2-단 벡터 양자화 프로세스를 통해 예측 오차 벡터를 처리하는 단계는 이동 평균 예측 및 자기회귀 예측 양자 모두에 대하여 동일한 제1단의 벡터 양자화 표들에 상기 예측 오차 벡터를 적용하는 단계를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 방법.
  11. 제8항에 있어서,
    상기 예측 오차 벡터를 양자화하는 단계는,
    상기 2-단 벡터 양자화 프로세스의 제1단에서, 상기 예측 오차 벡터를 양자화하는 단계로서, 상기 예측 오차 벡터의 양자화로 제1단의 양자화된 예측 오차 벡터를 생성하는 단계;
    상기 예측 오차 벡터로부터 상기 제1단의 양자화된 예측 오차 벡터를 제거하는 단계로서, 상기 제1단의 양자화된 예측 오차 벡터의 제거로 제2단 예측 오차 벡터를 생성하는 단계;
    상기 2-단 벡터 양자화 프로세스의 제2단에서, 상기 제2단 예측 오차 벡터를 양자화하는 단계로서, 상기 제2단 예측 오차 벡터의 양자화로 제2단의 양자화된 예측 오차 벡터를 생성하는 단계; 및
    상기 제1단 및 상기 제2단의 양자화된 예측 오차 벡터들을 가산함으로써 양자화된 예측 오차 벡터를 생성하는 단계를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 방법.
  12. 제11항에 있어서,
    상기 제2단 예측 오차 벡터를 양자화하는 단계는 상기 사운드 신호 프레임의 분류에 따라 이동 평균 예측 양자화기 또는 자기회귀 예측 양자화기를 통해 상기 제2단 예측 오차 벡터를 처리하는 단계를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 방법.
  13. 삭제
  14. 제8항에 있어서,
    상기 사운드 신호 프레임을 분류하는 단계는 상기 사운드 신호 프레임이 정적인 유성음 프레임이라고 결정하는 단계를 포함하며,
    상기 예측 벡터를 계산하는 단계는,
    (a) 상기 제1단 및 상기 제2단의 양자화된 예측 오차 벡터들을 가산함으로써 생성되는 양자화된 예측 오차 벡터 및 (b) 상기 계산된 예측 벡터를 가산하는 단계로서, 상기 제1단 및 상기 제2단의 양자화된 예측 오차 벡터들을 가산함으로써 생성되는 양자화된 예측 오차 벡터 및 상기 계산된 예측 벡터의 가산으로 양자화된 입력 벡터를 생성하는 단계; 및
    자기회귀 예측을 통해 상기 양자화된 입력 벡터를 처리하는 단계를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 방법.
  15. 제2항에 있어서,
    상기 다수의 예측 스킴들은 이동 평균 예측 및 자기회귀 예측을 포함하고,
    상기 예측 오차 벡터를 양자화하는 단계는,
    제1단 코드북을 포함하는 2-단 벡터 양자화기를 통해 상기 예측 오차 벡터를 처리하는 단계로서, 상기 제1단 코드북 자체가,
    이동 평균 예측을 적용할 경우에 유용하고 표의 개시 부분에 배치되는 제1그룹의 벡터들;
    이동 평균 예측 및 자기회귀 예측 중 어느 하나를 적용할 경우에 유용하고 상기 표에서 상기 제1그룹의 벡터들 및 제3그룹의 벡터들 중간에 배치되는 제2그룹의 벡터들; 및
    자기회귀 예측을 적용할 경우에 유용하고 상기 표의 끝 부분에 배치되는 상기 제3그룹의 벡터들을 순차적으로 포함하는 단계를 포함하며, 그리고
    상기 선택된 예측 스킴을 사용하여 적어도 하나의 양자화기를 통해 예측 오차 벡터를 처리하는 단계는,
    상기 선택된 예측 스킴이 이동 평균 예측일 경우 상기 표의 제1그룹 및 제2그룹의 벡터들을 통해 상기 예측 오차 벡터를 처리하는 단계, 및
    상기 선택된 예측 스킴이 자기회귀 예측일 경우 상기 제2그룹 및 제3그룹의 벡터들을 통해 상기 예측 오차 벡터를 처리하는 단계를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 방법.
  16. 제15항에 있어서, AMR-WB 표준과의 상호 운영성을 보장하기 위해, AMR-WB 제1단 코드북에서의 제1단 벡터의 원래 위치 및 상기 제1단 코드북의 표 내의 제1단 벡터의 위치 간의 매핑이 매핑 표를 통해 이루어지는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 방법.
  17. 제1항에 있어서,
    상기 사운드 신호 프레임을 분류하는 단계는 상기 사운드 신호 프레임이 정적인 유성음 프레임이거나 또는 비정적인 유성음 프레임이라고 결정하는 단계를 포함하며,
    정적인 유성음 프레임들의 경우에는, 상기 사운드 신호 프레임의 분류와 관련하여 다수의 예측 스킴들 중 하나의 예측 스킴을 선택하는 단계가 자기회귀 예측을 선택하는 단계를 포함하고, 상기 선택된 예측 스킴에 따라 예측 벡터를 계산하는 단계는 자기회귀 예측을 통해 상기 예측 오차 벡터를 계산하는 단계를 포함하며, 상기 선택된 예측 스킴과 관련하여 다수의 스케일링 스킴들 중 적어도 하나의 스케일링 스킴을 선택하는 단계는 1보다 큰 스케일링 인자를 선택하는 단계를 포함하고, 그리고 상기 선택된 스케일링 스킴에 따라 예측 오차 벡터를 스케일링하는 단계는 1보다 큰 스케일링 인자를 사용하여 양자화 이전에 상기 예측 오차 벡터를 스케일링하는 단계를 포함하며, 그리고
    비정적인 유성음 프레임들의 경우에는, 상기 사운드 신호 프레임의 분류와 관련하여 다수의 예측 스킴들 중 하나의 예측 스킴을 선택하는 단계는 이동 평균 예측을 선택하는 단계를 포함하고, 상기 선택된 예측 스킴에 따라 예측 벡터를 계산하는 단계는 이동 평균 예측을 통해 상기 예측 오차 벡터를 계산하는 단계를 포함하며, 상기 선택된 예측 스킴과 관련하여 다수의 스케일링 스킴들 중 적어도 하나의 스케일링 스킴을 선택하는 단계는 1과 동일한 스케일링 인자를 선택하는 단계를 포함하고, 그리고 상기 선택된 스케일링 스킴에 따라 예측 오차 벡터를 스케일링하는 단계는 1과 동일한 스케일링 인자를 사용하여 양자화 이전에 상기 예측 오차 벡터를 스케일링하는 단계를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 방법.
  18. 가변 비트율 사운드 신호 복호화에서 선형 예측 매개변수들을 역양자화하는 방법에 있어서,
    적어도 하나의 양자화 인덱스를 수신하는 단계;
    상기 적어도 하나의 양자화 인덱스에 대응하는 사운드 신호 프레임의 분류에 관한 정보를 수신하는 단계;
    상기 적어도 하나의 인덱스를 적어도 하나의 양자화 표에 적용함으로써 예측 오차 벡터를 회복하는 단계;
    예측 벡터를 재구성하는 단계; 및
    상기 회복된 예측 오차 벡터 및 상기 재구성된 예측 벡터에 응답하여 선형 예측 매개변수 벡터를 생성하는 단계를 포함하며,
    상기 예측 벡터를 재구성하는 단계는 프레임 분류 정보에 의존하여 다수의 예측 스킴들 중 하나의 예측 스킴을 통해 상기 회복된 예측 오차 벡터를 처리하는 단계를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 역양자화 방법.
  19. 제18항에 있어서,
    상기 예측 오차 벡터를 회복하는 단계는 상기 하나의 예측 스킴을 사용하여 상기 적어도 하나의 인덱스 및 상기 분류 정보를 적어도 하나의 양자화 표에 적용하는 단계를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 역양자화 방법.
  20. 제18항에 있어서,
    상기 적어도 하나의 양자화 인덱스를 수신하는 단계는 제1단 양자화 인덱스 및 제2단 양자화 인덱스를 수신하는 단계를 포함하며, 그리고
    상기 적어도 하나의 인덱스를 적어도 하나의 양자화 표에 적용하는 단계는 상기 제1단 양자화 인덱스를 제1단 양자화 표에 적용하는 단계로서, 상기 제1단 양자화 인덱스의 적용으로 제1단 예측 오차 벡터를 생성하는 단계, 및 상기 제2단 양자화 인덱스를 제2단 양자화 표에 적용하는 단계로서, 상기 제2단 양자화 인덱스의 적용으로 제2단 예측 오차 벡터를 생성하는 단계를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 역양자화 방법.
  21. 제20항에 있어서,
    상기 다수의 예측 스킴들이 이동 평균 예측 및 자기회귀 예측을 포함하고,
    상기 제2단 양자화 표가 이동 평균 예측 표 및 자기회귀 예측 표를 포함하며, 그리고
    상기 선형 예측 매개변수들의 역양자화 방법은,
    상기 제2단 양자화 표에 사운드 신호 프레임 분류를 적용하는 단계로서, 상기 사운드 신호 프레임 분류의 적용으로 수신된 프레임 분류 정보에 의존하여 상기 이동 평균 예측 표 또는 상기 자기회귀 예측 표를 통해 상기 제2단 양자화 인덱스를 처리하는 단계를 더 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 역양자화 방법.
  22. 제20항에 있어서,
    상기 예측 오차 벡터를 회복하는 단계는 상기 제1단 예측 오차 벡터 및 상기 제2단 예측 오차 벡터를 가산하는 단계로서, 상기 제1단 예측 오차 벡터 및 상기 제2단 예측 오차 벡터의 가산으로 회복된 예측 오차 벡터를 생성하는 단계를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 역양자화 방법.
  23. 제22항에 있어서,
    상기 선형 예측 매개변수들의 역양자화 방법은,
    수신된 프레임 분류 정보의 함수로서 역 스케일링 동작을 상기 수신된 예측 벡터에 관해 수행하는 단계를 더 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 역양자화 방법.
  24. 제18항에 있어서,
    상기 선형 예측 매개변수 벡터를 생성하는 단계는 상기 회복된 예측 오차 벡터 및 상기 재구성된 예측 벡터를 가산하는 단계로서, 상기 회복된 예측 오차 벡터 및 상기 재구성된 예측 벡터의 가산으로 선형 예측 매개변수 벡터를 생성하는 단계를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 역양자화 방법.
  25. 제24항에 있어서,
    상기 선형 예측 매개변수들의 역양자화 방법은,
    상기 회복된 예측 오차 벡터 및 상기 재구성된 예측 벡터에 평균 선형 예측 매개변수들의 벡터를 가산하는 단계로서, 상기 회복된 예측 오차 벡터 및 상기 재구성된 예측 벡터에 대한 평균 선형 예측 매개변수들의 벡터의 가산으로 선형 예측 매개변수 벡터를 생성하는 단계를 더 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 역양자화 방법.
  26. 제18항에 있어서,
    상기 다수의 예측 스킴들은 이동 평균 예측 및 자기회귀 예측을 포함하며, 그리고
    상기 예측 벡터를 재구성하는 단계는 상기 프레임 분류 정보에 의존하여 이동 평균 예측을 통해 상기 회복된 예측 오차 벡터를 처리하거나 또는 자기회귀 예 측을 통해 상기 생성된 매개변수 벡터를 처리하는 단계를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 역양자화 방법.
  27. 제26항에 있어서,
    상기 예측 벡터를 재구성하는 단계는,
    상기 사운드 신호 프레임이 정적인 유성음임을 상기 프레임 분류 정보가 표시할 경우 자기회귀 예측을 통해 상기 생성된 매개변수 벡터를 처리하는 단계; 및
    상기 사운드 신호 프레임이 정적인 유성음이 아님을 상기 프레임 분류 정보가 표시할 경우 이동 평균 예측을 통해 상기 회복된 예측 오차를 처리하는 단계를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 역양자화 방법.
  28. 가변 비트율 사운드 신호 부호화에서 선형 예측 매개변수들을 양자화하는 장치에 있어서,
    입력 선형 예측 매개변수 벡터를 수신하는 수단;
    상기 입력 선형 예측 매개변수 벡터에 대응하는 사운드 신호 프레임을 분류하는 수단;
    예측 벡터를 계산하는 수단;
    상기 입력 선형 예측 매개변수 벡터로부터 상기 계산된 예측 벡터를 제거하는 수단으로서, 상기 계산된 예측 벡터의 제거로 예측 오차 벡터를 생성하는 수단;
    상기 예측 오차 벡터를 스케일링하는 수단; 및
    상기 스케일링된 예측 오차 벡터를 양자화하는 수단을 포함하며,
    상기 예측 벡터를 계산하는 수단은 상기 사운드 신호 프레임의 분류와 관련하여 다수의 예측 스킴들 중 하나의 예측 스킴을 선택하는 수단, 및 상기 선택된 예측 스킴에 따라 상기 예측 벡터를 계산하는 수단을 포함하고, 그리고
    상기 예측 오차 벡터를 스케일링하는 수단은 상기 선택된 예측 스킴과 관련하여 다수의 스케일링 스킴들 중 적어도 하나의 스케일링 스킴을 선택하는 수단, 및 상기 선택된 스케일링 스킴에 따라 상기 예측 오차 벡터를 스케일링하는 수단을 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 장치.
  29. 가변 비트율 사운드 신호 부호화에서 선형 예측 매개변수들을 양자화하는 장치에 있어서,
    입력 선형 예측 매개변수 벡터를 수신하는 입력;
    상기 입력 선형 예측 매개변수 벡터에 대응하는 사운드 신호 프레임의 분류기;
    예측 벡터의 계산기;
    상기 입력 선형 예측 매개변수 벡터로부터 상기 계산된 예측 벡터를 제거하는 감산기로서, 상기 계산된 예측 벡터의 제거로 예측 오차 벡터를 생성하는 감산기;
    상기 예측 오차 벡터가 공급되는 스케일링 유닛으로서, 상기 예측 오차 벡터를 스케일링하는 스케일링 유닛; 및
    스케일링된 예측 오차 벡터의 양자화기를 포함하며,
    상기 예측 벡터 계산기는 상기 사운드 신호 프레임의 분류와 관련하여 다수의 예측 스킴들 중 하나의 예측 스킴을 선택하는 선택기로서, 상기 선택된 예측 스킴에 따라 상기 예측 벡터를 계산하는 선택기를 포함하고, 그리고
    상기 스케일링 유닛은 상기 선택된 예측 스킴과 관련하여 다수의 스케일링 스킴들 중 적어도 하나의 스케일링 스킴을 선택하는 선택기로서, 상기 선택된 스케일링 스킴에 따라 상기 예측 오차 벡터를 스케일링하는 선택기를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 장치.
  30. 제29항에 있어서,
    상기 선택된 예측 스킴을 통해 상기 예측 오차 벡터를 처리하기 위해 상기 양자화기에 상기 예측 오차 벡터가 공급되는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 장치.
  31. 제29항에 있어서,
    상기 다수의 예측 스킴들은 이동 평균 예측 및 자기회귀 예측을 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 장치.
  32. 제29항에 있어서,
    상기 선형 예측 매개변수들의 양자화 장치는,
    평균 선형 예측 매개변수들의 벡터를 생성하는 수단; 및
    상기 입력 선형 예측 매개변수 벡터로부터 평균 선형 예측 매개변수들의 벡터를 제거하는 감산기로서, 상기 평균 선형 예측 매개변수들의 벡터의 제거로 평균 제거된 입력 선형 예측 매개변수 벡터를 생성하는 감산기를 더 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 장치.
  33. 제29항에 있어서,
    상기 사운드 신호 프레임이 정적인 유성음 프레임이라고 상기 분류기가 결정할 경우, 상기 예측 벡터 계산기는 상기 예측 오차 벡터에 자기회귀 예측을 적용하는 자기회귀 예측기를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 장치.
  34. 제29항에 있어서,
    상기 사운드 신호 프레임이 정적인 유성음 프레임이 아니라고 상기 분류기가 결정할 경우, 상기 예측 벡터 계산기는 상기 예측 오차 벡터에 이동 평균 예측을 적용하는 이동 평균 예측기를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 장치.
  35. 제33항에 있어서,
    상기 스케일링 유닛은 1보다 큰 스케일링 인자를 상기 예측 오차 벡터에 적 용하는 승산기를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 장치.
  36. 제29항에 있어서,
    상기 양자화기는 2-단 벡터 양자화기를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 장치.
  37. 제36항에 있어서,
    상기 2-단 벡터 양자화기는 분할 벡터 양자화를 사용하는 2개의 단들을 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 장치.
  38. 제31항에 있어서,
    상기 양자화기는 제1단 및 제2단을 포함하는 2-단 벡터 양자화기를 포함하며, 그리고
    상기 2-단 벡터 양자화기는 이동 평균 예측 및 자기회귀 예측 양자 모두에 대해 동일한 제1단 양자화 표들을 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 장치.
  39. 제36항에 있어서,
    상기 2-단 벡터 양자화기는,
    상기 예측 오차 벡터가 공급되는 제1단 벡터 양자화기로서, 상기 예측 오차 벡터의 공급으로 상기 예측 오차 벡터를 양자화하고 제1단의 양자화된 예측 오차 벡터를 생성하는 제1단 벡터 양자화기;
    상기 예측 오차 벡터로부터 상기 제1단의 양자화된 예측 오차 벡터를 제거하는 감산기로서, 상기 제1단의 양자화된 예측 오차 벡터의 제거로 제2단 예측 오차 벡터를 생성하는 감산기;
    상기 제2단 예측 오차 벡터가 공급되는 제2단 벡터 양자화기로서, 상기 제2단 예측 오차 벡터의 공급으로 상기 제2단 예측 오차 벡터를 양자화하고 제2단의 양자화된 예측 오차 벡터를 생성하는 제2단 벡터 양자화기; 및
    상기 제1단 및 상기 제2단의 양자화된 예측 오차 벡터들을 가산함으로써 양자화된 예측 오차 벡터를 생성하는 가산기를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 장치.
  40. 제39항에 있어서,
    상기 제2단 벡터 양자화기는,
    이동 평균 예측을 사용하여 상기 제2단 예측 오차 벡터를 양자화하는 이동 평균 제2단 벡터 양자화기; 및
    자기회귀 예측을 사용하여 상기 제2단 예측 오차 벡터를 양자화하는 자기회귀 제2단 벡터 양자화기를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 장치.
  41. 삭제
  42. 제39항에 있어서,
    상기 사운드 신호 프레임이 정적인 유성음 프레임이라고 상기 분류기가 결정할 경우, 상기 예측 벡터 계산기는,
    (a) 상기 제1단 및 제2단의 양자화된 예측 오차 벡터들을 가산함으로써 생성되는 양자화된 예측 오차 벡터 및 (b) 상기 계산된 예측 벡터를 가산하는 가산기로서, 상기 제1단 및 제2단의 양자화된 예측 오차 벡터들을 가산함으로써 생성되는 양자화된 예측 오차 벡터 및 상기 계산된 예측 벡터의 가산으로 양자화된 입력 벡터를 생성하는 가산기; 및
    상기 양자화된 입력 벡터를 처리하는 자기회귀 예측기를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 장치.
  43. 제30항에 있어서,
    상기 다수의 예측 스킴들이 이동 평균 예측 및 자기회귀 예측을 포함하며,
    상기 양자화기는 제1단 코드북을 포함하는 2-단 벡터 양자화기를 포함하고,
    상기 제1단 코드북 자체가,
    이동 평균 예측을 적용할 경우에 유용하고 표의 시작 부분에 배치되는 제1그룹의 벡터들;
    이동 평균 예측 및 자기회귀 예측 중 어느 하나를 적용할 경우에 유용하고 상기 표에서 상기 제1그룹의 벡터들 및 제3그룹의 벡터들 중간에 배치되는 제2그룹의 벡터들; 및
    자기회귀 예측을 적용할 경우에 유용하고 상기 표의 끝 부분에 배치되는 상기 제3그룹의 벡터들을 순차적으로 포함하며, 그리고
    상기 예측 오차 벡터 처리 수단은,
    상기 선택된 예측 스킴이 이동 평균 예측일 경우 상기 표의 제1그룹 및 제2그룹의 벡터들을 통해 상기 예측 오차 벡터를 처리하는 수단; 및
    상기 선택된 예측 스킴이 자기회귀 예측일 경우 상기 제2그룹 및 제3그룹의 벡터들을 통해 상기 예측 오차 벡터를 처리하는 수단을 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 장치.
  44. 제43항에 있어서,
    상기 선형 예측 매개변수들의 양자화 장치는,
    AMR-WB 표준과의 상호 운영성을 보장하기 위해 AMR-WB 제1단 코드북 내의 제 1단 벡터의 원래 위치 및 상기 제1단 코드북의 표 내의 제1단 벡터의 위치 간의 매핑을 확립하는 매핑 표를 더 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 장치.
  45. 제31항에 있어서,
    상기 예측 벡터 계산기는 상기 예측 오차 벡터에 자기회귀 예측을 적용하는 자기회귀 예측기 및 상기 예측 오차 벡터에 이동 평균 예측을 적용하는 이동 평균 예측기를 포함하며, 그리고
    상기 자기회귀 예측기 및 이동 평균 예측기는 이동 평균 예측 또는 자기회귀 예측이 다음 프레임에 사용될 수 있다고 가정하여 매 사운드 신호 프레임마다 업데이트되는 대응하는 메모리들을 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 양자화 장치.
  46. 가변 비트율 사운드 신호 복호화에서 선형 예측 매개변수들을 역양자화하는 장치에 있어서,
    적어도 하나의 양자화 인덱스를 수신하는 수단;
    상기 적어도 하나의 양자화 인덱스에 대응하는 사운드 신호 프레임의 분류에 관한 정보를 수신하는 수단;
    상기 적어도 하나의 인덱스를 상기 적어도 하나의 양자화 표에 적용함으로써 예측 오차 벡터를 회복하는 수단;
    예측 벡터를 재구성하는 수단; 및
    상기 회복된 예측 오차 벡터 및 상기 재구성된 예측 벡터에 응답하여 선형 예측 매개변수 벡터를 생성하는 수단을 포함하며,
    상기 예측 벡터 재구성 수단은 프레임 분류 정보에 의존하여 다수의 예측 스킴들 중 하나의 예측 스킴을 통해 상기 회복된 예측 오차 벡터를 처리하는 수단을 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 역양자화 장치.
  47. 가변 비트율 사운드 신호 복호화에서 선형 예측 매개변수들을 역양자화하는 장치에 있어서,
    적어도 하나의 양자화 인덱스를 수신하는 수단;
    상기 적어도 하나의 양자화 인덱스에 대응하는 사운드 신호 프레임의 분류에 관한 정보를 수신하는 수단;
    상기 적어도 하나의 양자화 인덱스가 공급되는 적어도 하나의 양자화 표로서, 상기 적어도 하나의 양자화 인덱스의 공급으로 예측 오차 벡터를 회복하는 적어도 하나의 양자화 표;
    예측 벡터 재구성 유닛; 및
    상기 회복된 예측 오차 벡터 및 상기 재구성된 예측 벡터에 응답하여 선형 예측 매개변수 벡터를 생성하는 생성기를 포함하며,
    상기 예측 벡터 재구성 유닛은 상기 회복된 예측 오차 벡터가 공급되는 적어도 하나의 예측기로서, 상기 프레임 분류 정보에 의존하여 다수의 예측 스킴들 중 하나의 예측 스킴을 통해 상기 회복된 예측 오차 벡터를 처리하는 적어도 하나의 예측기를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 역양자화 장치.
  48. 제47항에 있어서,
    상기 적어도 하나의 양자화 표는 상기 하나의 예측 스킴을 사용하는 양자화 표로서, 상기 적어도 하나의 인덱스 및 상기 분류 정보가 공급되는 양자화 표를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 역양자화 장치.
  49. 제47항에 있어서,
    상기 양자화 인덱스 수신 수단은 제1단 양자화 인덱스 및 제2단 양자화 인덱스를 수신하는 2개의 입력들을 포함하며,
    상기 적어도 하나의 양자화 표는 상기 제1단 양자화 인덱스가 공급되는 제1단 양자화 표로서, 상기 제1단 양자화 인덱스의 공급으로 제1단 예측 오차 벡터를 생성하는 제1단 양자화 표, 및 상기 제2단 양자화 인덱스가 공급되는 제2단 양자화 표로서, 상기 제2단 양자화 인덱스의 공급으로 상기 제2단 예측 오차 벡터를 생성하는 제2단 양자화 표를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 역양자화 장치.
  50. 제49항에 있어서,
    상기 다수의 예측 스킴들은 이동 평균 예측 및 자기회귀 예측을 포함하고,
    상기 제2단 양자화 표는 이동 평균 예측 표 및 자기회귀 예측 표를 포함하며, 그리고
    상기 선형 예측 매개변수들의 역양자화 장치는,
    상기 제2단 양자화 표에 사운드 신호 프레임 분류를 적용하는 수단으로서, 상기 제2단 양자화 표에 대한 사운드 신호 프레임 분류의 적용으로 수신된 프레임 분류 정보에 의존하여 상기 이동 평균 예측 표나 또는 상기 자기회귀 예측 표를 통해 상기 제2단 양자화 인덱스를 처리하는 수단을 더 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 역양자화 장치.
  51. 제49항에 있어서,
    상기 선형 예측 매개변수들의 역양자화 장치는,
    상기 제1단 예측 오차 벡터 및 상기 제2단 예측 오차 벡터를 가산하는 가산기로서, 상기 제1단 예측 오차 벡터 및 상기 제2단 예측 오차 벡터의 가산으로 상기 회복된 예측 오차 벡터를 생성하는 가산기를 더 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 역양자화 장치.
  52. 제51항에 있어서,
    상기 선형 예측 매개변수들의 역양자화 장치는,
    수신된 프레임 분류 정보의 함수에 따라 역 스케일링 동작을 상기 재구성된 예측 벡터에 관해 수행하는 수단을 더 포함하는 것을 특징으로 하는 선형 예측 매 개변수들의 역양자화 장치.
  53. 제47항에 있어서,
    상기 선형 예측 매개변수 벡터를 생성하는 생성기는 상기 회복된 예측 오차 벡터 및 상기 재구성된 예측 벡터를 가산하는 가산기로서, 상기 회복된 예측 오차 벡터 및 상기 재구성된 예측 벡터의 가산으로 선형 예측 매개변수 벡터를 생성하는 가산기를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 역양자화 장치.
  54. 제53항에 있어서,
    상기 선형 예측 매개변수들의 역양자화 장치는,
    상기 회복된 예측 오차 벡터 및 상기 재구성된 예측 벡터에 평균 선형 예측 매개변수들의 벡터를 가산하는 수단으로서, 상기 회복된 예측 오차 벡터 및 상기 재구성된 예측 벡터에 대한 평균 선형 예측 매개변수들의 벡터의 가산으로 상기 선형 예측 매개변수 벡터를 생성하는 수단을 더 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 역양자화 장치.
  55. 제47항에 있어서,
    상기 다수의 예측 스킴들이 이동 평균 예측 및 자기회귀 예측을 포함하며, 그리고
    상기 예측 벡터 재구성 유닛은 상기 프레임 분류 정보에 의존하여 이동 평균 예측을 통해 상기 회복된 예측 오차 벡터를 처리하거나 또는 자기회귀 예측을 통해 상기 생성된 매개변수 벡터를 처리하는 이동 평균 예측기 및 자기회귀 예측기를 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 역양자화 장치.
  56. 제55항에 있어서,
    상기 예측 벡터 재구성 유닛은,
    상기 사운드 신호 프레임이 정적인 유성음이라고 상기 프레임 분류 정보가 표시할 경우 상기 자기회귀 예측기를 통해 상기 생성된 매개변수 벡터를 처리하는 수단; 및
    상기 사운드 신호 프레임이 정적인 유성음이 아니라고 상기 프레임 분류 정보가 표시할 경우 상기 이동 평균 예측기를 통해 상기 회복된 예측 오차 벡터를 처리하는 수단을 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 역양자화 장치.
  57. 제55항에 있어서,
    상기 적어도 하나의 예측기는 상기 예측 오차 벡터에 자기회귀 예측을 적용하는 자기회귀 예측기 및 상기 예측 오차 벡터에 이동 평균 예측을 적용하는 이동 평균 예측기를 포함하며, 그리고
    상기 자기회귀 예측기 및 이동 평균 예측기는 이동 평균 예측 또는 자기회귀 예측이 다음 프레임에 사용될 수 있다고 가정하여 매 사운드 프레임마다 업데이트 되는 대응하는 메모리들을 포함하는 것을 특징으로 하는 선형 예측 매개변수들의 역양자화 장치.
KR1020057011861A 2002-12-24 2003-12-18 가변 비트율 음성 부호화에서의 선형 예측 매개변수들의견실한 예측 벡터 양자화를 위한 방법 및 장치 KR100712056B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CA2,415,105 2002-12-24
CA002415105A CA2415105A1 (en) 2002-12-24 2002-12-24 A method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding

Publications (2)

Publication Number Publication Date
KR20050089071A KR20050089071A (ko) 2005-09-07
KR100712056B1 true KR100712056B1 (ko) 2007-05-02

Family

ID=32514130

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057011861A KR100712056B1 (ko) 2002-12-24 2003-12-18 가변 비트율 음성 부호화에서의 선형 예측 매개변수들의견실한 예측 벡터 양자화를 위한 방법 및 장치

Country Status (16)

Country Link
US (2) US7149683B2 (ko)
EP (1) EP1576585B1 (ko)
JP (1) JP4394578B2 (ko)
KR (1) KR100712056B1 (ko)
CN (1) CN100576319C (ko)
AT (1) ATE410771T1 (ko)
AU (1) AU2003294528A1 (ko)
BR (2) BR0317652A (ko)
CA (1) CA2415105A1 (ko)
DE (1) DE60324025D1 (ko)
HK (1) HK1082587A1 (ko)
MX (1) MXPA05006664A (ko)
MY (1) MY141174A (ko)
RU (1) RU2326450C2 (ko)
UA (1) UA83207C2 (ko)
WO (1) WO2004059618A1 (ko)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
CA2415105A1 (en) * 2002-12-24 2004-06-24 Voiceage Corporation A method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
JP5129115B2 (ja) * 2005-04-01 2013-01-23 クゥアルコム・インコーポレイテッド 高帯域バーストの抑制のためのシステム、方法、および装置
TWI324336B (en) * 2005-04-22 2010-05-01 Qualcomm Inc Method of signal processing and apparatus for gain factor smoothing
US9071344B2 (en) * 2005-08-22 2015-06-30 Qualcomm Incorporated Reverse link interference cancellation
US8743909B2 (en) * 2008-02-20 2014-06-03 Qualcomm Incorporated Frame termination
US8594252B2 (en) * 2005-08-22 2013-11-26 Qualcomm Incorporated Interference cancellation for wireless communications
US8630602B2 (en) * 2005-08-22 2014-01-14 Qualcomm Incorporated Pilot interference cancellation
US8611305B2 (en) * 2005-08-22 2013-12-17 Qualcomm Incorporated Interference cancellation for wireless communications
US7587314B2 (en) * 2005-08-29 2009-09-08 Nokia Corporation Single-codebook vector quantization for multiple-rate applications
KR100717401B1 (ko) * 2006-03-02 2007-05-11 삼성전자주식회사 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치
GB2436191B (en) * 2006-03-14 2008-06-25 Motorola Inc Communication Unit, Intergrated Circuit And Method Therefor
WO2007114290A1 (ja) * 2006-03-31 2007-10-11 Matsushita Electric Industrial Co., Ltd. ベクトル量子化装置、ベクトル逆量子化装置、ベクトル量子化方法及びベクトル逆量子化方法
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
KR101041895B1 (ko) * 2006-08-15 2011-06-16 브로드콤 코포레이션 패킷 손실 후 디코딩된 오디오 신호의 시간 워핑
EP2115742B1 (en) * 2007-03-02 2012-09-12 Telefonaktiebolaget LM Ericsson (publ) Methods and arrangements in a telecommunications network
US8160872B2 (en) * 2007-04-05 2012-04-17 Texas Instruments Incorporated Method and apparatus for layered code-excited linear prediction speech utilizing linear prediction excitation corresponding to optimal gains
WO2009047911A1 (ja) * 2007-10-12 2009-04-16 Panasonic Corporation ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
CN101335004B (zh) * 2007-11-02 2010-04-21 华为技术有限公司 一种多级量化的方法及装置
US9408165B2 (en) * 2008-06-09 2016-08-02 Qualcomm Incorporated Increasing capacity in wireless communications
US9237515B2 (en) * 2008-08-01 2016-01-12 Qualcomm Incorporated Successive detection and cancellation for cell pilot detection
US9277487B2 (en) 2008-08-01 2016-03-01 Qualcomm Incorporated Cell detection with interference cancellation
JP5188913B2 (ja) * 2008-09-26 2013-04-24 株式会社エヌ・ティ・ティ・ドコモ 量子化装置、量子化方法、逆量子化装置、逆量子化方法、音声音響符号化装置および音声音響復号装置
US20100097955A1 (en) * 2008-10-16 2010-04-22 Qualcomm Incorporated Rate determination
GB2466669B (en) * 2009-01-06 2013-03-06 Skype Speech coding
GB2466670B (en) * 2009-01-06 2012-11-14 Skype Speech encoding
GB2466671B (en) * 2009-01-06 2013-03-27 Skype Speech encoding
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding
GB2466674B (en) 2009-01-06 2013-11-13 Skype Speech coding
GB2466675B (en) * 2009-01-06 2013-03-06 Skype Speech coding
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
WO2010092827A1 (ja) * 2009-02-13 2010-08-19 パナソニック株式会社 ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
US9160577B2 (en) 2009-04-30 2015-10-13 Qualcomm Incorporated Hybrid SAIC receiver
US8787509B2 (en) * 2009-06-04 2014-07-22 Qualcomm Incorporated Iterative interference cancellation receiver
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
US8831149B2 (en) * 2009-09-03 2014-09-09 Qualcomm Incorporated Symbol estimation methods and apparatuses
US8452606B2 (en) 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
KR101376676B1 (ko) 2009-11-27 2014-03-20 퀄컴 인코포레이티드 무선 통신들에서의 용량 증가
EP2505017B1 (en) 2009-11-27 2018-10-31 Qualcomm Incorporated Increasing capacity in wireless communications
CN105374362B (zh) * 2010-01-08 2019-05-10 日本电信电话株式会社 编码方法、解码方法、编码装置、解码装置以及记录介质
DE102010010736A1 (de) * 2010-03-09 2011-09-15 Arnold & Richter Cine Technik Gmbh & Co. Betriebs Kg Verfahren zur Kompression von Bilddaten
EP2372704A1 (en) * 2010-03-11 2011-10-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Signal processor and method for processing a signal
GB2486663A (en) * 2010-12-21 2012-06-27 Sony Comp Entertainment Europe Audio data generation using parametric description of features of sounds
AU2012246799B2 (en) * 2011-04-21 2016-03-03 Samsung Electronics Co., Ltd. Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium
CN105336337B (zh) * 2011-04-21 2019-06-25 三星电子株式会社 针对语音信号或音频信号的量化方法以及解码方法和设备
CN103477388A (zh) * 2011-10-28 2013-12-25 松下电器产业株式会社 声音信号混合解码器、声音信号混合编码器、声音信号解码方法及声音信号编码方法
DK2831757T3 (da) * 2012-03-29 2019-08-19 Ericsson Telefon Ab L M Vektorkvantiserer
CN105551497B (zh) 2013-01-15 2019-03-19 华为技术有限公司 编码方法、解码方法、编码装置和解码装置
CN104112451B (zh) * 2013-04-18 2017-07-28 华为技术有限公司 一种选择编码模式的方法及装置
CN107316647B (zh) 2013-07-04 2021-02-09 超清编解码有限公司 频域包络的矢量量化方法和装置
US10320413B2 (en) * 2013-11-07 2019-06-11 Telefonaktiebolaget Lm Ericsson (Publ) Methods and devices for vector segmentation for coding
EP2916319A1 (en) 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
KR102595478B1 (ko) * 2016-01-03 2023-10-27 아우로 테크놀로지스 엔브이 예측자 모델을 이용한 신호 인코더, 디코더 및 방법
CN105811995A (zh) * 2016-03-04 2016-07-27 广东工业大学 一种减少量化噪声的方法
US10002086B1 (en) * 2016-12-20 2018-06-19 Sandisk Technologies Llc Multi-channel memory operations based on bit error rates
US11343301B2 (en) * 2017-11-30 2022-05-24 Goto Group, Inc. Managing jitter buffer length for improved audio quality

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970019119A (ko) * 1995-09-25 1997-04-30 김광호 선형예측부호화계수의 부호화 및 복호화방법
EP1035538A2 (en) * 1999-03-12 2000-09-13 Texas Instruments Incorporated Multimode quantizing of the prediction residual in a speech coder
KR20030062361A (ko) * 2000-11-30 2003-07-23 마츠시타 덴끼 산교 가부시키가이샤 Lpc 파라미터의 벡터 양자화 장치, lpc 파라미터복호화 장치, lpc 계수의 복호화 장치, 기록 매체,음성 부호화 장치, 음성 복호화 장치, 음성 신호 송신장치, 및 음성 신호 수신 장치

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0286231A (ja) * 1988-09-21 1990-03-27 Matsushita Electric Ind Co Ltd 音声予測符号化装置
JP3254696B2 (ja) * 1991-09-25 2002-02-12 三菱電機株式会社 音声符号化装置、音声復号化装置および音源生成方法
US5614996A (en) * 1994-03-03 1997-03-25 Kyocera Corporation Toner storage unit, residual toner collect unit, toner container with these units and image forming apparatus with such toner container
US5848384A (en) * 1994-08-18 1998-12-08 British Telecommunications Public Limited Company Analysis of audio quality using speech recognition and synthesis
JPH0863198A (ja) * 1994-08-22 1996-03-08 Nec Corp ベクトル量子化器
US5774839A (en) * 1995-09-29 1998-06-30 Rockwell International Corporation Delayed decision switched prediction multi-stage LSF vector quantization
JP2891193B2 (ja) * 1996-08-16 1999-05-17 日本電気株式会社 広帯域音声スペクトル係数量子化装置
JP3067676B2 (ja) * 1997-02-13 2000-07-17 日本電気株式会社 Lspの予測符号化装置及び方法
US6064954A (en) * 1997-04-03 2000-05-16 International Business Machines Corp. Digital audio signal coding
TW408298B (en) * 1997-08-28 2000-10-11 Texas Instruments Inc Improved method for switched-predictive quantization
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
FI973873A (fi) * 1997-10-02 1999-04-03 Nokia Mobile Phones Ltd Puhekoodaus
CN100349208C (zh) * 1997-10-22 2007-11-14 松下电器产业株式会社 扩散矢量生成方法及扩散矢量生成装置
DE69735262D1 (de) * 1997-11-24 2006-04-20 St Microelectronics Srl MPEG-2 Dekodierung mit reduziertem Speicherbedarf durch Rekomprimierung mit adaptiver baumstrukturierter Vektorquantisierung
US6141640A (en) * 1998-02-20 2000-10-31 General Electric Company Multistage positive product vector quantization for line spectral frequencies in low rate speech coding
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US6260010B1 (en) * 1998-08-24 2001-07-10 Conexant Systems, Inc. Speech encoder using gain normalization that combines open and closed loop gains
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
JP3578933B2 (ja) * 1999-02-17 2004-10-20 日本電信電話株式会社 重み符号帳の作成方法及び符号帳設計時における学習時のma予測係数の初期値の設定方法並びに音響信号の符号化方法及びその復号方法並びに符号化プログラムが記憶されたコンピュータに読み取り可能な記憶媒体及び復号プログラムが記憶されたコンピュータに読み取り可能な記憶媒体
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US7423983B1 (en) * 1999-09-20 2008-09-09 Broadcom Corporation Voice and data exchange over a packet based network
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6505222B1 (en) * 1999-10-29 2003-01-07 International Business Machines Corporation Systems methods and computer program products for controlling undesirable bias in an equalizer
KR100324204B1 (ko) * 1999-12-24 2002-02-16 오길록 예측분할벡터양자화 및 예측분할행렬양자화 방식에 의한선스펙트럼쌍 양자화기의 고속탐색방법
US7010482B2 (en) * 2000-03-17 2006-03-07 The Regents Of The University Of California REW parametric vector quantization and dual-predictive SEW vector quantization for waveform interpolative coding
US6785805B1 (en) * 2000-08-08 2004-08-31 Vi Technology, Inc. Network-based configuration method for systems integration in test, measurement, and automation environments
JP3916934B2 (ja) * 2000-11-27 2007-05-23 日本電信電話株式会社 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置
KR20020075592A (ko) * 2001-03-26 2002-10-05 한국전자통신연구원 광대역 음성 부호화기용 lsf 양자화기
US7042841B2 (en) * 2001-07-16 2006-05-09 International Business Machines Corporation Controlling network congestion using a biased packet discard policy for congestion control and encoded session packets: methods, systems, and program products
EP1428206B1 (en) * 2001-08-17 2007-09-12 Broadcom Corporation Bit error concealment methods for speech coding
CA2415105A1 (en) * 2002-12-24 2004-06-24 Voiceage Corporation A method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970019119A (ko) * 1995-09-25 1997-04-30 김광호 선형예측부호화계수의 부호화 및 복호화방법
EP1035538A2 (en) * 1999-03-12 2000-09-13 Texas Instruments Incorporated Multimode quantizing of the prediction residual in a speech coder
KR20030062361A (ko) * 2000-11-30 2003-07-23 마츠시타 덴끼 산교 가부시키가이샤 Lpc 파라미터의 벡터 양자화 장치, lpc 파라미터복호화 장치, lpc 계수의 복호화 장치, 기록 매체,음성 부호화 장치, 음성 복호화 장치, 음성 신호 송신장치, 및 음성 신호 수신 장치

Also Published As

Publication number Publication date
AU2003294528A1 (en) 2004-07-22
EP1576585B1 (en) 2008-10-08
US20050261897A1 (en) 2005-11-24
CN1739142A (zh) 2006-02-22
CN100576319C (zh) 2009-12-30
UA83207C2 (ru) 2008-06-25
RU2005123381A (ru) 2006-01-20
US7502734B2 (en) 2009-03-10
MXPA05006664A (es) 2005-08-16
US20070112564A1 (en) 2007-05-17
EP1576585A1 (en) 2005-09-21
BR0317652A (pt) 2005-12-06
HK1082587A1 (en) 2006-06-09
MY141174A (en) 2010-03-31
BRPI0317652B1 (pt) 2018-05-22
ATE410771T1 (de) 2008-10-15
JP4394578B2 (ja) 2010-01-06
US7149683B2 (en) 2006-12-12
RU2326450C2 (ru) 2008-06-10
JP2006510947A (ja) 2006-03-30
WO2004059618A1 (en) 2004-07-15
KR20050089071A (ko) 2005-09-07
DE60324025D1 (de) 2008-11-20
CA2415105A1 (en) 2004-06-24

Similar Documents

Publication Publication Date Title
KR100712056B1 (ko) 가변 비트율 음성 부호화에서의 선형 예측 매개변수들의견실한 예측 벡터 양자화를 위한 방법 및 장치
US6134518A (en) Digital audio signal coding using a CELP coder and a transform coder
USRE49363E1 (en) Variable bit rate LPC filter quantizing and inverse quantizing device and method
KR101246991B1 (ko) 오디오 신호 처리 방법
RU2696292C2 (ru) Аудиокодер и декодер
JP4731775B2 (ja) スーパーフレーム構造のlpcハーモニックボコーダ
KR101175651B1 (ko) 다중 압축 부호화 방법 및 장치
ES2302754T3 (es) Procedimiento y aparato para codificacion de habla sorda.
JP2010020346A (ja) 音声信号および音楽信号を符号化する方法
JP2003512654A (ja) 音声の可変レートコーディングのための方法およびその装置
US8078457B2 (en) Method for adapting for an interoperability between short-term correlation models of digital signals
KR20230129581A (ko) 음성 정보를 갖는 개선된 프레임 손실 보정
Salah-Eddine et al. Robust coding of wideband speech immittance spectral frequencies
CA2511516C (en) Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
Amro Higher Compression Rates For ITU-T G. 729
Amro Compression Rate Enhancement for Linear Prediction Codes using Lossless Compression

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment
FPAY Annual fee payment
FPAY Annual fee payment

Payment date: 20160318

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20170317

Year of fee payment: 11