KR19990023932A - 스위치식 예측 양자화 방법 - Google Patents

스위치식 예측 양자화 방법 Download PDF

Info

Publication number
KR19990023932A
KR19990023932A KR1019980034832A KR19980034832A KR19990023932A KR 19990023932 A KR19990023932 A KR 19990023932A KR 1019980034832 A KR1019980034832 A KR 1019980034832A KR 19980034832 A KR19980034832 A KR 19980034832A KR 19990023932 A KR19990023932 A KR 19990023932A
Authority
KR
South Korea
Prior art keywords
quantization
value
vector
input
prediction
Prior art date
Application number
KR1019980034832A
Other languages
English (en)
Other versions
KR100889399B1 (ko
Inventor
알랜 브이. 맥크리
Original Assignee
윌리엄 비. 켐플러
텍사스 인스트루먼츠 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윌리엄 비. 켐플러, 텍사스 인스트루먼츠 인코포레이티드 filed Critical 윌리엄 비. 켐플러
Publication of KR19990023932A publication Critical patent/KR19990023932A/ko
Application granted granted Critical
Publication of KR100889399B1 publication Critical patent/KR100889399B1/ko

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M1/00Analogue/digital conversion; Digital/analogue conversion
    • H03M1/12Analogue/digital converters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Abstract

스피치 코더(speech coder)의 LPC 계수를 양자화하는 신규의 방법은 스위치예측 다단 벡터 양자화(improved form of switched predictive multi-stage vector quantization)의 개선된 형태를 포함하고 있다. 스위치 예측 양자화(switch predictive quantization)는 MSVQ 양자화기 내에 적어도 한쌍의 코드북 세트 및 제1 및 제2 예측 매트릭스(24a,24b)를 포함하되, 제1 예측 매트릭스 1은 코드북 세트 1과 사용되고 예측 매트릭스 2는 코드북 세트 2와 사용되며, 상기 인코더는 어느 예측 매트릭스/코드북 세트가 검출기(35)에서 최저의 양자화 에러를 발생시키는지를 판정하며 제어부(29)는 스피치 코더로부터의 최저 에러를 갖는 지수들(indices)을 게이트 제어한다.

Description

스위치식 예측 양자화 방법
본 특허 문헌의 일부 개시 내용은 저작권의 보호를 받는 내용을 포함하고 있다. 저작권 소유자는 미국 특허 및 상표청 특허 파일 또는 기록에 나타나 있는 특허 문헌 또는 특허의 개시 내용의 팩시밀리 재생에 이의를 제기하지 않으며, 상기외에는 모든 저작권은 보유된다.
본 출원은 Wilfred P.LeBlanc 등에 의해 1997년 1월 6일 출원된 Multistage Vector Quantization with Efficient Codebook Search라는 명칭의 동시 계류중인 가출원 제60/035,764 호에 관한 것이다.
본 출원은 McCree에 의해 1996년 5월 20일 출원된 Mixed Excitation Linear Prediction with Fractional Pitch라는 명칭의 동시 계류중인 출원 제08/650,585호에도 관련되어 있으며, 이 출원은 본 명세서에서 참조적으로 설명된다.
본 출원은 Alan McCree에 의해 본 출원과 동시에 출원된 Quantization of Linear Prediction Coefficients Using Perceptual Weighting라는 명칭의 동시 계류중인 가출원과도 관련되어 있으며, 이 출원은 본 명세서에서 참조적으로 설명된다.
본 발명은 스위치 예측 양자화(switch-predictive quantization)에 관한 것이다.
신규의 2.4kb/s 연방 표준 MELP(Federal Standard Mixed Excitation Linear Prediction) 코더와 같은 많은 스피치 코더(A 2.4 kbits/s MELP Coder Candidate for the New U.S.Federal Standard, Proc.ICASSP-96, pp.200-203, May 1996 McCree 등)는 스피치 신호의 스펙트럼을 나타내는데 여러 형태의 LPC(Linear Predictive Coding)를 사용한다. MELP 코더는 96년 5월 20일 출원된 Mixed Excitation Linear Prediction with fractional Pitch라는 명칭의 출원인의 계류중인 출원 제 08/650,585호에 설명되어 있으며 본 명세서에서는 참조적으로 설명된다. 도 1은 MELP 코더를 예시하고 있다. MELP 코더는 주기적인 임펄스 열이나 또는 전체폴 LPC 필터(all-pole LPC 필터) 상에서 10차(10th order)를 나타내는 화이트 노티스(white notice)중 어느 하나를 갖는 통상적인 LPC 보코더(vocoder)에 기초한 것이다. 개량된 버전에서 신시사이저(synthesizer)는 혼합 펄스(mixed pulse)와 잡음 여기 주기 또는 비주기적 펄스(noise excitation periodic or aperiodic pulses)의 부가된 능력과, 적합한 스펙트럼 향상과 도 1에 나타낸 것과 같은 펄스 분산 필터(pulse dispersion filter)를 가지고 있다. LPC 계수의 효율적인 양자화는 LPC의 정밀도를 유지하는 것이 처리된 스피치 특성에 중요한 영향을 미치기 때문에 이들 코더에서는 중요한 문제이지만, LPC 양자화기의 비트율은 스피치 코더의 전체적인 비트율이 작게 유지되도록 하기 위해서는 낮아야만한다. 새로운 연방 표준에 대한 MELP 코더는 LSF(line spectral frequencies)에 대해 25 비트 다단 벡터 양자화기(MSVQ)를 사용한다.
양자화는 입력값을 몇몇 충실도 판정기준(fidelity criterion)에 따라 이산값(discrete values)으로 변환하는 처리이다. 양자화의 전형적인 예는 연속적인 진폭 신호를 이산 진폭값으로 변환하는 것이다. 신호가 먼저 샘플링된 후 양자화된다.
양자화를 위해 입력 신호의 예상된 값의 범위는 일련의 부범위(series of subranges)로 나뉘어지며, 각각의 부범위는 연관된 양자화 레벨(associated quantization level)을 갖는다. 예를 들어 8비트값으로의 양자화의 경우에는 256레벨이 있을 수 있다. 특정 부범위 내에 있는 입력 신호의 샘플값은 연관된 양자화 레벨로 변환된다. 예를 들어 8비트 양자화의 경우 입력 신호의 샘플은 각각의 레벨이 8비트 값으로 나타내지는 256레벨중 한 레벨로 변환될 것이다.
벡터 양자화는 샘플들 간의 선형 및 비선형 상관성과 확률적 분포(probability distribution)의 형상에 기초하는 양자화의 방법이다. 특히 벡터 양자화는 룩업 처리(lookup process)이고, 이 경우 룩업 테이블은 코드북이라고 한다. 코드북은 각각의 양자화 레벨을 나타내고 있으며, 각각의 레벨은 연관된 코드 벡터(code-vector)를 가지고 있다. 벡터 양자화 처리는 입력 벡터와 코드 벡터를 비교하고 최저 왜곡을 고려하여 최고의 코드 벡터(best code-vector)를 판정한다. x가 입력 벡터인 경우 왜곡값(distortion values)의 비교는 수학식 1로 주어지며, 이 경우 모든 j는 k와 동일하지 않다. 코드북은 y(j)로 표현되며 여기서 y(j)는 j번째 코드벡터이고, j는 0 ≤ j ≤ L의 관계에 있으며, L은 코드북의 레벨 수이다.
다단 벡터 양자화(MSVQ)는 벡터 양자화 유형이다. 이러한 처리는 여러 양자화된 벡터를 더함으로써 대표 양자화 벡터(central quantized vector)(출력 벡터)를 얻는다. 출력 벡터는 때때로 재구성된(reconstructed) 벡터라고 한다. 재구성에 사용된 각각의 벡터는 상이한 코드북으로된 것이며, 각각의 코드북은 양자화 처리의 단계(stage)에 대응한다. 각각의 코드북은 서치단을 위해 특별히 설계된 것이다. 입력 벡터는 제1 코드북에 의해 양자화되고, 결과적인 에러 벡터는 제2 코드북 등에 의해 양자화된다. 재구성에 이용된 벡터 세트는 수학식 2로 표현될 수 있다.
여기서, S는 단의 수이고, ys는 s번째단의 코드북이다. 예를 들어 x = (2,3,4)와 같은 3차원 입력 벡터인 경우 2단 서치를 위한 재구성 벡터는 y0= (1,2,3)이고 y1= (1,1,1)일 수 있다(완전한 양자화이지만 항상 그러한 것은 아님).
다단 벡터 양자화 동안 코드북은 M-알고리즘과 같은 공지된 부최적 트리 서치 알고리즘(sub-optimal tree search algorithm)을 이용하여 서치될 수도 있다. 각각의 단에서 베스트 코드 벡터의 M-베스트 수는 한 단으로부터 다음단으로 전달된다. 베스트 코드 벡터는 최저 왜곡을 고려하여 선택된다. 서치는 하나의 베스트 코드 벡터만이 결정되는 경우인 최종단까지 계속된다.
예측 양자화에서 현재 프레임의 양자화를 위한 타겟 벡터는 평균 제거 입력벡터(mean-removed input vector)에서 예측값을 뺀것이다. 예측된 값은 기지의 예측 매트릭스로 승산된 이전의 양자화 벡터이다. 스위치 예측에 있어서는 하나 이상의 가능한 예측 매트릭스가 있고 베스트 예측 매트릭스가 각각의 프레임에 대해 선택된다. Kluwer Academic Publishers에서 1993년 간행된 Speech and Audio Coding for Wireless and Network Applications의 제31장 251-258 페이지에 기재된 S.Wang 등의 Product Code Vector Quantization of LPC Parameters 참조.
스위치 예측 벡터 양자화를 위한 개선된 방법을 제공하는 것이 바람직하다.
본 발명의 1실시예에 따르면 스위치 예측 양자화의 개선된 방법과 시스템이 제공되며, 이 경우 예측/코드북 세트가 스위치되어 타임 리던던시의 이점을 취할 수 있다.
이러한 본 발명의 특징은 첨부 도면을 참조한 본 발명의 다음의 상세한 설명으로부터 당업자에게는 명백해질 것 것이다.
도 1은 MELPC(Mixed Excitation Linear Prediction Coder)의 블록도.
도 2는 본 발명에 따른 스위치 예측 벡터 양자화 인코더의 블록도.
도 3은 본 발명에 따른 디코더의 블록도.
도 4는 본 발명의 또다른 실시예에 따른 가중 거리 측정(weighted distance measure)을 판정하기 위한 흐름도.
도면의 주요 부분에 대한 부호의 설명
20 : 스위치 예측 양자화기 22,25,31,70 : 가산기
23,46 : 변환기 26,45 : 승산기
27 : 다단 벡터 양자화기(MSVQ) 28 : 스위치
29 : 제어부 35 : 스퀘어러
37 : 게이트 40 : 디코더
2.4kb/s 연방 표준 MELP 코더에 이용되는 것과 같은 신규의 양자화 방법은 LPC 계수(IEEE Transactions on Speech and Audio Processing, Vol.1, No.4, 1993년 10월 4일 pp.373 - 385에 개재된 LeBlance 등의 Efficient Search and Design Procedures for Robust Multi-Stage VQ or LPC Parameters for 4kb/s Speech Coding 참조)의 LSF 변환(Line Spectral Frequency)의 다단 벡터 양자화(MSVQ)를 이용한다. 다단 VQ의 효율적인 코드북 서치는 상기 인용된 출원 제60/035,764호에 개시되어 있다. 그러나 본 발명에 따른 신규의 방법은 2방식 즉, 타임 리던던시의 이점을 취하는 스위치 예측을 이용하는 방식 및 주관적 스피치 특성(subject speech quality)과 더욱 상관되는 신규의 가중 거리 측정을 이용하는 방식으로 이전의 방법을 개선시킨다.
연방 표준 MELP 코더에 있어서, 입력 LSF 벡터는 MSVQ를 이용하여 바로 양자화된다. 그러나 이웃하는 프레임들의 LSF 벡터들 간에는 현저한 리던던시가 존재하며, 양자화 정밀도는 이러한 리던던시를 이용함으로써 개선될 수 있다. 예측 양자화의 이전에 논의된 바와 같이 현재 프레임의 양자화를 위한 타겟 벡터는 평균 제거 입력 벡터에서 예측값을 감한 것이며, 이 경우 예측값은 기지의 예측 매트릭스에 의해 승산된 이전의 양자화 벡터이다. 스위치 예측에는 하나 이상의 가능한 예측 매트릭스가 있으며 베스트 예측기(best predictor) 또는 예측 매트릭스(prediction matrix)는 각각의 프레임에 대해 선택된다. 본 발명에 따르면 예측기 매트릭스와 MSVQ 코드북 모두가 스위치된다. 각각의 입력 프레임에 대해, 스퀘어 에러(squared error)를 최소화하는 예측기/코드북 세트에 대한 각기 가능한 예측기/코드북 세트 조합을 서치한다. 이러한 쌍에 대응하는 지수와 MSVQ 코드북 지수들이 전송을 위해 인코드된다. 이는 코드북 역시 예측기처럼 스위치된다는 점에서 이전의 기술과는 상이한 것이다. 통상적인 방법은 코드북 스토리지(codebook storage)를 감소시키기 위해 단일의 코드북 세트를 공유하는 것이지만, 스위치된 예측 양자화에 이용된 MSVQ 코드북들은 비예측 코드북(non-predictive codebook) 보다는 현저히 작을 수 있고, 복수의 보다 작은 코드북(smaller codebook)들은 하나의 보다 큰 코드북(one larger codebook)에 비해 그 이상의 저장 스페이스를 필요로하지 않는다. 우리의 실험으로부터 별도의 예측기/코드북쌍들의 사용은 단일의 공유 코드북(single shared codebook)에 비해 현저한 수행 개선(significant performance improvement)으로 나타나며 비트율의 증가는 전혀 없다.
도 2의 스위치 예측 양자화기(20)를 갖는 LSF 인코더를 참조하면 10개의 LPC 계수는 변환기(23)에 의해 LSF(Line Spectral Frequency) 벡터의 10개의 LSF 계수로 변환된다. LSF는 10차원 요소 또는 계수( 10차 전체-폴 필터)를 갖는다. LSF 입력 벡터는 선택된 평균 벡터에 의해 가산기(22)에서 감산되고 평균-제거 입력 벡터는 예측된 값만큼 가산기(25)에서 감산된다. 현재 프레임 내의 양자화 벡터 e 에 대한 결과적인 타겟 벡터는 다단 벡터 양자화기(MSVQ;27)에 인가된다. 예측값은 기지의 예측 매트릭스로 승산기(26)에서 승산된 이전의 양자화 벡터이다. 스위치 예측시 예측된 값은 하나의 가능한 예측 매트릭스 이상의 값을 갖는다. 베스트 예측기(예측 매트릭스와 평균 벡터)가 각각의 프레임에 대해 선택된다. 본 발명에 따르면 예측기(예측 매트릭스와 평균 벡터)와 MSVQ 코드북 세트 모두가 스위치된다. 제어부(29)는 먼저 스위치(28)를 통해 예측 매트릭스1과 평균 벡터1을 스위치하고 양자화기(27) 내의 코드북 1의 제1 세트를 스위치한다. 이러한 제1 예측 매트릭스에 대응하는 지수와 코드북의 제1 세트에 대한 MSVQ 코드북 지수들이 양자화기로부터 게이트(37)에 제공된다. 예측값은 가산기(31)에서 타겟 벡터 e 에 대해 양자화 출력에 가산되어 양자화 평균 제거 벡터를 발생시킨다. 평균 제거 벡터는 가산기(70)에서 선택된 평균 벡터에 가산되어 양자화 벡터를 얻게 된다. 각각의 디멘젼에 대한 스퀘어 에러는 스퀘어러(35)에서 판정된다. 입력 벡터 Xi와 지연 양자화 벡터 i
(평균 벡터1을 갖는) 예측 매트릭스 1과 코드북 세트 1의 제1쌍으로부터의 측정된 에러는 (평균 벡터2를 가지고) 예측 매트릭스 2 및 코드북 세트 2와 비교된다. 최저 에러를 갖는 코드북에 대한 지수 세트는 지수의 인코드된 전송(encoded transmission)으로서 게이트(37)에서 인코더로부터 게이트되고, 예측 매트릭스쌍과 코드북 세트인 지수가 전송되었음을 나타내는 제어부(29)로부터 단자(38)에 비트가 전송된다(평균 벡터 1과 예측 매트릭스1을 갖는 코드북 세트1 또는 코드북 세트2 및 평균 벡터2를 갖는 예측 매트릭스). 최저 에러와 연관된 가산기(31)로부터의 평균 제거 양자화 벡터는 게이트(33a)에서 프레임 딜레이(33)로 게이트 제어되어 이전의 평균 제거 양자화 벡터를 승산기(26)에 제공한다.
도 3은 LSF 인코더(20)와의 사용을 위한 디코더(40)를 예시한다. 디코더(40)에서 인코딩으로부터 코드북에 대한 지수들은 인코더내의 코드북 세트1 및 2에 대응하는 2세트의 코드북을 갖는 양자화기(44)에서 수신된다. 단자(38)로부터의 비트는 인코더에 사용된 적절한 코드북 세트를 선택한다. LSF 양자화 입력은 가산기(41)에서 예측값에 가산되고 이 경우 예측값은 인코더에서 선택된 베스트 하나와 매칭되어 평균 제거 양자화 벡터를 얻게 되는 42에서의 예측 매트릭스에 의해 승산기(45)에서 승산된 (지연 43으로부터의) 이전의 평균 제거 양자화값이다. 예측 매트릭스 1과 평균값 1 및 예측 매트릭스 2와 평균값 2는 모두 디코더의 스토리지(42)에 저장된다. 인코더의 단자(38)로부터의 1비트는 인코더 예측 매트릭스와 평균값을 매칭시키는 스토리지(42)의 예측 매트릭스 및 평균값을 선택한다. 양자화 평균 제거 벡터는 가산기(48)에서 선택된 평균값으로 가산되어 양자화 LSF 벡터를 얻을 수 있다. 양자화 LSF 벡터는 변환기(46)에 의해 LPC 계수로 변환된다.
이상 논의된 바와 같이 LSF 벡터 계수들은 LPC 계수에 대응한다. LSF 벡터 계수들은 LPC 계수 보다 더 나은 양자화 특성을 갖고 있다. 여기에는 이들 2개의 벡터 계수간에는 1대1 변환이 있다. 대응하는 LPC 계수들의 특별 세트에 대한 LSF들의 특별 세트에 대해 가중 기능(weighting function)이 적용된다.
연방 표준 MELP 코더는 계산의 단순화로 인해 LSF 양자화에 대한 가중 유클리드 거리(weighted Euclidean distance)를 이용한다. 그러나, LSF 영역에서 이러한 거리는 양자화 정밀도의 이상적인 측정치인, 처리된 스피치 신호의 감지된 특성과 반드시 잘 대응하는 것은 아니다. 출원인은 로그 스펙트럼 왜곡의 지각적 가중 형태(perceptually-weighted form)가 주제 스피치 특성(subjective speech quality)과의 근접한 상관을 갖는 신규의 2.4kb/s 연방 표준에 대한 논문에서 미리 나타내었다. 출원인은 이러한 스펙트럼 왜곡에 가장 밀접하게 대응하는 가중 LSF 거리 실시예에 따라 본 명세서에서 교시하고 있다. 이러한 가중 기능은 그 세트와 대응하는 LPC 계수의 특별 세트에 대한 LSF의 세트인 특별한 입력 벡터 x를 위해 LSF의 특별한 세트에 대한 이러한 변환의 상세를 고려할 필요가 있다. 코더는 LPC 계수를 계산하며, 양자화를 위해 상기 논의된 바와 같이 이러한 계산은 보다 낫게 작용되는 LSF 벡터로 변환된다. 도 1에 도시된 바와 같이 실제 합성기는 양자화 벡터를 취하게되고 역변환을 수행하여 실제 스피치 합성(actual speech synthesis)에 사용할 수 있는 LPC 필터를 얻게 될 것이다. 비가중 스펙트럼 왜곡에 대한 최적의 LSF 가중은 1995년 9월 간행된 Vol.3, 제5권 pp367-381에 개재된 Theoretical analysis of the High-Rate Vector Quantization of the LPC Parameters라는 명칭의 Gardner 등의 논문에 나타낸 공식을 이용하여 계산된다.
여기서 RA(m)은 래그 m에서 LPC 합성 필터의 임펄스 응답의 자동상관이며, Ri(m)은 LSF로부터 LPC 계수로의 변환인 야코비안 매트릭스의 i번째 컬럼 내의 요소의 상관(correlation of elements)이다. 특별 입력 벡터 x에 대해 가중 Wi를 계산한다.
현재의 솔루션에서의 차이는 자동 상관 함수 RA(m)의 계산에 앞서 합성 필터 임펄스 응답에 지각적 가중(perceptual weighting)이 적용되어 스펙트럼 왜곡의 지각적 가중 형태를 반영하게된다는 점이다.
도 2의 실시예에 적용되는 가중 기능에 따라 가중 Wi는 35에서 스퀘어 에러에 적용된다. 에러 검출기(35)로부터의 가중 출력은 ∑Wi(Xi- i)2이다. 10차원 벡터 내의 각각의 엔트리는 가중치를 갖고 있다. 에러는 각각의 요소(element)에 대한 가중치를 합산한다. 예를 들어 가중의 적용시 요소들중 하나는 3의 가중치를 가지며 나머지 요소들은 가중치가 1이고 3을 갖는 요소는 결정 에러(determining error)내의 다른 요소의 팩터에 비해 3배의 팩터만큼의 강조로 주어진다.
앞서 기술한 바와 같이 가중 함수는 LPC 에서 LSF 변환의 상세를 고려할 것을 요구하고 있다. 가중치는 임펄스를 LPC 합성 필터(21)에 인가하고 LPC 합성 필터(21)의 결과적인 샘플 출력을 지각적 가중 필터(47)에 제공함으로써 결정된다. 컴퓨터(39)는 계속되는 의사 코드(pseudo code)에 기초한 코드에 의해 프로그램되고 도 4의 흐름도에 예시된다. 임펄스는 LPC 필터(21)로 게이트되고 LPC 합성 필터 응답의 N 샘플(단계 51)이 취해져 지각적 가중 필터(37)에 인가된다(단계 52). 본 발명의 바람직한 실시예에 따르면 저주파수가 보다 높은 고주파수로 가중되고 특히 바람직한 실시예는 어떻게 인간의 귀가 사운드(sounds)에 반응하는지를 매칭시키는 공지의 Bark 스케일을 사용한다. Bark 스케일 WB(f)의 방정식은 수학식 4이다.
이러한 응답을 갖는 필터의 계수가 미리 판정되어 저장되며 시간 영역 계수가 저장된다. 이러한 스펙트럼에 대한 8차 전체 폴 피트(8 order all-pole fit)가 판정되고 이들 8계수가 지각적 가중 필터로서 사용된다. 다음의 단계는 Gardner 등의 논문 375 페이지에서 발견되는 비가중 스펙트럼 왜곡에 대한 수학식 5를 따른다.
여기서 RA(m)는 래그 m에서 LPC 합성 필터의 임펄스 응답의 자동상관이며,
RA(k)는 수학식 6이다.
h(n)은 임펄스 응답이고, Ri(m)은 수학식 7이다.
이며, LSF로부터 LPC 계수로의 변환의 야코비안 매트릭스 Jω(ω)의 i번째 컬럼에 있는 요소의 상관 함수이다. Jω(ω)의 각각의 컬럼은 수학식 8로 인해 수학식 9로 주어질 수 있다.
이기 때문에,
ji(n)의 값은의 계수에 의한 계수 P(ω)의 간단한 다항식 분할(polynomial division)에 의해 발견될 수 있다.= 1의 제1 계수 때문에 어떠한 실제적인 분할도 이러한 처리에서는 필요하지 않다. 또한, ji(n) = ji(v + 1 - n) : i 홀수; 0 n ≤ v, 따라서 단지 그 값의 반만이 계산되어야 한다. 반대칭 특성을 갖는 유사한 조건이 짝수 컬럼에 대해 존재한다.
가중 임펄스 반응의 자동 상관 함수가 계산된다(도 4에서 단계 53). 이로부터 LSF에 대한 야코비안 매트릭스가 계산된다(단계 54). 야코비안 매트릭스의 행의 상관이 이어서 계산된다(단계 55). 이어서 상관 매트릭스(correlation matrices)를 승산함으로써 (단계 56) LSF 가중이 계산된다. 도 2에서는 컴퓨터(39)로부터의 계산된 가중치가 에러 검출기(35)에 인가된다. 최소 에러를 갖는 예측 매트릭스/코드북 세트로부터의 지수가 양자화기(27)로부터 게이트된다. 시스템은 다음의 의사 코드를 이용하는 마이크로 컴퓨터 인캡슐레이팅 컴퓨터(39)와 제어부(29)를 이용하여 구현될 수도 있다. 현재의 LPC와 LSF로부터 가중 벡터를 계산하는 의사 코드는 다음과 같다.
/*Compute weighting vector from current LPC and LSF's*/
Compute N samples of LPC systhesis filter impulse response
Filter impulse response with perceptual weighting filter
Calculate the autocorrelation function of the weighted impulse response
Compute Jacobian matrix for LSF's
Compute correlation of rows of Jacobian matrix
Calculate LSF weights by multiplying correlation matrices
상기의 코드는 표 1 및 표 2에 제공된다.
인코드 입력 벡터에 대한 의사 코드는 다음과 같다.
/*Encode input vector*/
For all predictor, codebook pairs
Remove mean from input LSF vector
Subtract predicted value to get target vector
Search MSVQ codebooks for best match to target vector using weighted distance
If Error Emin
Emin = Error
best predictor index = current predictor
Endif
End
Endcode best predictor index and codebook indices for transmission
재생성 양자화 벡터(regenerate quantized vector)에 대한 의사 코드는 다음과 같다.
/*Regenerate quantized vector*/
Sum MSVQ codevectors to produce quantized target
Add predicted value
Update memory of past quantized values (mean-removed)
Add mean to produce quantized LSF vector
연방 표준 MELP 코더에 이용된 25비트 양자화기와 균일한 수행력을 발생시키는 이러한 새로운 접근에 기초한 20비트 LSF 양자화기를 낮은 비트율로 구현하였다. 여기에는 2개의 예측기/코드북 쌍이 있으며, 이들 각각은 대각 1차 예측 매트릭스 및 각각 64,32,16,16 벡터 크기의 코드북을 갖는 4단 MSVQ 로 이루어진다. 코드북 스토리지 및 이러한 신규의 양자화기의 계산적 복잡성(computational complexity) 모두 이전 버전 보다 적다.
본 발명과 그 이점을 상세히 설명하였지만 첨부된 청구범위에 의해 한정되는 것과 같은 본 발명의 취지와 범위를 벗어나지 않는 여러 변경과 대체 및 개조가 행해질 수 있다.
예를 들어 예측 매트릭스 1의 조합은 코드북 세트 2와 사용될 수도 있고, 예측 매트릭스 2는 코드북 세트 1 또는 코드북 세트와 예측 매트릭스의 어떠한 조합과 사용될 수도 있다. 보다 많은 코드북 세트가 있을 수 있으며 또는 예측 매트릭스(matrices)가 있을 수 있다. 이러한 조합은 추가 비트(additional bits)가 인코더로부터 전송되지 않으면 않된다. 여기에는 하나의 평균 벡터만이 있거나 또는 여러 벡터가 있을 수 있다. 이러한 스위치 예측 양자화는 LSF 이외의 벡터에 대해 이용될 수 있지만, 스칼라 양자화에 적용될 수도 있으며 이러한 경우에 본 명세서에서 사용된 매트릭스는 스칼라 값일 수 있다.
본 발명에 의하면 스피치 코더의 LPC 계수를 양자화 할 수 있게 된다.

Claims (6)

  1. 입력을 양자화하는 스위치식 예측 방법(switched predictive method of quantizing an input)에 있어서,
    평균값을 제공하고 상기 입력으로부터 상기 평균값을 감산하여 평균 제거 입력(mean-removed input)을 얻는 단계와;
    양자화기에 제1 및 제2 코드북 세트를 제공하는 단계와;
    제1 및 제2 예측 매트릭스를 제공하는 단계와;
    이전 프레임 평균 양자화값(previous frame mean-removed quantized value)을 상기 제1 예측 매트릭스로 승산한 다음 상기 제2 예측 매트릭스로 승산하여, 제1 예측값을 얻은 다음 제2 예측값을 얻는 단계와;
    상기 평균 제거 입력으로부터 상기 예측값을 감산하여 목표값(target values)을 얻는 단계와;
    상기 목표값을 상기 코드북 세트들에 적용하여 양자화 목표값을 얻는 단계와;
    상기 예측값을 상기 양자화 목표값에 가산하여 평균 제거 양자화값을 얻는 단계와;
    평균값을 상기 평균 제거 양자화값에 가산하여 양자화값을 얻는 단계와;
    코드북 세트와 예측 매트릭스중 어느 것이 최소의 에러를 가지고 있는지를 판정하여, 최저 에러를 갖고 있는 그 세트에 대응하는 양자화 출력을 제공하는 단계
    를 포함하는 것을 특징으로 하는 입력을 양자화하는 스위치식 예측 방법.
  2. 제1항에 있어서, 상기 입력은 LPC 계수 세트에 대응하는 LSF 계수인 것을 특징으로 하는 입력을 양자화하는 스위치식 예측 방법.
  3. 제2항에 있어서, 상기 판정 단계는 상기 입력 벡터와 상기 양자화 출력 간의 각각의 디멘젼(dimension)에 대한 스퀘어 에러(squared error)를 판정하는 단계를 포함하는 것을 특징으로 하는 입력을 양자화하는 스위치식 예측 방법.
  4. 제3항에 있어서, 상기 스퀘어 에러는 각각의 디멘젼에 대한 가중치(weighting value)로 승산되는 것을 특징으로 하는 입력을 양자화하는 스위치식 예측 방법.
  5. 제4항에 있어서, 상기 가중 함수(weighting function)는 LSF 양자화를 위한 유클리디안 거리(Euclidean distance)인 것을 특징으로 하는 입력을 양자화하는 스위치식 예측 방법.
  6. 제3항에 있어서, 상기 가중 함수는 스펙트럼 왜곡의 지각적 가중 형태(perceptually weighted form)에 밀접하게 대응하는 가중 LSF 거리(weighted LSF distance)인 것을 특징으로 하는 입력을 양자화하는 스위치식 예측 방법.
KR1019980034832A 1997-08-28 1998-08-27 스위치식예측양자화방법 KR100889399B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US5711997P 1997-08-28 1997-08-28
US60/057,119 1997-08-28

Publications (2)

Publication Number Publication Date
KR19990023932A true KR19990023932A (ko) 1999-03-25
KR100889399B1 KR100889399B1 (ko) 2009-06-03

Family

ID=22008627

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980034832A KR100889399B1 (ko) 1997-08-28 1998-08-27 스위치식예측양자화방법

Country Status (6)

Country Link
US (1) US6122608A (ko)
EP (1) EP0905680B1 (ko)
JP (1) JPH11143499A (ko)
KR (1) KR100889399B1 (ko)
DE (1) DE69815242T2 (ko)
TW (1) TW408298B (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100647290B1 (ko) * 2004-09-22 2006-11-23 삼성전자주식회사 합성된 음성의 특성을 이용하여 양자화/역양자화를선택하는 음성 부호화/복호화 장치 및 그 방법
WO2012053798A2 (en) * 2010-10-18 2012-04-26 Samsung Electronics Co., Ltd. Apparatus and method for determining weighting function having low complexity for linear predictive coding (lpc) coefficients quantization

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143498A (ja) * 1997-08-28 1999-05-28 Texas Instr Inc <Ti> Lpc係数のベクトル量子化方法
DE69836624T2 (de) * 1997-10-22 2007-04-05 Matsushita Electric Industrial Co., Ltd., Kadoma Audiokodierer und -dekodierer
SE521225C2 (sv) 1998-09-16 2003-10-14 Ericsson Telefon Ab L M Förfarande och anordning för CELP-kodning/avkodning
US7295974B1 (en) * 1999-03-12 2007-11-13 Texas Instruments Incorporated Encoding in speech compression
JP3292711B2 (ja) * 1999-08-06 2002-06-17 株式会社ワイ・アール・ピー高機能移動体通信研究所 音声符号化復号方法および装置
KR100324204B1 (ko) * 1999-12-24 2002-02-16 오길록 예측분할벡터양자화 및 예측분할행렬양자화 방식에 의한선스펙트럼쌍 양자화기의 고속탐색방법
EP1199812A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Perceptually improved encoding of acoustic signals
US20030195745A1 (en) * 2001-04-02 2003-10-16 Zinser, Richard L. LPC-to-MELP transcoder
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
US7003454B2 (en) * 2001-05-16 2006-02-21 Nokia Corporation Method and system for line spectral frequency vector quantization in speech codec
US20030135547A1 (en) * 2001-07-23 2003-07-17 Kent J. Thomas Extensible modular communication executive with active message queue and intelligent message pre-validation
WO2003071522A1 (fr) * 2002-02-20 2003-08-28 Matsushita Electric Industrial Co., Ltd. Procede de production de vecteur de source sonore fixe et table de codage de source sonore fixe
US8090577B2 (en) * 2002-08-08 2012-01-03 Qualcomm Incorported Bandwidth-adaptive quantization
CA2415105A1 (en) * 2002-12-24 2004-06-24 Voiceage Corporation A method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
US6917914B2 (en) * 2003-01-31 2005-07-12 Harris Corporation Voice over bandwidth constrained lines with mixed excitation linear prediction transcoding
KR100486732B1 (ko) * 2003-02-19 2005-05-03 삼성전자주식회사 블럭제한된 트렐리스 부호화 양자화방법과 음성부호화시스템에있어서 이를 채용한 라인스펙트럼주파수 계수양자화방법 및 장치
US20060080090A1 (en) * 2004-10-07 2006-04-13 Nokia Corporation Reusing codebooks in parameter quantization
KR101565919B1 (ko) * 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
JP2008170488A (ja) * 2007-01-06 2008-07-24 Yamaha Corp 波形圧縮装置、波形伸長装置、プログラムおよび圧縮データの生産方法
US8126707B2 (en) * 2007-04-05 2012-02-28 Texas Instruments Incorporated Method and system for speech compression
CN101335004B (zh) * 2007-11-02 2010-04-21 华为技术有限公司 一种多级量化的方法及装置
CN102089810B (zh) * 2008-07-10 2013-05-08 沃伊斯亚吉公司 多基准线性预测系数滤波器量化和逆量化设备及方法
GB2466670B (en) * 2009-01-06 2012-11-14 Skype Speech encoding
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding
GB2466671B (en) * 2009-01-06 2013-03-27 Skype Speech encoding
GB2466669B (en) * 2009-01-06 2013-03-06 Skype Speech coding
GB2466673B (en) * 2009-01-06 2012-11-07 Skype Quantization
GB2466674B (en) * 2009-01-06 2013-11-13 Skype Speech coding
US8452606B2 (en) * 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
KR101660843B1 (ko) 2010-05-27 2016-09-29 삼성전자주식회사 Lpc 계수 양자화를 위한 가중치 함수 결정 장치 및 방법
TWI456516B (zh) * 2010-12-17 2014-10-11 Univ Nat Chiao Tung 獨立成分分析處理器
JP2013140494A (ja) * 2012-01-05 2013-07-18 Kddi Corp 高次元の特徴ベクトルを検索する検索装置及びプログラム
WO2015145266A2 (ko) 2014-03-28 2015-10-01 삼성전자 주식회사 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치
JP6270993B2 (ja) 2014-05-01 2018-01-31 日本電信電話株式会社 符号化装置、及びその方法、プログラム、記録媒体
KR102400540B1 (ko) 2014-05-07 2022-05-20 삼성전자주식회사 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56111899A (en) * 1980-02-08 1981-09-03 Matsushita Electric Ind Co Ltd Voice synthetizing system and apparatus
JPS5912499A (ja) * 1982-07-12 1984-01-23 松下電器産業株式会社 音声符号化装置
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
JPH0451199A (ja) * 1990-06-18 1992-02-19 Fujitsu Ltd 音声符号化・復号化方式
US5293449A (en) * 1990-11-23 1994-03-08 Comsat Corporation Analysis-by-synthesis 2,4 kbps linear predictive speech codec
JPH05232996A (ja) * 1992-02-20 1993-09-10 Olympus Optical Co Ltd 音声符号化装置
CA2159571C (en) * 1994-09-30 2000-03-14 Kimio Miseki Vector quantization apparatus
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
US5664053A (en) * 1995-04-03 1997-09-02 Universite De Sherbrooke Predictive split-matrix quantization of spectral parameters for efficient coding of speech
JP3522012B2 (ja) * 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
US5774839A (en) * 1995-09-29 1998-06-30 Rockwell International Corporation Delayed decision switched prediction multi-stage LSF vector quantization
JP3680380B2 (ja) * 1995-10-26 2005-08-10 ソニー株式会社 音声符号化方法及び装置
JPH11143498A (ja) * 1997-08-28 1999-05-28 Texas Instr Inc <Ti> Lpc係数のベクトル量子化方法
US5966688A (en) * 1997-10-28 1999-10-12 Hughes Electronics Corporation Speech mode based multi-stage vector quantizer

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100647290B1 (ko) * 2004-09-22 2006-11-23 삼성전자주식회사 합성된 음성의 특성을 이용하여 양자화/역양자화를선택하는 음성 부호화/복호화 장치 및 그 방법
WO2012053798A2 (en) * 2010-10-18 2012-04-26 Samsung Electronics Co., Ltd. Apparatus and method for determining weighting function having low complexity for linear predictive coding (lpc) coefficients quantization
WO2012053798A3 (en) * 2010-10-18 2012-06-14 Samsung Electronics Co., Ltd. Apparatus and method for determining weighting function having low complexity for linear predictive coding (lpc) coefficients quantization
CN103262161A (zh) * 2010-10-18 2013-08-21 三星电子株式会社 确定用于线性预测编码(lpc)系数量化的具有低复杂度的加权函数的设备和方法
US9311926B2 (en) 2010-10-18 2016-04-12 Samsung Electronics Co., Ltd. Apparatus and method for determining weighting function having for associating linear predictive coding (LPC) coefficients with line spectral frequency coefficients and immittance spectral frequency coefficients
US9773507B2 (en) 2010-10-18 2017-09-26 Samsung Electronics Co., Ltd. Apparatus and method for determining weighting function having for associating linear predictive coding (LPC) coefficients with line spectral frequency coefficients and immittance spectral frequency coefficients
US10580425B2 (en) 2010-10-18 2020-03-03 Samsung Electronics Co., Ltd. Determining weighting functions for line spectral frequency coefficients

Also Published As

Publication number Publication date
KR100889399B1 (ko) 2009-06-03
TW408298B (en) 2000-10-11
EP0905680A3 (en) 1999-09-29
EP0905680A2 (en) 1999-03-31
DE69815242T2 (de) 2004-04-15
JPH11143499A (ja) 1999-05-28
EP0905680B1 (en) 2003-06-04
US6122608A (en) 2000-09-19
DE69815242D1 (de) 2003-07-10

Similar Documents

Publication Publication Date Title
KR100889399B1 (ko) 스위치식예측양자화방법
CA2061832C (en) Speech parameter coding method and apparatus
EP0443548B1 (en) Speech coder
KR100910282B1 (ko) Lpc 파라미터의 벡터 양자화 장치, lpc 파라미터복호화 장치, 기록 매체, 음성 부호화 장치, 음성 복호화장치, 음성 신호 송신 장치, 및 음성 신호 수신 장치
KR100427752B1 (ko) 음성부호화방법 및 장치
KR100469224B1 (ko) 음성부호화방법및장치
EP2313887B1 (en) Variable bit rate lpc filter quantizing and inverse quantizing device and method
US5675702A (en) Multi-segment vector quantizer for a speech coder suitable for use in a radiotelephone
EP0337636B1 (en) Harmonic speech coding arrangement
US5950155A (en) Apparatus and method for speech encoding based on short-term prediction valves
CA2202825C (en) Speech coder
EP0673014A2 (en) Acoustic signal transform coding method and decoding method
CA2061830C (en) Speech coding system
US6889185B1 (en) Quantization of linear prediction coefficients using perceptual weighting
KR19980024885A (ko) 벡터양자화 방법, 음성부호화 방법 및 장치
KR100408911B1 (ko) 선스펙트럼제곱근을발생및인코딩하는방법및장치
US5839102A (en) Speech coding parameter sequence reconstruction by sequence classification and interpolation
EP0899720B1 (en) Quantization of linear prediction coefficients
JP3087814B2 (ja) 音響信号変換符号化装置および復号化装置
JPH11184498A (ja) 音声符号化/復号化方法
US5822722A (en) Wide-band signal encoder
EP0483882B1 (en) Speech parameter encoding method capable of transmitting a spectrum parameter with a reduced number of bits
Erzin et al. Interframe differential coding of line spectrum frequencies
JP3194930B2 (ja) 音声符号化装置
EP0755047B1 (en) Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E801 Decision on dismissal of amendment
J301 Trial decision

Free format text: TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE AMENDMENT REQUESTED 20060804

Effective date: 20060929

S901 Examination by remand of revocation
E902 Notification of reason for refusal
GRNO Decision to grant (after opposition)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130227

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140227

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20150227

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20161229

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20171228

Year of fee payment: 10

EXPY Expiration of term