KR100446630B1 - 음성신호에 대한 벡터 양자화 및 역 벡터 양자화 장치와그 방법 - Google Patents

음성신호에 대한 벡터 양자화 및 역 벡터 양자화 장치와그 방법 Download PDF

Info

Publication number
KR100446630B1
KR100446630B1 KR10-2002-0025401A KR20020025401A KR100446630B1 KR 100446630 B1 KR100446630 B1 KR 100446630B1 KR 20020025401 A KR20020025401 A KR 20020025401A KR 100446630 B1 KR100446630 B1 KR 100446630B1
Authority
KR
South Korea
Prior art keywords
klt
codebook
speech signal
vector quantization
vector
Prior art date
Application number
KR10-2002-0025401A
Other languages
English (en)
Other versions
KR20030087373A (ko
Inventor
김무영
클라인빌렘바스티안
Original Assignee
삼성전자주식회사
글로벌 아이피 사운드 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 글로벌 아이피 사운드 에이비 filed Critical 삼성전자주식회사
Priority to KR10-2002-0025401A priority Critical patent/KR100446630B1/ko
Priority to EP02256142A priority patent/EP1361567B1/en
Priority to DE60232402T priority patent/DE60232402D1/de
Priority to US10/234,182 priority patent/US6631347B1/en
Priority to JP2002376122A priority patent/JP2004029708A/ja
Publication of KR20030087373A publication Critical patent/KR20030087373A/ko
Application granted granted Critical
Publication of KR100446630B1 publication Critical patent/KR100446630B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Abstract

벡터 양자화 장치 및 방법은 음성 신호를 부호화할 때, KLT를 기반으로 분할된 코드북과 음성신호의 고유값 및 고유벡터를 이용하여 입력되는 음성 신호를 양자화 함으로써, 벡터 양자화의 이점을 극대화시킬 수 있다.
본 발명에 따른 벡터 양자화 장치는 코드북 군, KLT부, 제 1 및 제 2 선택부, 전송부로 구성된다. 코드북 군은 KLT에 의해 얻어진 음성신호에 대한 코드 벡터를 저장한 복수의 코드으로 구성된다. 코드북들은 KLT(Karhunen-

Description

음성신호에 대한 벡터 양자화 및 역 벡터 양자화 장치와 그 방법{Vector quantization and inverse vector quantization apparatus for the speech signal and method thereof}
본 발명은 음성신호(speech signal)에 대한 부호화 기술(coding technology)에 관한 것으로, 특히, 음성신호에 대한 높은 부호화 효율을 제공할 수 있는 벡터 양자화 및 역 벡터 양자화 장치와 그 방법에 관한 것이다.
음질의 저하를 억제할 수 있는 저 비트 율(low-bit-rate)의 부호화 결과를 얻기 위하여, 메모리, 스페이스 필링(space-filling) 및 형태(shape)상의 이점(advantage) 때문에 스칼라 양자화에 비해 벡터 양자화가 선호되고 있다.
기존에 알려진 음성신호에 대한 벡터 양자화 기술로는 음성신호의 직접적인 벡터 양자화(Direct Vector Quantization, 이하 DVQ라고 약함)와 코드 여기 선형 예측(Code-Excited Linear Prediction, 이하 CELP라고 약함) 코딩방식에 의한 벡터 양자화가 있다.
상기 음성 신호의 통계치(statistic)가 주어질 경우에 DVQ는 가장 높은 코딩 효율(highest coding efficiency)을 얻을 수 있다. 그러나, 음성 신호의 시변 신호 통계치(time-varying signal statistic)가 다량의 코드북(a very large number of codebooks)을 요구하므로 DVQ는 관리하기 어려운(unmanageable) 코드북 저장이 요구된다.
CELP는 단일 코드북(single codebook)을 사용한다. 따라서 CELP는 DVQ와 같이 많은 저장용량이 요구되지는 않는다. CELP는 입력되는 음성신호에서 선형 예측(Linear Prediction, 이하 LP라고 약함) 계수들을 추출하고, 추출된 LP계수들에 의해 필터링 특성이 결정되는 합성 필터(synthesis filter)를 이용하여 상기 코드북에 저장되어 있는 코드 벡터들로부터 시험 음성 신호(trial speech signal)를 구성하고, 입력되는 음성신호와 가장 근접한 음성신호의 코드 벡터를 찾도록 수행된다.
이러한 CELP는 2차원인 경우에 코드북에 저장된 코드 벡터들의 Voronoi-region의 형태가 도 1의 (a)에 도시된 바와 같이 구형(spherical)에 거의 가깝게 될 수 있는 반면에 합성 필터에 의해 구성된 시험 음성 신호들은 도 1의 (b)와 같이 구형의 Voronoi-region의 형태를 갖지 않는다. 상기 Voronoi-region은 음성 신호를 2차원의 코드 벡터로 양자화하여 형성된다. 따라서 CELP는 벡터 양자화의 이점인 스페이스 필링 및 형태의 이점을 충분히 사용하지 못하는 단점이 있다.
본 발명은 상술한 문제들을 해결하기 위한 것으로, 음성 신호를 부호화할 때, 벡터 양자화에서의 이점을 충분히 살릴 수 있는 벡터 양자화 및 역 벡터 양자화 장치와 그 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적은 음성신호를 부호화하기 위하여, KLT(Karhunen-Transform)에 의해 얻어진 코드 벡터와 음성신호의 고유값(eigenvalue)과 고유벡터(eigenvector)를 이용하여 음성신호를 벡터 양자화함으로써, 코드북 탐색을 위한 계산량과 저장용량을 줄일 수 있는 벡터 양자화 및 역 벡터 양자화 장치와 그 방법을 제공하는데 있다.
본 발명의 또 다른 목적은 음성신호에 대한 Voronoi-region 형태가 구형(spherical)에 거의 가까운 형태를 유지하는 KLT 기반의 분할 벡터 양자화(KLT-based classified vector quantizer) 및 역 벡터 양자화 장치와 그 방법을 제공하는데 있다.
상기 목적들을 달성하기 위하여 본 발명은 코드북 군, KLT 부, 제 1 및 제 2 선택부, 전송부를 포함하는 벡터 양자화 장치를 제공한다. 코드북 군은 KLT에 의해얻어진 음성신호에 대한 코드 벡터를 저장한 코드북이 복수개 구비된다. 상기 코드북들은 KLT 도메인 통계치에 따라 분류된다. KLT부는 입력되는 음성신호를 KLT 도메인으로 변환시킨다. 제 1 선택부는 KLT에 의해 얻어진 입력 음성 신호의 공분산 매트릭스(covariance matrix)에 대한 고유값 세트(eigenvalue set)를 토대로 코드북들로부터 최적의 코드북을 선택한다. 제 2 선택부는 선택된 코드북에 실려 있는 각 코드 벡터들과 KLT부에 의해 KLT 도메인으로 변환된 음성 신호간의 왜곡을 토대로 최적의 코드 벡터(optimal code vector)를 선택한다. 전송부는 최적의 코드 벡터가 입력 음성신호에 대한 벡터 양자화 데이터로서 사용되도록 최적 코드 벡터의 인덱스를 복호화측으로 전송한다.
상기 코드북은 음성 신호의 공분산 매트릭스의 고유값을 토대로 한 신호 클래스와 관련된 것을 특징으로 한다. 상기 KLT부는 다음과 같은 동작을 수행한다. 먼저, KLT부는 입력 음성신호의 선형 예측(LP) 계수를 계산하고, 선형 예측 계수들을 이용하여 공분산 매트릭스를 구하고, 공분산 매트릭스에 대한 고유값 세트를 계산하고, 고유값들에 상응하는 고유벡터들을 계산한다. 그 다음, KLT부는 고유값 세트를 토대로 고유값 매트릭스를 구하고, 상기 고유 벡터들을 토대로 단위(unitary) 매트릭스를 구한다. 그 후, KLT부는 상기 단위 매트릭스를 이용하여 입력 음성신호에 대한 KLT 도메인을 얻는다.
상기 제 1 선택부는 KLT부에 의해 계산된 고유값 세트와 근사한 고유값 세트를 갖는 코드북을 선택하는 것이 바람직하다. 상기 제 2 선택부는 최소 왜곡 치(minimum distortion value)를 갖는 코드 벡터를 선택하고 사용된 코드 벡터를최적 코드 벡터로 하는 것을 특징으로 하는 것이 바람직하다.
상기 목적들을 달성하기 위하여 본 발명은 또한, 음성신호에 대한 코드 벡터들이 저장된 복수의 코드북이 구비된 시스템에서 상기 음성신호에 대한 벡터 양자화 방법을 제공한다. 이 방법은 입력 음성신호를 KLT 도메인으로 변환한다. 입력 음성 신호에 상당하는 코드 북은 입력 음성신호의 KLT에 따라 검출된 입력 음성신호의 공분산 매트릭스의 고유값 세트를 토대로 복수의 코드북으로부터 선택된다. 최적 코드 벡터는 선택된 코드북에 저장되어 있는 각 코드 벡터들과 KL 변환된 음성 신호간의 왜곡 값을 토대로 선택된다. 선택된 코드 벡터는 입력 음성신호의 벡터 양자화 값으로서 사용되도록 전송된다.
입력 음성신호의 KLT기반 변환은 다음과 같은 단계들에 의해 수행된다. 먼저, 입력 음성신호의 선형 예측 계수들을 추정한다. 그 다음, 입력 음성신호에 대한 공분산 매트릭스를 구하고, 공분산 매트릭스에 대한 고유값 세트와 고유값 세트에 대한 고유 벡터 세트를 계산한다. 또한, 고유 벡터 세트를 이용하여 음성신호 대한 단위 매트릭스(unitary matrix)를 구한다. 단위 매트릭스를 이용하여 입력 음성신호를 KLT 도메인으로 변환한다.
상기 선택된 코드북은 추정된 고유값 세트와 유사한 고유값 세트에 상당하는 코드북인 것이 바람직하다. 상기 최소 왜곡을 갖는 코드 벡터는 최적의 코드 벡터로서 선택되는 것이 바람직하다.
도 1 (a)는 잔류 영역(residual domain)에서 CELP 코드북 예의 Voronoi-region 형태를 도시한 것이고, 도 1 (b)는 음성 도메인에서 상당하는 CELP코드북의 Voronoi-region 형태를 도시한 것이다.
도 2는 본 발명에 따른 벡터 양자화 장치의 블록도이다.
도 3(a) 및 (b)는 KLT 특성을 설명하기 위한 Voronoi-region 예이다.
도 4는 도 2의 벡터 양자화 장치에 대응되는 역 벡터 양자화 장치의 블록도이다.
도 5는 본 발명에 따른 벡터 양자화 방법의 동작 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 설명하기로 한다.
도 2는 본 발명에 따른 음성신호에 대한 벡터 양자화 장치의 블록도이다. 도 2를 참조하면, 본 발명에 따른 음성신호에 대한 벡터 양자화 장치는 코드북 군(200), KLT(Karhunen-Transform, 이하 KLT라고 약함)부(210), 코드북 클래스(class) 선택부(220), 최적 코드벡터 선택부(230), 데이터 전송부(240)로 구성된다.
코드북 군(200)은 훈련(training) 단계에서 KLT의 에너지 집중 특성(energy concentration property)을 이용하여 음성신호(speech signal)에 대한 KLT 도메인 통계치(statistics)가 좁은 클래스(narrow class)별로 코드북이 분할되게 설계(design)된다.
즉, 음성신호(speech signal)를 KLT 도메인(domain)으로 변환할 경우에, 도 3의 (b)에 도시된 바와 같이 수평축(horizontal axis)을 따라 에너지가 집중된 도메인을 얻게 된다. 도 3의 (a)는 각 상관계수(correlation coefficient)에 대한 2차원 음성 신호에 대한 코드 벡터들의 분포도를 나타낸 것이다. 도 3의 (b)는 도 3의 (a)에서와 같은 상관계수에서 상기 2차원 음성 신호에 상당하는 KL 변환된 신호에 대한 코드 벡터들의 분포도를 나타낸 것이다. 도 3의 (b)에서 다른 통계치를 갖는 음성 신호들이 KLT 도메인상에서 동일한 통계를 갖는다는 것을 알 수 있다. KLT 도메인상에서 동일한 통계를 갖는다는 것은 동일한 고유값 세트(eigenvalue set)로 분류될 수 있다는 것을 의미한다. 고유값은 KLT 영역으로변환된 벡터의 성분 분산(variance of the component)에 상응한다.
코드북 군(200)에 구비되는 제 1 내지 제 n 코드북(201-1∼n)에 상당하는 n 클래스중 하나로 음성신호를 분할하기 위하여 거리 측정(distance measure)법을 사용할 수 있다. 이것은 가장 근사한 통계치를 갖는 고유값 세트를 찾으면 끝난다.
고유값 세트들은 수학식 1과 같은 거리 측정에 의해 분류될 수 있다.
수학식 1에서는 입력신호의 i번째 고유값이고,는 j번째 클래스 코드북의 i번째 고유값이다. 즉 하나의 코드북은 2차원 신호에 대한 코드 벡터를 고려하는 경우에 2개의 고유값을 갖는다. 만약 k차원 신호에 대한 코드 벡터가 고려되는 경우에, 상기 해당되는 코드북은 k개의 고유값을 갖는다. 상기 2개의 고유값 및 k개의 고유값을 해당되는 각 코드북의 고유값 세트라고 한다. 상술한 바와 같이 코드북을 고유값 세트로 분류할 때, 가장 큰 고유값은 중요한 값이 된다.
제 1 내지 제 n 코드북들(201_1∼201_n)에 포함되는 코드 벡터들은 KLT 도메인으로 변환된 양자화 된 음성신호들이다. 코드북 분할을 위하여 음성신호들의 에너지에 해당되는 고유값은 수학식 2와 같이 정규화(normalize)한다.
'= / (i=1, ...., k)
정규화 된 고유 값들은 수학식 1에 적용된다.
상술한 클래스 고유값 세트들은 실제적인 음성 데이터의 P차 LP 계수들로부터 추정되고, 수학식 1과 같은 거리 측정 기능을 갖는 LBG(Linde-Buzo-Gray)알고리즘을 이용하여 양자화 된다. 상기 P는 예를 들어 10이 될 수 있다. 많은 클래스의 코드북들이 코드북 군(200)에 포함되면, 음성신호에 대한 벡터 양자화 장치의 SNR 효율은 더 향상된다.
KLT부(210)는 입력되는 음성신호를 KLT 도메인으로 변환한다. 상기 변환은 프레임 단위로 이루어진다. 이를 위하여 KLT부(210)는 먼저, 입력되는 음성신호를 분석하여 LP계수를 구한다. 구해진 LP계수는 데이터 전송부(240)로 전송된다. 입력되는 음성신호의 LP를 구하는 방식은 종래 알려진 방식들중 하나를 사용한다. 구해진 LP를 이용하여 입력신호의 공분산(covariance) 매트릭스 E(x)를 구한다. 5차원 (dimensional)인 경우에, 공분산 매트릭스 E(x)는 하기 수학식 3과 같이 정의된다.
상술한 수학식 3에서 A1=이고, A2=+이고, A3=++이고, A4=이다.내지는 LP 계수이다. 따라서 LP계수를 이용하여 공분산 매트릭스 E(x)를 구할 수 있다.
그 다음 KLT부(210)는 공분산 매트릭스 E(x)에 대한 고유값(eigenvalue)은 수학식 4를 이용하여 구하고, 고유벡터(eigenvector) Pi는 수학식 5를 이용하여 구한다.
=0
수학식 4에서 I는 식별자(identity) 매트릭스이다. 이 매트릭스는 대각선 행렬 값이 모두 1이고, 나머지는 모두 0인 매트릭스이다. 수학식 5를 만족하는 고유 벡터는 정규화(normalization)하여 구한다.
매트릭스 D의 대각선(diagonal)을 따라 공분산 매트릭스 E(x)의 정돈된 고유값들을 배열함으로써 매트릭스 D를 얻는다. 매트릭스 D는 코드북 클래스 선택부(220)로 출력된다. 그러나, 상기 매트릭스 D를 구하지 않고, 수학식 1을 이용하여 코드북 클래스를 선택하도록 구현할 수도 있다. 수학식 1을 이용하여 코드북 클래스를 선택하도록 구현된 경우에, KLT부(210)는 코드북 클래스 선택부(220)로 입력신호의 고유값을 제공한다.
한편, KLT부(210)는 구해진 고유벡터를 이용하여 매트릭스(unitary matrix) U를 수학식 6과 같이 구한다.
U=[P1, P2, ....Pn]
수학식 6에서 P1, P2, Pn은 n×1 매트릭스이다.
UT를 입력되는 음성신호 sk에 승산(UTsk)하여 입력된 음성신호를 KLT 도메인으로 변환한다. 여기서 sk는 LP 합성 필터의 k차 제로 상태 응답(k-dimensional zero state response)이다. KLT 도메인으로 변환된 음성신호는 최적 코드 벡터 선택부(230)로 제공된다. 상기 UT에서 T는 전치(transpose)이다. sk는 음성 신호의 k차(k-dimensional) 벡터이다.
코드북 클래스 선택부(220)는 KLT부(210)로부터 수신된 매트릭스 D를 토대로 제 1 내지 제 n 코드북(201_1∼n)에서 해당되는 코드북을 선택한다. 즉, 수학식 1에 따라 KLT부(210)로부터 수신된 매트릭스 D와 가장 근사한 고유값들(또는 고유값 세트)을 갖는 하나의 코드북을 선택한다. 선택된 코드북이 제 1 코드북(201_1)인 경우에 제 1 코드북(201_1)에 존재하는 코드 벡터들은 순차적으로 최적 코드벡터 선택부(230)로 출력된다. 이 때, 코드북 클래스 선택부(220)는 KLT부(210)로부터 매트릭스 D가 전송되지 않고 고유값이 전송되도록 구현된 경우에, 수학식 1에 의해 최적의 코드북을 선택하도록 구현될 수 있다.
최적 코드벡터 선택부(230)는 수학식 7과 같이 KLT부(210)로부터 수신된 UTsk와 코드북 클래스 선택부(220)로부터 수신된 각 코드 벡터들간에 왜곡을 계산한다.
수학식 7에서는 UTsk에 대한 i번째 클래스의 j번째 코드북 엔트리이다. 각 코드 벡터들에 대해 수학식 7에서와 같은 왜곡 값을 구한 후, 최적 코드벡터 선택부(230)는 최소 왜곡을 갖는 최적의 코드벡터를 추출한다. 최적 코드 벡터 선택부(230)는 선택된 코드 벡터의 인덱스 정보를 데이터 전송부(240)로 전송한다.
데이터 전송부(240)는 KLT부(210)로부터 전송되는 프레임단위의 LP 계수와 코드 벡터의 인덱스 정보를 도 4에 도시된 역 벡터 양자화 장치를 포함한 복호화 장치측으로 전송한다.
도 4를 참조하면, 도 2에 도시된 벡터 양자화 장치에 대응되는 복호화 장치는 데이터 검출부(401), 코드북 군(410), 역 KLT부(420)로 구성된다.
데이터 검출부(401)는 도 2에 도시된 바와 같은 벡터 양자화 장치를 구비한 부호화장치로부터 수신되는 데이터에서 코드 벡터의 인덱스 정보를 검출하고, 수학식 3 내지 6을 이용하여 수신된 LP계수로부터 매트릭스 D와 단위 매트릭스 U를 얻는다. 검출된 코드 벡터의 인덱스 정보와 매트릭스 D는 코드북 군(410)으로 전송된다.
코드북 군(410)은 수신된 매트릭스 D에 의해 해당되는 코드북 클래스를 선택하고, 수신된 코드 벡터의 인덱스 정보에 의해 선택된 코드북 클래스에서 해당되는 코드 벡터를 검출한다. 코드북군(410)은 도 2의 코드북 군(200)과 동일하게 구성된 코드북들로 구성되고, 매트릭스 D와 코드 벡터의 인덱스 정보에 의해 검출된 코드벡터는 역 KLT부(420)로 전송한다.
역 KLT부(420)는 데이터 검출부(401)로부터 수신된 단위 매트릭스 U와 코드북 군(410)으로부터 전송되는 코드 벡터를 이용하여 KLT부(210)에서의 변환과 역 방식으로 코드 벡터를 변환하여 선택된 코드 벡터에 대응되는 원래의 음성신호를 복원한다. 즉, 코드북 벡터는 U와 승산되어 원래의 음성신호를 복원한다.
상술한 벡터 양자화 장치와 역 벡터 양자화 장치는 부호화 장치 및 복호화 장치가 하나의 시스템으로 이루어진 환경에서는 하나의 시스템내에서 존재할 수 있다. 하나의 시스템에 존재할 경우에 시스템내에 구비되는 코드북군은 하나가 존재할 수 있다.
도 5는 본 발명에 따른 음성신호에 대한 KLT기반 분할 벡터 양자화 방법의 동작 흐름도이다.
도 5를 참조하면, 제 501 단계에서 음성신호가 입력되는 것으로 판단되면, 제 502 단계에서 입력되는 음성신호에 대한 LP계수를 추정한다. LP계수는 프레임 단위로 추정된다. 제 503 단계에서 입력된 음성신호의 공분산 행렬 E(x)를 수학식 3에서와 같이 구한다. 제 504 단계에서 구해진 공분산 행렬 E(x)를 이용하여 입력되는 음성신호에 대한 고유값을 구하고, 구해진 고유값으로 고유 벡터를 구한다.
제 505 단계에서 상기 고유값을 이용하여 매트릭스 D를 구하고, 상기 고유 벡터를 이용하여 매트릭스 U를 구한다. 매트릭스 D와 매트릭스 U를 구하는 방식은 도 2의 KLT부(210)에서 설명한 바와 같다. 제 506 단계에서 상기 매트릭스 U를 이용하여 입력되는 음성신호를 KLT 도메인으로 변환한다. 상술한 제 502 단계 내지제 506 단계는 입력되는 음성신호를 KLT 도메인으로 변환하는 단계로 정의될 수 있다.
제 507 단계에서 고유값으로 구성된 매트릭스 D를 이용하여 복수의 코드북에서 해당되는 코드북을 선택한다. 복수의 코드북은 도 2의 코드북 군(200)에서 설명한 바와 같이 KLT 도메인으로 변환된 음성신호를 토대로 분할된 것이다.
제 508 단계에서, 선택된 코드북에 포함되어 있는 코드 벡터들과 상술한 제 502 단계 내지 제 506 단계를 통해 KLT된 음성신호 UTsk를 수학식 7에 대입시켜 최적의 코드벡터를 선택한다. 최적의 코드 벡터는 수학식 7에 의한 연산 결과 최소값을 갖는 코드벡터가 된다.
제 509 단계에서, 상기 선택된 코드 벡터의 인텍스 정보와 제 502 단계에서 추정된 LP 계수를 입력되는 음성신호에 대한 벡터 양자화 결과 값으로 전송한다. 만일 제 501 단계에서 입력신호가 없는 것으로 판단되면, 상술한 과정은 수행되지 않는다.
복호화는 제 509 단계에 의해 전송되는 코드 벡터의 인덱스 정보와 LP계수를 복호화하고, 복호화된 데이터를 역 KLT하여 원래의 음성신호를 복원하도록 수행된다.
상술한 도 5는 상술한 도 2에서와 같이 매트릭스 D를 이용하여 최적의 코드북 클래스를 선택하는 예이다. 그러나, 도 2의 KLT부(210)와 코드북 클래스 선택부(220)에서 설명한 바와 같이 매트릭스 D를 이용하지 않고 고유값과 수학식 1을 이용하여 최적의 코드북 클래스를 선택하도록 구현할 수 있다.
상술한 실시 예들은 음성신호에 대한 벡터 양자화 된 결과로 LP계수와 코드 벡터의 인덱스 정보를 함께 전송하는 경우이다. 그러나, LP계수를 전송하지 않고 코드 벡터의 인덱스 정보만 전송되도록 구현할 수도 있다. 이는 ITU-T 표준 코덱인 G.728에서 사용된 역 LP계수 추정과 유사한 역 적응 방법(backward adaptive manner)을 적용할 경우에, 부호화 및 복호화측에서 바로 전 프레임에서 양자화된 음성신호를 가지고 현재 프레임의 스펙트럼 특성을 나타내는 LP계수를 추정함으로써, 부호화측에서 복호화측으로 LP 파라미터를 전송할 필요가 없다. 이러한 LP추정은 음성 스펙트럼 특성이 천천히 변하기 때문에 가능하다.
만약 부호화측에서 복호화측으로 LP계수를 전송하지 않을 경우에, 도 4의 데이터 검출부(401)로 인가되는 LP계수는 부호화측으로부터 수신된 것이 아니라 복호화측에서 상술한 역 적응 방법(backward adaptive manner)으로 추정된 LP계수가 된다.
본 발명에 의해 제안된 KLT기반으로 분류된 벡터 양자화(CVQ)는 Voronoi-region이 KLT에 의해 영향을 받지 않기 때문에 스페이스 필링 이점을 제공할 수 있다. 각 코드북이 KLT 영역 통계치의 좁은 클래스(narrow class)를 기반으로 설계되었기 때문에 메모리 및 형태 이점을 제공할 수 있다. 그러므로 KLT-CVQ는 CELP 및 DVQ보다 높은 SNR을 제공할 수 있다.
본 발명은 KLT가 Voronoi-region 형태를 변화시키지 않기 때문에 입력 신호를 KLT도메인으로 변환하고 최적의 코드 벡터를 찾는다. 이 과정은 코드 벡터에 대한 부가적인 필터링 계산이 필요하지 않으므로 KLT-CVQ는 DVQ와 계산상의 복잡성이 유사하고, CELP보다는 계산상의 복잡성이 더 낮다.
본 발명은 KLT가 가장 작은 고유값 축에 대해 상대적으로 낮은 분산(variance)을 초래하므로 코드북을 저장하기 위해 요구되는 메모리를 줄일 수 있고, 적절한 코드 벡터를 찾기 위하여 검색의 복잡성(complexity)을 줄일 수 있다. 이러한 이점은 높은 고유값들을 갖는 서브셋(subset)차원만을 고려함으로써 얻어진다. 예를 들어, 5차원 벡터에 대해 4개의 가장 큰 고유값 축을 사용함으로써, 모든 축의 사용과 상응하는 성능을 얻을 수 있다. 그러므로, KLT의 에너지 집중 특성을 이용함으로써, 메모리 요구량 및 검색 복잡성을 줄일 수 있다.
본 발명은 또한, 부호화측 및 복호화측에서 ITU-T 표준 코덱인 G.728에서 사용된 역적응 방법(backward adaptive manner)으로 LP계수를 추정하도록 구현될 경우에, 부호화기에서 복호화기로 LP 계수를 전송할 필요가 없다.
본 발명은 상술한 실시 예에 한정되지 않으며, 본 발명의 사상 내에서 당업자에 의한 변형이 가능함은 물론이다. 따라서, 본 발명에서 권리를 청구하는 범위는 상세한 설명의 범위 내로 정해지는 것이 아니라 후술하는 청구범위로 정해질 것이다.

Claims (17)

  1. 음성신호에 대한 벡터 양자화 장치에 있어서,
    KLT(Karhunen-Transform)에 의해 얻어진 음성신호에 대한 코드 벡터를 저장한 코드북을 상기 KLT 도메인 통계치에 따라 복수 개로 분할하여 구비하는 코드북 군;
    입력되는 음성신호를 KLT 도메인으로 변환하는 KLT부;
    상기 KLT부에서 KLT에 의해 얻어진 상기 입력되는 음성신호에 대한 고유값(eigenavlue)을 토대로 상기 코드북 군에서 최적의 코드북을 선택하는 제 1 선택부;
    상기 제 1 선택부에서 선택된 코드북에 실려 있는 코드 벡터들과 상기 KLT부에서 KLT 도메인으로 변환된 음성 신호간의 왜곡을 토대로 최적의 코드 벡터를 선택하는 제 2 선택부;
    적어도 상기 최적의 코드 벡터의 인덱스를 상기 입력되는 음성신호에 대한 벡터 양자화 정보로서 전송하는 전송부를 포함하는 벡터 양자화 장치.
  2. 제 1 항에 있어서, 상기 최적의 코드북은 상기 KLT에 의해 얻어진 음성신호의 공분산 매트릭스의 고유값(eigenvalue)을 토대로 한 신호 클래스(class)와 관련된 것을 특징으로 하는 벡터 양자화 장치.
  3. 제 1 항에 있어서, 상기 KLT부는,
    상기 입력되는 음성신호의 선형 예측(LP) 계수들을 구하고,
    상기 선형 예측 계수들을 토대로 공분산 매트릭스를 구하고,
    상기 공분산 매트릭스의 고유값들을 계산하고,
    상기 고유값들에 상응하는 고유벡터 세트를 구하고,
    상기 고유 벡터 세트를 토대로 단위(unitary) 매트릭스를 구하고,
    구해진 단위 매트릭스를 이용하여 입력되는 음성신호에 대응되는 KLT 도메인을 얻도록 구성되는 것을 특징으로 하는 벡터 양자화 장치.
  4. 제 1 항에 있어서, 상기 제 1 선택부는 하기 수학식을 토대로 상기 최적의 코드북을 선택하는 것을 특징으로 하는 벡터 양자화 장치.
    ε'=
    (= 입력신호의 i번째 고유값이고,
    는 j번째 클래스 코드북의 i번째 고유값이다.)
  5. 제 1 항에 있어서, 상기 제 1 선택부는 상기 KLT부에 의해 계산된 고유값 세트와 근사한 고유값 세트가 할당된 코드북을 상기 최적의 코드북으로 선택하는 것을 특징으로 하는 벡터 양자화 장치.
  6. 제 1 항에 있어서, 상기 제 2 선택부는 최소 왜곡 값을 갖는 코드 벡터가 최적의 코드 벡터가 되도록 선택하는 것을 특징으로 하는 벡터 양자화 장치.
  7. 제 1 항에 있어서, 상기 제 2 선택부는 하기 수학식을 토대로 상기 왜곡을검출하는 것을 특징으로 하는 벡터 양자화 장치.
  8. 제 1 항에 있어서, 상기 전송부는 상기 입력되는 음성신호에 대한 벡터 양자화 정보에 LP 계수를 더 포함시켜 전송하는 것을 특징으로 하는 벡터 양자화 장치.
  9. 제 1 항에 있어서, 상기 코드북 차원은 KLT의 에너지 집중 특성을 사용하여 서브셋 차원으로 줄일 수 있는 벡터 양자화 장치.
  10. 제 1 항에 있어서, 상기 벡터 양자화 장치가 이전 프레임에서 양자화된 음성신호를 가지고 현재 프레임의 스펙트럼 특성을 나타내는 LP계수를 추정하도록 구성된 경우에, 상기 전송부가 음성신호에 대한 벡터 양자화 정보로서 LP계수를 전송하지 않도록 구성되는 것을 특징으로 하는 벡터 양자화 장치.
  11. 음성신호에 대한 코드 벡터가 저장된 복수의 코드북이 구비된 시스템에서 상기 음성신호에 대한 벡터 양자화 방법에 있어서,
    입력되는 음성신호를 KLT 도메인으로 변환하는 단계;
    상기 KLT 도메인으로 변환함에 따라 추정된 상기 입력되는 음성신호에 대한 고유값 세트를 토대로 상기 복수의 코드북에서 최적의 코드북을 선택하는 단계;
    선택된 코드북에 저장되어 있는 코드 벡터들과 KLT 도메인으로 변환된 음성신호간의 왜곡 값을 토대로 최적의 코드 벡터를 선택하는 단계;
    선택된 코드 벡터의 인덱스를 상기 입력되는 음성신호에 대응되는 벡터 양자화 값으로서 전송하는 단계를 포함하는 벡터 양자화 방법.
  12. 제 11 항에 있어서, 상기 변환단계는
    상기 입력되는 음성신호에 대한 선형 예측 계수를 추정하는 단계;
    상기 입력되는 음성신호에 대한 공분산 매트릭스를 구하는 단계;
    상기 공분산 매트릭스에 대한 고유값 세트를 구하는 단계;
    상기 고유값 세트에 대한 고유 벡터 세트를 구하는 단계;
    상기 고유 벡터 세트를 이용하여 상기 음성신호에 대응되는 단위 매트릭스를 구하는 단계;
    상기 단위 매트릭스를 이용하여 상기 입력되는 음성신호를 KLT 도메인으로 변환하는 단계를 포함하는 벡터 양자화 방법.
  13. 제 11 항에 있어서, 상기 코드북 선택단계는 상기 고유값 세트와 근사한 고유값 세트와 관련된 코드북을 최적의 코드북으로 선택하는 벡터 양자화 방법.
  14. 제 11 항에 있어서, 상기 최적의 코드 벡터 선택 단계는 상기 왜곡이 최소치인 코드벡터를 상기 최적의 코드 벡터로 선택하는 벡터 양자화 방법.
  15. 제 11 항에 있어서, 상기 코드북 차원은 KLT의 에너지 집중 특성을 사용하여 서브셋 차원으로 줄일 수 있는 벡터 양자화 방법.
  16. 제 12 항에 있어서, 상기 선형 예측 계수 추정 단계가 이전 프레임에서 양자화된 음성신호를 이용하여 현재 프레임의 스펙트럼 특성을 나타내는 선형 예측 계수를 추정하는 경우에, 상기 전송 단계에서 상기 음성신호에 대한 벡터 양자화 정보로서 LP계수를 전송하지 않는 것을 특징으로 하는 벡터 양자화 방법.
  17. 음성신호에 대한 역 벡터 양자화 장치에 있어서,
    KLT(Karhunen-Transform)에 의해 얻어진 음성신호에 대한 코드 벡터를 저장한 코드북을 상기 KLT 도메인 통계치에 따라 복수 개로 분할하여 구비하는 코드북 군;
    수신되는 데이터를 분석하여 상기 코드 벡터의 인덱스를 검출하고, 현재 프레임의 스펙트럼 특성을 나타내는 선형 예측 계수를 토대로 고유값 세트와 단위 매트릭스(U)를 각각 검출하고, 검출된 코드 벡터의 인텍스와 고유값 세트는 상기 코드북 군으로 출력하는 데이터 검출부;
    상기 데이터 검출부로부터 출력되는 단위 매트릭스와 상기 코드 벡터의 인덱스에 의해 상기 코드북 군으로부터 출력되는 코드 벡터를 이용한 역 KLT로 상기 코드 벡터에 대응되는 원래의 음성신호를 복원하는 역 KLT부를 포함하는 역 벡터 양자화 장치.
KR10-2002-0025401A 2002-05-08 2002-05-08 음성신호에 대한 벡터 양자화 및 역 벡터 양자화 장치와그 방법 KR100446630B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR10-2002-0025401A KR100446630B1 (ko) 2002-05-08 2002-05-08 음성신호에 대한 벡터 양자화 및 역 벡터 양자화 장치와그 방법
EP02256142A EP1361567B1 (en) 2002-05-08 2002-09-04 Vector quantization for a speech transform coder
DE60232402T DE60232402D1 (de) 2002-05-08 2002-09-04 Vektorquantisierung für einen Sprach-Transformationskodierer
US10/234,182 US6631347B1 (en) 2002-05-08 2002-09-05 Vector quantization and decoding apparatus for speech signals and method thereof
JP2002376122A JP2004029708A (ja) 2002-05-08 2002-12-26 音声信号に対するベクトル量子化及びデコーディング装置とその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0025401A KR100446630B1 (ko) 2002-05-08 2002-05-08 음성신호에 대한 벡터 양자화 및 역 벡터 양자화 장치와그 방법

Publications (2)

Publication Number Publication Date
KR20030087373A KR20030087373A (ko) 2003-11-14
KR100446630B1 true KR100446630B1 (ko) 2004-09-04

Family

ID=28673112

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0025401A KR100446630B1 (ko) 2002-05-08 2002-05-08 음성신호에 대한 벡터 양자화 및 역 벡터 양자화 장치와그 방법

Country Status (5)

Country Link
US (1) US6631347B1 (ko)
EP (1) EP1361567B1 (ko)
JP (1) JP2004029708A (ko)
KR (1) KR100446630B1 (ko)
DE (1) DE60232402D1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101428938B1 (ko) 2013-08-19 2014-08-08 세종대학교산학협력단 음성 신호의 벡터 양자화 장치 및 그 방법

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7296163B2 (en) * 2000-02-08 2007-11-13 The Trustees Of Dartmouth College System and methods for encrypted execution of computer programs
EP2273494A3 (en) * 2004-09-17 2012-11-14 Panasonic Corporation Scalable encoding apparatus, scalable decoding apparatus
US8385433B2 (en) * 2005-10-27 2013-02-26 Qualcomm Incorporated Linear precoding for spatially correlated channels
US8760994B2 (en) 2005-10-28 2014-06-24 Qualcomm Incorporated Unitary precoding based on randomized FFT matrices
KR20090030200A (ko) 2007-09-19 2009-03-24 엘지전자 주식회사 위상천이 기반의 프리코딩을 이용한 데이터 송수신 방법 및이를 지원하는 송수신기
CN101415121B (zh) * 2007-10-15 2010-09-29 华为技术有限公司 一种自适应的帧预测的方法及装置
CN100578619C (zh) * 2007-11-05 2010-01-06 华为技术有限公司 编码方法和编码器
US8077994B2 (en) * 2008-06-06 2011-12-13 Microsoft Corporation Compression of MQDF classifier using flexible sub-vector grouping
JP5425066B2 (ja) * 2008-06-19 2014-02-26 パナソニック株式会社 量子化装置、符号化装置およびこれらの方法
KR101056462B1 (ko) * 2009-07-02 2011-08-11 세종대학교산학협력단 음성신호 양자화 장치 및 방법
EP2372699B1 (en) * 2010-03-02 2012-12-19 Google, Inc. Coding of audio or video samples using multiple quantizers
KR101348888B1 (ko) * 2012-01-04 2014-01-09 세종대학교산학협력단 Klt 기반 도메인 스위치 스플릿 벡터 양자화 방법 및 장치
KR101413229B1 (ko) * 2013-05-13 2014-08-06 한국과학기술원 방향 추정 장치 및 방법
JP6337122B2 (ja) * 2013-12-17 2018-06-06 ノキア テクノロジーズ オサケユイチア オーディオ信号エンコーダ

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4907276A (en) * 1988-04-05 1990-03-06 The Dsp Group (Israel) Ltd. Fast search method for vector quantizer communication and pattern recognition systems
US5506933A (en) * 1992-03-13 1996-04-09 Kabushiki Kaisha Toshiba Speech recognition using continuous density hidden markov models and the orthogonalizing karhunen-loeve transformation
KR19990039267A (ko) * 1997-11-11 1999-06-05 정선종 신경망을 이용한 영상 데이터 압축/복원 장치의 구조 및압축/복원 방법
US20020010581A1 (en) * 2000-06-19 2002-01-24 Stephan Euler Voice recognition device

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5544277A (en) * 1993-07-28 1996-08-06 International Business Machines Corporation Speech coding apparatus and method for generating acoustic feature vector component values by combining values of the same features for multiple time intervals
US5621852A (en) * 1993-12-14 1997-04-15 Interdigital Technology Corporation Efficient codebook structure for code excited linear prediction coding
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
EP1752968B1 (en) * 1997-10-22 2008-09-10 Matsushita Electric Industrial Co., Ltd. Method and apparatus for generating dispersed vectors
US6151414A (en) * 1998-01-30 2000-11-21 Lucent Technologies Inc. Method for signal encoding and feature extraction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4907276A (en) * 1988-04-05 1990-03-06 The Dsp Group (Israel) Ltd. Fast search method for vector quantizer communication and pattern recognition systems
US5506933A (en) * 1992-03-13 1996-04-09 Kabushiki Kaisha Toshiba Speech recognition using continuous density hidden markov models and the orthogonalizing karhunen-loeve transformation
KR19990039267A (ko) * 1997-11-11 1999-06-05 정선종 신경망을 이용한 영상 데이터 압축/복원 장치의 구조 및압축/복원 방법
US20020010581A1 (en) * 2000-06-19 2002-01-24 Stephan Euler Voice recognition device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101428938B1 (ko) 2013-08-19 2014-08-08 세종대학교산학협력단 음성 신호의 벡터 양자화 장치 및 그 방법

Also Published As

Publication number Publication date
KR20030087373A (ko) 2003-11-14
EP1361567A3 (en) 2005-06-08
EP1361567B1 (en) 2009-05-20
EP1361567A2 (en) 2003-11-12
DE60232402D1 (de) 2009-07-02
US6631347B1 (en) 2003-10-07
JP2004029708A (ja) 2004-01-29

Similar Documents

Publication Publication Date Title
KR100446630B1 (ko) 음성신호에 대한 벡터 양자화 및 역 벡터 양자화 장치와그 방법
RU2742199C1 (ru) Декодер речи, кодер речи, способ декодирования речи, способ кодирования речи, программа декодирования речи и программа кодирования речи
US8468017B2 (en) Multi-stage quantization method and device
US6122608A (en) Method for switched-predictive quantization
CA2202825C (en) Speech coder
CA2193577C (en) Coding of a speech or music signal with quantization of harmonics components specifically and then residue components
WO2007124485A2 (en) Method and apparatus for audio transcoding
Chan et al. A fast method of designing better codebooks for image vector quantization
CN107077857B (zh) 对线性预测系数量化的方法和装置及解量化的方法和装置
EP1513137A1 (en) Speech processing system and method with multi-pulse excitation
CA2090205C (en) Speech coding system
KR100651712B1 (ko) 광대역 음성 부호화기 및 그 방법과 광대역 음성 복호화기및 그 방법
WO2009015944A1 (en) A low-delay audio coder
Özaydın et al. Matrix quantization and mixed excitation based linear predictive speech coding at very low bit rates
US20080183465A1 (en) Methods and Apparatus to Quantize and Dequantize Linear Predictive Coding Coefficient
Kuo et al. New LSP encoding method based on two-dimensional linear prediction
KR101052301B1 (ko) 음성신호 양자화 장치 및 방법
KR19980076955A (ko) 음성 선스펙트럼 주파수의 부호화/복호화 장치 및 그 방법
Chatterjee et al. Low complexity wideband LSF quantization using GMM of uncorrelated Gaussian mixtures
Chatterjee et al. Reduced complexity two stage vector quantization
JPH09120300A (ja) ベクトル量子化装置
Nordén et al. Recursive LPC spectrum coding-a classified VQ approach
JP2683734B2 (ja) 音声符号化法
Miseki et al. Adaptive bit-allocation between the pole-zero synthesis filter and excitation in CELP
Lois Variable Length Coding of Transformed LSF Coefficients

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120716

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20130724

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20140721

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20150902

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20160718

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20170719

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20180718

Year of fee payment: 15