KR100389897B1

KR100389897B1 - 분할된 lsf 벡터의 예측-연결 양자화 방법

Info

Publication number: KR100389897B1
Application number: KR1019960051445A
Authority: KR
Inventors: 김무영; 조용덕; 김홍국
Original assignee: 삼성전자주식회사
Priority date: 1996-10-31
Filing date: 1996-10-31
Publication date: 2003-10-17
Also published as: KR19980031880A

Abstract

개선된 분할된 LSF벡터의 예측-연결 양자화 방법에 관한 것이다.

본 발명에 따른 양자화 방법은 음성 신호로부터 구해진 LSF벡터를 upper, middle, lower 코드 벡터로 분할하여 양자화하는 분할된 LSF벡터의 양자화 방법에 있어서, middle 코드 벡터를 과거 프레임 정보로부터 예측한 값을 이용하여 양자화하는 과정; 및 upper 코드 벡터 및 lower 코드 벡터를 양자화된 middle코드 벡터를 이용하여 코드북을 선택하여 양자화하는 과정을 포함함을 특징으로 한다.

본 발명에 따른 분할된 LSFs 벡터의 예측-연결 양자화 방법은 SVQ 혹은 LSVQ 방법에 비해 평균 SD가 낮고, outlier percentage에서도 우수하다는 효과가 있다.

Description

분할된 LSF(Line Spectrum Frequencies)벡터의 예측-연결 양자화 방법

본 발명은 음성 코딩에 관한 것으로서, 더욱 상세하게는 개선된 분할된 LSF벡터의 양자화 방법에 관한 것이다.

최근의 음성 코딩에서 적은 비트를 할당하여 LPC(Linear Predictive Coding) 계수를 양자화하려는 많은 연구가 이루어졌다. LPC계수는 직접 양자화되기에는 너무 변화가 심하므로 이를 LSFs(Line Spectrum Frequencies)로 변환시킨 후 양자화하며, 양자화 방법은 다음과 같이 여러 가지가 있다.

우선 스칼라 양자화 방법은 각 LSFs를 개별적으로 양자화하며, 이에 따라 양질의 음성을 나타내기 위해서는 적어도 32bits/frame이 요구된다. 하지만 4.8kbps이하의 대부분의 음성 부호화기들은 LSFs에 24bits/frame 이상을 할당하지 않으므로 비트수를 줄이기 위해 여러 가지의 벡터 양자화(Vector Quantization) 알고리듬이 개발되었다.

벡터 양자화 방법은 비트수는 줄일 수 있으나 다음과 같은 두 가지의 제약이 따른다.

1) 코드북을 저장하는 데 사용되는 메모리양

2) 코드벡터를 찾아내는 데 사용되는 시간

위의 두가지 문제를 해결하기 위해서 Paliwal과 Atal은 분할된 벡터 양자화 방법(split-vector quantization)을 제안하였다. 이 방법에서는 LSFs를 세 개의 부분으로 나누고, 각 부분을 독립적으로 양자화함으로써, 메모리와 시간을 절약할 수 있었다. 하지만 SVQ에서는 LSFs의 순차성(the ordering property of LSFs)이 무시되는 코드벡터가 다수 존재하며 VQ 탐색 공간이 좁아지는 단점이 있다.

본 발명은 상기한 SVQ 방법의 단점을 보완하기 위하여 안출된 것으로서 분할된 LSFs들을 양자화하는 데 있어서 프레임 내와 프레임간의 상관성(correlation)을 사용하여 코드북을 작성하고, 코딩이 이루어지게 하는 개선된 방법을 제공하는 것을 그 목적으로 한다.

도 1은 본 발명에 따른 양자화 방법을 도식적으로 보이기 위한 도면이다.

도 2는 middle 코드 벡터의 예측 양자화 과정을 도식적으로 보이기 위한 도면이다.

도 3은 본 발명에 따른 양자화 방법을 적용한 부호화기의 구성을 보이는 블록도이다.

도 4는 도 1 및 도 3에 도시된 제1분류기의 상세한 구성을 보이는 블록도이다.

도 5는 도 1 및 도 3에 도시된 제2분류기의 상세한 구성을 보이는 블록도이다.

상기의 목적을 달성하는 본 발명에 따른 분할된 LSF 벡터의 예측-연결 양자화 방법은

음성 신호로부터 구해진 LSF벡터를 upper, middle, lower 코드 벡터로 분할하여 양자화하는 분할된 LSF벡터의 양자화 방법에 있어서,

middle 코드 벡터를 과거 프레임 정보로부터 예측한 값을 이용하여 양자화하는 과정; 및

upper 코드 벡터 및 lower 코드 벡터를 양자화된 middle코드 벡터를 이용하여 코드북을 선택하여 양자화하는 과정을 포함함을 특징으로 한다.

이하 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.

본 발명에서는 10차 LSFs벡터를 다음과 같이 lower, middle, 그리고 upper 3개의 부벡터로 나누고,

각 부벡터들의 양자화된 형태를 다음과 같이 표기한다.

종래의 SVQ방법은

1)우선 middle 코드 벡터를 양자화하고,

2)lower와 upper 코드 벡터는 코드북 내에서 다음 식과 같은 순차성을 만족하는 것만을 선택하여 양자화한다.

따라서, middle 코드 벡터가 결정된 후에는 lower 코드 벡터들 중에서인 것과인 것은 사용되지 않으며, 결과적으로 VQ 탐색 공간을 줄여서 음질을 저하시킨다.

본 발명에 따른 예측-연결 SVQ(Predictive-Linked SVQ)에서는 SVQ에서 사용하지 못하던 공간을 탐색 가능하도록 함으로써 성능 향상을 얻을 수 있다.

본 발명에 따른 예측-연결 양자화 과정은 다음과 같다.

1)우선 도 2에 도시된 바와 같이 과거 프레임의 middle 코드 벡터로부터 현재 프레임의 middle 코드 벡터를 예측(prediction)하여 LSFs 간의 프레임내 상관성(interframe correlation)을 제거한다.

현재 프레임의 middle LSFs를라하고, 과거 프레임의 middle LSFs를라고 가정하자.

이때, 현재 프레임의 실제 LSFs와 예측된 LSFs의 차를라 하면,

라고 할 수 있고, 이 값을 양자화하여 전송한다.

여기서,는 i번째 LSF의 평균값으로 N개의 트레이닝 데이터(training)데이터에 대해서 다음 식에 의해 미리 구한다.

또한,의 양자화된 값을이라고 하면, 현재 프레임의 middle LSFs의 양자화된 값은 다음 식과 같이 나타낼 수 있다.

또한, 현재 프레임의 middle LSFs의 양자화된 값은 다음 프레임을 위해 다음 식과 같이 갱신(update)된다.

은 초기 프레임에 대해서는 다음 식으로 초기화되어 있다.

2) middle 코드 벡터를 양자화하여를 결정한다.

중간 LSFs를 예측과 middle 코드 벡터를 양자화하기 위한 코드북(COM)을 사용하여 양자화하고, 그에 해당하는 코드워드 인덱스(index1)를 얻는다.

가장 근접한 코드 벡터를 구하기 위해서 다음과 같은 가중 유클리디안 디스턴스(weighted Euclidean distance measure)를 사용한다.

여기서, W는 양자화되기 전의 원래 LSFs이고,는 양자화 후에 얻게될 COM내에 보관된 코드 벡터의 값이다.

여기서,와는 각각와의 i번째 LSFs이다.

i번째 LSFs의 가변 가중치 함수(variable weight function)는 다음과 같이 나타나며,

이고,이다.

이 함수는 포만트 주파수(formant frequencies)에 가중치를 두어, 이 함수를 사용하지 않은 경우에 비해서 음질을 향상시킨다.

3)lower와 upper 코드 벡터는 도 3에 도시된 바와 같이 각각와의 범위에 따라 연결(linked)된 다른 종류의 코드북을 선택하여 양자화한다.

먼저, 도 4의 제1분류기와를 이용하여 어떤 COL을 사용할 지를 결정한다. COL의 종류가 결정된 후에는를 양자화하여, index2를 구한다.

다음으로 도 4의 제2분류기와를 이용하여 어떤 COU을 사용할 지를 결정한다. COU의 종류가 결정된 후에는를 양자화하여, index3을 구한다.

구해진 index1, index2, index3을 전송한다. 어떤 COL과 COU가 선택되어 지는 가는 index1을 통하여 구할 수 있으므로 부가적인 비트를 전송하지 않아도 디코더에서 양자화된 LSFs를 구할 수 있다.

도 3은 본 발명에 따른 양자화 방법을 적용한 부호화기의 구성을 보이는 블록도이다. 도 3에 도시된 장치는 middle 코드 벡터를 양자화하여 양자화된 middle 코드 벡터및 index1을 발생하는 제1양자화기(30), 제1양자화기(30)에서 발생된를 입력하여 3개의 COL중 적합한 코드북을 결정하는 제1분류기(32), 제1양자화기(30)에서 발생된를 입력하여 3개의 COU중 적합한 코드북을 결정하는 제2분류기(34), 제1분류기에 의해 결정된 코드북을 사용하여 lower 코드 벡터를 부호화하여 index2를 발생하는 제2양자화기(36), 제2분류기에 의해 결정된 코드북을 사용하여 upper 코드 벡터를 부호화하여 index3을 발생하는 제3양자화기(38)를 포함한다.

도 4 및 도 5는 각각 도 3에 도시된 제1분류기(32) 및 제2분류기(34)의 상세한 구성을 보이는 블록도들이다.

PLSVQ의 성능을 측정하기 위해, NATC 음성 데이터 베이스를 사용하여 실험하였다. NATC 데이터 베이스의 한국어 음성은 다음과 같이 구성되어 있다.

-4명의 남성, 4명의 여성 ; 8명

-각 사람마다 서로 다른 12개 문장을 8초씩 발음함 ;8명*12문장*8초=768초

-각 문장은 두 개의 sentence로 구성

본 실험에서는 여성음 한 문장을 제외한 760초를 트레이닝 데이터로, 제외된 여성음 한 문장을 테스트 데이터로 사용하였다.

음성 데이터는 20㎳마다 자기 상관 함수(autocorrelation method)에 근거한 10차 LPC 분석을 거쳤으며, 다시 LSFs로 변환되었다. LSFs는 효율적인 양자화를 위해서 3,3,4 차원을 갖는 3개의 부벡터로 분리되었다.

PLSVQ의 성능을 일반적인 SVQ와 LSVQ 등과 비교하였다. 성능 평가는 spectral distortion(SD) measure를 사용하였다. i번째 프레임의 SD는 다음과 같다.

여기서,는 원래 LSFs의 파워 스펙트럼(power spectrum of the original LSF)을 나타내며,는 양자화된 LSFs의 파워 스펙트럼을 나타낸다. 사람 귀의 특성에 맞춰서 a는 125㎐/4000㎐*π, b는 3400㎐/4000㎐*π가 선택되었다.

표1은 PLSVQ의 성능을 여러 bit rate에 대해서 측정한 것이다. 표에 보이는 것과 같이 24bits/frame에서 평균 SD=1.01㏈, SD>2㏈되는 것이 2%로 나타났다.

bits/frame(COL,COM,COU)	Average SD(㏈)	OUTLIER PERCENTAGE
bits/frame(COL,COM,COU)	Average SD(㏈)	2㏈-4㏈(%)	>4㏈(%)
21(7,7,7)	1.25	6.48	0.00
23(8.8.7)	1.08	2.74	0.00
24(8,8,8)	1.01	2.00	0.00

표 2에는 PLSVQ와 다른 SVQ알고리듬의 평균 SD가 보여진다. PLSVQ의 평균 SD는 다른 알고리듬에 비해 낮았고, outlier percentage에서도 우수함을 알 수 있다. 표1과 표2를 통해 PLSVQ는 23bits/frame에서 24bits/frame의 SVQ보다 뛰어난 성능을 나타냄을 알 수 있다.

Quantizer	Average SD(㏈)	OUTLIER PERCENTAGE
Quantizer	Average SD(㏈)	2㏈-4㏈(%)	>4㏈(%)
SVQ	1.17	3.24	0.00
LSVQ	1.08	1.50	0.00
PLSVQ	1.01	2.00	0.00

상술한 바와 같이 본 발명에 따른 분할된 LSFs 벡터의 양자화 방법은 SVQ 혹은 LSVQ 방법에 비해 평균 SD가 낮고, outlier percentage에서도 우수하다는 효과가 있다.

Claims

음성 신호로부터 구해진 LSF벡터를 upper, middle, lower 코드 벡터로 분할하여 양자화하는 분할된 LSF벡터의 양자화 방법에 있어서,

middle 코드 벡터를 과거 프레임 정보로부터 예측한 값을 이용하여 양자화하는 과정; 및

upper 코드 벡터 및 lower 코드 벡터를 양자화된 middle코드 벡터를 이용하여 코드북을 선택하여 양자화하는 과정을 포함하는 분할된 LSF 벡터의 예측-연결 양자화 방법.