KR100389897B1 - 분할된 lsf 벡터의 예측-연결 양자화 방법 - Google Patents

분할된 lsf 벡터의 예측-연결 양자화 방법 Download PDF

Info

Publication number
KR100389897B1
KR100389897B1 KR1019960051445A KR19960051445A KR100389897B1 KR 100389897 B1 KR100389897 B1 KR 100389897B1 KR 1019960051445 A KR1019960051445 A KR 1019960051445A KR 19960051445 A KR19960051445 A KR 19960051445A KR 100389897 B1 KR100389897 B1 KR 100389897B1
Authority
KR
South Korea
Prior art keywords
lsf
lsfs
classifier
vector
quantization
Prior art date
Application number
KR1019960051445A
Other languages
English (en)
Other versions
KR19980031880A (ko
Inventor
김무영
조용덕
김홍국
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1019960051445A priority Critical patent/KR100389897B1/ko
Publication of KR19980031880A publication Critical patent/KR19980031880A/ko
Application granted granted Critical
Publication of KR100389897B1 publication Critical patent/KR100389897B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Abstract

개선된 분할된 LSF벡터의 예측-연결 양자화 방법에 관한 것이다.
본 발명에 따른 양자화 방법은 음성 신호로부터 구해진 LSF벡터를 upper, middle, lower 코드 벡터로 분할하여 양자화하는 분할된 LSF벡터의 양자화 방법에 있어서, middle 코드 벡터를 과거 프레임 정보로부터 예측한 값을 이용하여 양자화하는 과정; 및 upper 코드 벡터 및 lower 코드 벡터를 양자화된 middle코드 벡터를 이용하여 코드북을 선택하여 양자화하는 과정을 포함함을 특징으로 한다.
본 발명에 따른 분할된 LSFs 벡터의 예측-연결 양자화 방법은 SVQ 혹은 LSVQ 방법에 비해 평균 SD가 낮고, outlier percentage에서도 우수하다는 효과가 있다.

Description

분할된 LSF(Line Spectrum Frequencies)벡터의 예측-연결 양자화 방법
본 발명은 음성 코딩에 관한 것으로서, 더욱 상세하게는 개선된 분할된 LSF벡터의 양자화 방법에 관한 것이다.
최근의 음성 코딩에서 적은 비트를 할당하여 LPC(Linear Predictive Coding) 계수를 양자화하려는 많은 연구가 이루어졌다. LPC계수는 직접 양자화되기에는 너무 변화가 심하므로 이를 LSFs(Line Spectrum Frequencies)로 변환시킨 후 양자화하며, 양자화 방법은 다음과 같이 여러 가지가 있다.
우선 스칼라 양자화 방법은 각 LSFs를 개별적으로 양자화하며, 이에 따라 양질의 음성을 나타내기 위해서는 적어도 32bits/frame이 요구된다. 하지만 4.8kbps이하의 대부분의 음성 부호화기들은 LSFs에 24bits/frame 이상을 할당하지 않으므로 비트수를 줄이기 위해 여러 가지의 벡터 양자화(Vector Quantization) 알고리듬이 개발되었다.
벡터 양자화 방법은 비트수는 줄일 수 있으나 다음과 같은 두 가지의 제약이 따른다.
1) 코드북을 저장하는 데 사용되는 메모리양
2) 코드벡터를 찾아내는 데 사용되는 시간
위의 두가지 문제를 해결하기 위해서 Paliwal과 Atal은 분할된 벡터 양자화 방법(split-vector quantization)을 제안하였다. 이 방법에서는 LSFs를 세 개의 부분으로 나누고, 각 부분을 독립적으로 양자화함으로써, 메모리와 시간을 절약할 수 있었다. 하지만 SVQ에서는 LSFs의 순차성(the ordering property of LSFs)이 무시되는 코드벡터가 다수 존재하며 VQ 탐색 공간이 좁아지는 단점이 있다.
본 발명은 상기한 SVQ 방법의 단점을 보완하기 위하여 안출된 것으로서 분할된 LSFs들을 양자화하는 데 있어서 프레임 내와 프레임간의 상관성(correlation)을 사용하여 코드북을 작성하고, 코딩이 이루어지게 하는 개선된 방법을 제공하는 것을 그 목적으로 한다.
도 1은 본 발명에 따른 양자화 방법을 도식적으로 보이기 위한 도면이다.
도 2는 middle 코드 벡터의 예측 양자화 과정을 도식적으로 보이기 위한 도면이다.
도 3은 본 발명에 따른 양자화 방법을 적용한 부호화기의 구성을 보이는 블록도이다.
도 4는 도 1 및 도 3에 도시된 제1분류기의 상세한 구성을 보이는 블록도이다.
도 5는 도 1 및 도 3에 도시된 제2분류기의 상세한 구성을 보이는 블록도이다.
상기의 목적을 달성하는 본 발명에 따른 분할된 LSF 벡터의 예측-연결 양자화 방법은
음성 신호로부터 구해진 LSF벡터를 upper, middle, lower 코드 벡터로 분할하여 양자화하는 분할된 LSF벡터의 양자화 방법에 있어서,
middle 코드 벡터를 과거 프레임 정보로부터 예측한 값을 이용하여 양자화하는 과정; 및
upper 코드 벡터 및 lower 코드 벡터를 양자화된 middle코드 벡터를 이용하여 코드북을 선택하여 양자화하는 과정을 포함함을 특징으로 한다.
이하 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.
본 발명에서는 10차 LSFs벡터를 다음과 같이 lower, middle, 그리고 upper 3개의 부벡터로 나누고,
각 부벡터들의 양자화된 형태를 다음과 같이 표기한다.
종래의 SVQ방법은
1)우선 middle 코드 벡터를 양자화하고,
2)lower와 upper 코드 벡터는 코드북 내에서 다음 식과 같은 순차성을 만족하는 것만을 선택하여 양자화한다.
따라서, middle 코드 벡터가 결정된 후에는 lower 코드 벡터들 중에서인 것과인 것은 사용되지 않으며, 결과적으로 VQ 탐색 공간을 줄여서 음질을 저하시킨다.
본 발명에 따른 예측-연결 SVQ(Predictive-Linked SVQ)에서는 SVQ에서 사용하지 못하던 공간을 탐색 가능하도록 함으로써 성능 향상을 얻을 수 있다.
본 발명에 따른 예측-연결 양자화 과정은 다음과 같다.
1)우선 도 2에 도시된 바와 같이 과거 프레임의 middle 코드 벡터로부터 현재 프레임의 middle 코드 벡터를 예측(prediction)하여 LSFs 간의 프레임내 상관성(interframe correlation)을 제거한다.
현재 프레임의 middle LSFs를라하고, 과거 프레임의 middle LSFs를라고 가정하자.
이때, 현재 프레임의 실제 LSFs와 예측된 LSFs의 차를라 하면,
라고 할 수 있고, 이 값을 양자화하여 전송한다.
여기서,는 i번째 LSF의 평균값으로 N개의 트레이닝 데이터(training)데이터에 대해서 다음 식에 의해 미리 구한다.
또한,의 양자화된 값을이라고 하면, 현재 프레임의 middle LSFs의 양자화된 값은 다음 식과 같이 나타낼 수 있다.
또한, 현재 프레임의 middle LSFs의 양자화된 값은 다음 프레임을 위해 다음 식과 같이 갱신(update)된다.
은 초기 프레임에 대해서는 다음 식으로 초기화되어 있다.
2) middle 코드 벡터를 양자화하여를 결정한다.
중간 LSFs를 예측과 middle 코드 벡터를 양자화하기 위한 코드북(COM)을 사용하여 양자화하고, 그에 해당하는 코드워드 인덱스(index1)를 얻는다.
가장 근접한 코드 벡터를 구하기 위해서 다음과 같은 가중 유클리디안 디스턴스(weighted Euclidean distance measure)를 사용한다.
여기서, W는 양자화되기 전의 원래 LSFs이고,는 양자화 후에 얻게될 COM내에 보관된 코드 벡터의 값이다.
여기서,는 각각의 i번째 LSFs이다.
i번째 LSFs의 가변 가중치 함수(variable weight function)는 다음과 같이 나타나며,
이고,이다.
이 함수는 포만트 주파수(formant frequencies)에 가중치를 두어, 이 함수를 사용하지 않은 경우에 비해서 음질을 향상시킨다.
3)lower와 upper 코드 벡터는 도 3에 도시된 바와 같이 각각의 범위에 따라 연결(linked)된 다른 종류의 코드북을 선택하여 양자화한다.
먼저, 도 4의 제1분류기와를 이용하여 어떤 COL을 사용할 지를 결정한다. COL의 종류가 결정된 후에는를 양자화하여, index2를 구한다.
다음으로 도 4의 제2분류기와를 이용하여 어떤 COU을 사용할 지를 결정한다. COU의 종류가 결정된 후에는를 양자화하여, index3을 구한다.
구해진 index1, index2, index3을 전송한다. 어떤 COL과 COU가 선택되어 지는 가는 index1을 통하여 구할 수 있으므로 부가적인 비트를 전송하지 않아도 디코더에서 양자화된 LSFs를 구할 수 있다.
도 3은 본 발명에 따른 양자화 방법을 적용한 부호화기의 구성을 보이는 블록도이다. 도 3에 도시된 장치는 middle 코드 벡터를 양자화하여 양자화된 middle 코드 벡터및 index1을 발생하는 제1양자화기(30), 제1양자화기(30)에서 발생된를 입력하여 3개의 COL중 적합한 코드북을 결정하는 제1분류기(32), 제1양자화기(30)에서 발생된를 입력하여 3개의 COU중 적합한 코드북을 결정하는 제2분류기(34), 제1분류기에 의해 결정된 코드북을 사용하여 lower 코드 벡터를 부호화하여 index2를 발생하는 제2양자화기(36), 제2분류기에 의해 결정된 코드북을 사용하여 upper 코드 벡터를 부호화하여 index3을 발생하는 제3양자화기(38)를 포함한다.
도 4 및 도 5는 각각 도 3에 도시된 제1분류기(32) 및 제2분류기(34)의 상세한 구성을 보이는 블록도들이다.
PLSVQ의 성능을 측정하기 위해, NATC 음성 데이터 베이스를 사용하여 실험하였다. NATC 데이터 베이스의 한국어 음성은 다음과 같이 구성되어 있다.
-4명의 남성, 4명의 여성 ; 8명
-각 사람마다 서로 다른 12개 문장을 8초씩 발음함 ;8명*12문장*8초=768초
-각 문장은 두 개의 sentence로 구성
본 실험에서는 여성음 한 문장을 제외한 760초를 트레이닝 데이터로, 제외된 여성음 한 문장을 테스트 데이터로 사용하였다.
음성 데이터는 20㎳마다 자기 상관 함수(autocorrelation method)에 근거한 10차 LPC 분석을 거쳤으며, 다시 LSFs로 변환되었다. LSFs는 효율적인 양자화를 위해서 3,3,4 차원을 갖는 3개의 부벡터로 분리되었다.
PLSVQ의 성능을 일반적인 SVQ와 LSVQ 등과 비교하였다. 성능 평가는 spectral distortion(SD) measure를 사용하였다. i번째 프레임의 SD는 다음과 같다.
여기서,는 원래 LSFs의 파워 스펙트럼(power spectrum of the original LSF)을 나타내며,는 양자화된 LSFs의 파워 스펙트럼을 나타낸다. 사람 귀의 특성에 맞춰서 a는 125㎐/4000㎐*π, b는 3400㎐/4000㎐*π가 선택되었다.
표1은 PLSVQ의 성능을 여러 bit rate에 대해서 측정한 것이다. 표에 보이는 것과 같이 24bits/frame에서 평균 SD=1.01㏈, SD>2㏈되는 것이 2%로 나타났다.
bits/frame(COL,COM,COU) Average SD(㏈) OUTLIER PERCENTAGE
2㏈-4㏈(%) >4㏈(%)
21(7,7,7) 1.25 6.48 0.00
23(8.8.7) 1.08 2.74 0.00
24(8,8,8) 1.01 2.00 0.00
표 2에는 PLSVQ와 다른 SVQ알고리듬의 평균 SD가 보여진다. PLSVQ의 평균 SD는 다른 알고리듬에 비해 낮았고, outlier percentage에서도 우수함을 알 수 있다. 표1과 표2를 통해 PLSVQ는 23bits/frame에서 24bits/frame의 SVQ보다 뛰어난 성능을 나타냄을 알 수 있다.
Quantizer Average SD(㏈) OUTLIER PERCENTAGE
2㏈-4㏈(%) >4㏈(%)
SVQ 1.17 3.24 0.00
LSVQ 1.08 1.50 0.00
PLSVQ 1.01 2.00 0.00
상술한 바와 같이 본 발명에 따른 분할된 LSFs 벡터의 양자화 방법은 SVQ 혹은 LSVQ 방법에 비해 평균 SD가 낮고, outlier percentage에서도 우수하다는 효과가 있다.

Claims (1)

  1. 음성 신호로부터 구해진 LSF벡터를 upper, middle, lower 코드 벡터로 분할하여 양자화하는 분할된 LSF벡터의 양자화 방법에 있어서,
    middle 코드 벡터를 과거 프레임 정보로부터 예측한 값을 이용하여 양자화하는 과정; 및
    upper 코드 벡터 및 lower 코드 벡터를 양자화된 middle코드 벡터를 이용하여 코드북을 선택하여 양자화하는 과정을 포함하는 분할된 LSF 벡터의 예측-연결 양자화 방법.
KR1019960051445A 1996-10-31 1996-10-31 분할된 lsf 벡터의 예측-연결 양자화 방법 KR100389897B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960051445A KR100389897B1 (ko) 1996-10-31 1996-10-31 분할된 lsf 벡터의 예측-연결 양자화 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960051445A KR100389897B1 (ko) 1996-10-31 1996-10-31 분할된 lsf 벡터의 예측-연결 양자화 방법

Publications (2)

Publication Number Publication Date
KR19980031880A KR19980031880A (ko) 1998-07-25
KR100389897B1 true KR100389897B1 (ko) 2003-10-17

Family

ID=37421825

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960051445A KR100389897B1 (ko) 1996-10-31 1996-10-31 분할된 lsf 벡터의 예측-연결 양자화 방법

Country Status (1)

Country Link
KR (1) KR100389897B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008110114A1 (en) * 2007-03-12 2008-09-18 Huawei Technologies Co., Ltd. A quantization encoding decoding method and device

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100300963B1 (ko) * 1998-09-09 2001-09-22 윤종용 연결스칼라양자화기
KR100316304B1 (ko) * 2000-01-14 2001-12-12 대표이사 서승모 음성 부호화기의 lsp 코드북을 위한 고속탐색 방법

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5012518A (en) * 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US5047852A (en) * 1988-07-22 1991-09-10 Hitachi, Ltd. Adaptive transform encoder for digital image signal in recording/reproducing apparatus
US5051840A (en) * 1988-12-14 1991-09-24 Fuji Photo Film Co., Ltd. Device for coding a picture signal by compression
US5121216A (en) * 1989-07-19 1992-06-09 Bell Communications Research Adaptive transform coding of still images
US5151968A (en) * 1989-08-04 1992-09-29 Fujitsu Limited Vector quantization encoder and vector quantization decoder
EP0658873A1 (en) * 1993-12-13 1995-06-21 Hughes Aircraft Company Robust vector quantization of line spectral frequencies
US5487128A (en) * 1991-02-26 1996-01-23 Nec Corporation Speech parameter coding method and appparatus
JPH08272395A (ja) * 1995-03-31 1996-10-18 Nec Corp 音声符号化装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5047852A (en) * 1988-07-22 1991-09-10 Hitachi, Ltd. Adaptive transform encoder for digital image signal in recording/reproducing apparatus
US5051840A (en) * 1988-12-14 1991-09-24 Fuji Photo Film Co., Ltd. Device for coding a picture signal by compression
US5121216A (en) * 1989-07-19 1992-06-09 Bell Communications Research Adaptive transform coding of still images
US5012518A (en) * 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US5151968A (en) * 1989-08-04 1992-09-29 Fujitsu Limited Vector quantization encoder and vector quantization decoder
US5487128A (en) * 1991-02-26 1996-01-23 Nec Corporation Speech parameter coding method and appparatus
EP0658873A1 (en) * 1993-12-13 1995-06-21 Hughes Aircraft Company Robust vector quantization of line spectral frequencies
JPH08272395A (ja) * 1995-03-31 1996-10-18 Nec Corp 音声符号化装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008110114A1 (en) * 2007-03-12 2008-09-18 Huawei Technologies Co., Ltd. A quantization encoding decoding method and device
CN101266796B (zh) * 2007-03-12 2012-05-23 华为技术有限公司 一种量化编解码方法及装置

Also Published As

Publication number Publication date
KR19980031880A (ko) 1998-07-25

Similar Documents

Publication Publication Date Title
US6345248B1 (en) Low bit-rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
US7584095B2 (en) REW parametric vector quantization and dual-predictive SEW vector quantization for waveform interpolative coding
KR19990006262A (ko) 디지털 음성 압축 알고리즘에 입각한 음성 부호화 방법
CN106463134B (zh) 用于对线性预测系数进行量化的方法和装置及用于反量化的方法和装置
KR100322706B1 (ko) 선형예측부호화계수의부호화및복호화방법
US4791670A (en) Method of and device for speech signal coding and decoding by vector quantization techniques
US6917914B2 (en) Voice over bandwidth constrained lines with mixed excitation linear prediction transcoding
KR100389897B1 (ko) 분할된 lsf 벡터의 예측-연결 양자화 방법
US6275796B1 (en) Apparatus for quantizing spectral envelope including error selector for selecting a codebook index of a quantized LSF having a smaller error value and method therefor
CA2177226C (en) Method of and apparatus for coding speech signal
KR100446594B1 (ko) 음성선스펙트럼주파수의부호화/복호화장치및그방법
JPH09261065A (ja) 量子化装置及び逆量子化装置及び量子化逆量子化システム
AU6375799A (en) Linear predictive analysis-by-synthesis encoding method and encoder
Zinser et al. CELP coding at 4.0 kb/sec and below: Improvements to FS-1016
US7716045B2 (en) Method for quantifying an ultra low-rate speech coder
Copperi et al. Vector quantization and perceptual criteria for low-rate coding of speech
Xydeas et al. A long history quantization approach to scalar and vector quantization of LSP coefficients
KR102539165B1 (ko) 협력 양자화에 기초한 lpc 계수의 잔차 신호 코딩 방법 및 상기 방법을 수행하는 컴퓨팅 장치
JP3024467B2 (ja) 音声符号化装置
Sinervo et al. Multi-mode matrix quantizer for low bit rate LSF quantization.
Ojala et al. Variable model order LPC quantization
EP0753841A2 (en) Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits
KR100300963B1 (ko) 연결스칼라양자화기
JP2805749B2 (ja) 音声符号化方法
KR100389898B1 (ko) 음성부호화에 있어서 선스펙트럼쌍 계수의 양자화 방법

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130530

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20140529

Year of fee payment: 12

LAPS Lapse due to unpaid annual fee